Eine der größten Herausforderungen für Datenwissenschaftler ist die lange Laufzeit von Python-Code beim Umgang mit extrem großen Datensätzen oder hochkomplexen Modellen für maschinelles Lernen/Deep Studying. Viele Methoden haben sich zur Verbesserung der Codeeffizienz als wirksam erwiesen, wie z. B. Dimensionsreduzierung, Modelloptimierung und Merkmalsauswahl – es handelt sich hierbei um algorithmenbasierte Lösungen. Eine weitere Möglichkeit, dieser Herausforderung zu begegnen, besteht darin, in bestimmten Fällen eine andere Programmiersprache zu verwenden. Im heutigen Artikel werde ich mich nicht auf algorithmische Methoden zur Verbesserung der Codeeffizienz konzentrieren. Stattdessen werde ich praktische Techniken besprechen, die sowohl praktisch als auch leicht zu erlernen sind.
Zur Veranschaulichung verwende ich den On-line-Einzelhandelsdatensatz, einen öffentlich verfügbaren Datensatz unter einer Artistic Commons Attribution 4.0 Worldwide (CC BY 4.0)-Lizenz. Sie können den Originaldatensatz herunterladen Daten zum On-line-Einzelhandel aus dem UCI Machine Studying Repository. Dieser Datensatz enthält alle Transaktionsdaten, die zwischen einem bestimmten Zeitraum für einen im Vereinigten Königreich ansässigen und registrierten On-line-Einzelhändler außerhalb eines Ladengeschäfts anfallen. Das Ziel besteht darin, ein Modell zu trainieren, um vorherzusagen, ob der Kunde einen erneuten Kauf tätigen würde, und der folgende Python-Code wird verwendet, um das Ziel zu erreichen.