Einstieg in die Datenwissenschaft: Die Guten, die Schlechten und die Python-Bugs

Foto von Markus Spiske An Unsplash

Martin Luther King Jr. ist berühmt für seine Rede, Ich habe einen Traum. Er hielt es am 28. August 1963 im Lincoln Memorial in Washington, D.C. vor etwa 250.000 Menschen. Sie gilt als eine der bedeutendsten Reden des 20. Jahrhunderts. Es spielte eine entscheidende Rolle in der Bürgerrechtsbewegung für schwarze Amerikaner.

Während dieser Rede sagte er, dass er von einem Tag träume, an dem seine vier Kinder in einer Nation leben würden, in der Menschen nicht nach ihrer Hautfarbe, sondern nach ihrem Charakter beurteilt werden.

Auch ich hatte vor einigen Jahren einen Traum. Es struggle nicht so glorreich und hat den Lauf der Geschichte nicht so verändert wie das von Martin Luther King. Mein Ziel struggle es, Datenwissenschaftler zu werden.

Nicht wegen des Prestiges oder weil es im Development lag (und immer noch ist), sondern weil ich es wirklich liebe, mit Daten zu arbeiten, komplexe Probleme zu lösen und Erkenntnisse zu nutzen, um Geschäftsergebnisse voranzutreiben. Als ich Datenwissenschaftler wurde, trafen meine einzigartigen Fähigkeiten und Leidenschaften aufeinander. Weißt du, das Candy Spot, der zu einer erfüllenden Karriere führt.

Meine Reise struggle nicht einfach. Ich wusste weder, wo ich anfangen sollte, noch wusste ich, was ich als nächstes tun sollte. Ich nahm an verschiedenen Kursen teil, von denen sich viele als nicht hilfreich erwiesen. Ich habe auch unzählige Artikel über Information Science gelesen. Während es harte Arbeit erfordert, Datenwissenschaftler zu werden, habe ich viel Mühe auf Dinge verwendet, die letztendlich nicht notwendig waren.

Ich wünschte, jemand hätte mir die Anleitung gegeben, die ich gleich mit Ihnen teilen werde. Dies ist der Zweck dieses Artikels. Die gute Nachricht? Das Befolgen dieser Schritte ist keine Garantie für einen Job als Datenwissenschaftler, aber sie werden Ihre Chancen erheblich verbessern – auch ohne Doktortitel! Ich kenne mehrere Fachleute, die sich ohne Doktortitel als Datenwissenschaftler hervorgetan haben. Der Erfolg in diesem Bereich hängt vor allem von Beharrlichkeit und praktischer Erfahrung ab.

Der Anfang ist der wichtigste Teil jeder Arbeit.“

— Platon

Untersuchungen zeigen dass ein Kleinkind über einen Zeitraum von zwei bis drei Monaten etwa 14.000 Schritte macht und 100 Stürze professional Tag erlebt, bevor es das Laufen beherrscht. Dennoch bleiben sie hartnäckig und denken nie daran, aufzugeben.

Im Gegensatz dazu machen wir als Erwachsene oft das Gegenteil. Wir neigen dazu, aufzugeben, sobald wir auf Hindernisse stoßen. Wo ein Erwachsener 100 Misserfolge sieht, sieht ein Child 100 Lernmöglichkeiten. Das Child analysiert sein Versagen nicht zu sehr und überschätzt die Risiken nicht. Es fängt einfach an, versucht es, fällt und versucht es erneut!

Betrachten Sie die Geschichte von Justin Kan, dem Mitbegründer von Twitch. Seine unternehmerische Reise begann nicht mit einem Blockbuster-Erfolg. Es begann mit dem, was er als „Scheiß erster Begin„Kiko genannt, eine On-line-Kalender-App. Kiko konkurrierte mit Giganten wie Google Kalender, wurde aber schließlich bei eBay für 258.100 US-Greenback verkauft!

Als nächstes startete er Justin.television, eine Plattform, auf der er sein Leben rund um die Uhr dwell streamte. Aus Justin.television wurde schließlich Twitch, eine Reside-Streaming-Plattform mit Schwerpunkt auf Gaming. Im Jahr 2014 erwarb Amazon Twitch für 970 Millionen US-Greenback!

Wie Justin Kan sagte: „Warten Sie nicht. Bauen Sie jetzt Ihr erstes beschissenes Startup auf.

Dieser Rat gilt auch für Ihre Reise in die Datenwissenschaft. Irgendwo anfangen. Beginnen Sie jetzt Ihren Lernprozess. Auch wenn sich Ihr erster Versuch „beschissen“ anfühlt und Sie nicht sicher sind, wo Sie anfangen sollen, ist es in Ordnung. Sie können auf Ihren anfänglichen Bemühungen aufbauen, und nichts hindert Sie daran, Ihre Richtung im Laufe der Zeit anzupassen. Sie müssen jetzt und irgendwo anfangen.

Foto von Vlad Bagacian An Unsplash

Der Kathedrale von Beauvais in Frankreich sollte im 13. Jahrhundert die höchste Kathedrale der Welt werden. Sein ehrgeiziges Design sprengte die Grenzen der gotischen Architektur. Allerdings kam es 1284 zu einem bemerkenswerten Einsturz, als das Chorgewölbe aufgrund unzureichender Fundamente und struktureller Unterstützung einstürzte. Es ist bis heute unvollendet.

Dies dient als starke Analogie für Ihre Reise in die Datenwissenschaft. Sie könnten (wir alle) versucht sein, direkt in die spannenden Teile einzutauchen, wie zum Beispiel Deep-Studying-Modelle, LLMs oder die neuesten Frameworks für maschinelles Lernen. Aber wie bei der Kathedrale von Beauvais könnte Ihr ehrgeiziger Plan ohne ein solides Fundament scheitern. Um sicherzustellen, dass Ihr Wissen fundiert genug ist, um fortgeschrittenere Konzepte zu unterstützen, ist es wichtig, zunächst die Grundlagen zu erlernen.

Mathematik: Ihre universelle Sprache

Stellen Sie sich Mathematik als die Sprache der Muster vor. Überall gibt es Mathematik. Und ganz ehrlich: Wenn Sie Mathematik nicht mögen, ist eine Karriere in der Datenwissenschaft möglicherweise nicht die richtige Wahl für Sie.

Sie müssen kein Mathematiker werden, aber Sie müssen die folgenden Schlüsselkonzepte verstehen:

  • Lineare Algebra (Matrizen, Vektoren usw.): Stellen Sie sich Matrizen und Vektoren als die Sprache vor, in der Daten kommunizieren. Wenn Sie diese Konzepte verstehen, können Sie Datenstrukturen für Algorithmen für maschinelles Lernen manipulieren.
  • Kalkül (Differenzierung, Integration, Gradient usw.): Sie sind für die Optimierung von Modellen unerlässlich, wie etwa Gradienten beim Coaching neuronaler Netze.
  • Statistiken (Verteilungen, deskriptive Statistiken usw.): Hier lernen Sie, die Geschichten zu interpretieren, die Daten erzählen. Wenn Sie Konzepte wie Verteilungen und deskriptive Statistiken verstehen, können Sie fundierte Entscheidungen auf der Grundlage von Datenmustern treffen.

Eintauchen in die Programmierung

Wenn Ihre mathematischen Grundlagen vorhanden sind, wird die Programmierung Ihre Ideen zum Leben erwecken. Während einige dafür plädieren, R in der Datenwissenschaft zu erlernen, zeichnet sich Python durch seine Vielseitigkeit und weit verbreitete Verwendung in der Branche aus. Darüber hinaus verwenden die meisten Leute, die ich kenne, Python. Für die meisten Anwendungsfälle ist es mehr als ausreichend. Konzentrieren Sie sich auf:

  • Grundlegende Syntax und Funktionen: Verstehen Sie, wie Python auf einer grundlegenden Ebene funktioniert. Es ist, als würde man ein Alphabet lernen, bevor man Geschichten schreibt.
  • Datenstrukturen: Pay attention, Wörterbücher, Tupel – wissen, wie man sie verwendet. Es ist entscheidend für den Umgang mit realen Daten.
  • Kontrollflussanweisungen: Beherrschen Sie „if-Anweisungen“, „for-Schleifen“ und „while-Schleifen“. Damit können Sie Logik implementieren, die komplexe Probleme lösen kann. Mit einfachen Aussagen können Sie viel mehr erreichen, als Sie denken!
  • Objektorientierte Programmierung: Verstehen Sie das Konzept von Klassen, Funktionen und Objekten. Dadurch können Sie effizienten, wiederverwendbaren Code schreiben. Es erleichtert auch die Zusammenarbeit mit anderen.

SQL: Ihre Datenbanksprache

Daten werden oft in Datenbanken gespeichert, auf die Sie zugreifen und die Sie bearbeiten müssen. SQL ist Ihre Sprache für die Interaktion mit diesen Daten.

  • Interaktion mit Datenbanken: Lernen Sie grundlegende SQL-Befehle zum Abrufen, Aktualisieren und Verwalten von Daten.

Maschinelles Lernen: Daten in Erkenntnisse verwandeln

Als Nächstes können Sie mit dem maschinellen Lernen fortfahren, nachdem Sie Mathematik, Programmierung und Datenverarbeitung verstanden haben. Konzentrieren Sie sich auf:

  • Algorithmen verstehen: Beginnen Sie mit dem Erlernen von Algorithmen wie linearer Regression, Entscheidungsbäumen und Clustering-Methoden. Dies sind die Grundlagen für komplexere Modelle.
  • Überwachtes vs. unbeaufsichtigtes Lernen: den Unterschied zwischen diesen beiden Kerntypen des maschinellen Lernens verstehen. Beim überwachten Lernen werden Modelle mit gekennzeichneten Daten trainiert, während beim unüberwachten Lernen unbeschriftete Daten zum Einsatz kommen.
  • Modellbewertung: Erfahren Sie, wie Sie die Leistung Ihrer Modelle mithilfe von Metriken wie dem F1-Rating für Klassifizierungsmodelle, der Wortfehlerrate für die Spracherkennung oder dem RMSE für die Zeitreihenanalyse bewerten.
  • Function-Engineering: Es ist die Kunst, Ihre Rohdaten so umzuwandeln, dass Ihre Modelle sie verstehen können. Dies macht oft einen größeren Unterschied als die Verwendung eines ausgefallenen Algorithmus. Sie können ein Beispiel sehen Hier.
  • Bibliotheken und Frameworks: Machen Sie sich mit beliebten Python-Bibliotheken für maschinelles Lernen vertraut, wie z. B. scikit-learn, TensorFlow und PyTorch.

Denken Sie daran, dass es beim maschinellen Lernen nicht nur um die Anwendung von Algorithmen geht. Es geht darum, das Drawback, das Sie lösen möchten, zu verstehen und den richtigen Ansatz zu wählen.

Geschäftssinn: Technische Fähigkeiten in geschäftliche Auswirkungen umwandeln

Viele Menschen kontaktieren mich, wenn es um den Beginn einer Karriere in der Datenwissenschaft geht. Sie verfügen in der Regel über beeindruckende Qualifikationen wie einen Doktortitel und einen fundierten Hintergrund in Mathematik. Trotz dieser beeindruckenden Referenzen fällt es vielen jedoch schwer, in diesem Bereich Fuß zu fassen. Der Grund? Es mangelt ihnen an Geschäftssinn.

Technische Fähigkeiten sind unerlässlich. Hier ist jedoch die Wahrheit. Das beste KI-Modell hat einen Wert von 0 $, wenn es ein Geschäftsproblem nicht löst. Ich habe brillante Datenwissenschaftler scheitern sehen, weil sie ausgefeilte Modelle erstellt haben, die niemand verwendet hat. Der Schlüssel? Lernen Sie, wie ein Unternehmer zu denken.

Zum Beispiel:

  • Geschäftsprobleme übersetzen: Anstatt nur ein Vorhersagemodell zu erstellen, sollten Sie fragen: „Wie unterstützt dieses Modell die Entscheidungsfindung im Unternehmen?“
  • Priorisierung der Wirkung: Konzentrieren Sie sich auf Probleme, bei denen Information Science den größten Nutzen generieren kann, anstatt komplexe Lösungen zu verfolgen, die kein Geschäftsproblem lösen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert