5 unterhaltsame Data-Science-Projekte für absolute Anfänger5 unterhaltsame Data-Science-Projekte für absolute Anfänger
Bild vom Autor

# Einführung

Information Science wird oft mit maschinellem Lernen verwechselt, aber eigentlich ist es viel mehr. Es geht darum, Daten zu sammeln, zu bereinigen, zu analysieren und zu visualisieren, um nützliche Muster zu finden, die uns bei der Entscheidungsfindung helfen können. Maschinelles Lernen ist nur ein kleiner Teil dieses Gesamtbildes. Ich habe diese Reihe „Enjoyable Tasks“ ins Leben gerufen, um praktisches Lernen zu fördern, denn ehrlich gesagt lernt man Datenwissenschaft nicht durch endloses Anschauen endloser Theorien. Das lernt man durch Bauen.

Für diesen Artikel habe ich fünf Projekte ausgewählt, die verschiedene Phasen eines typischen Information-Science-Workflows abdecken, von der grundlegenden Datenbereinigung über die Erkundung von Daten, die Erstellung von Modellen bis hin zu deren Bereitstellung für den realen Einsatz.

# 1. Das EINZIGE Datenbereinigungs-Framework, das Sie benötigen

Dieses Video ist von Christine Jiang, die als Datenanalystin arbeitet, und sie teilt einen wirklich praktischen Ansatz zur Datenbereinigung, der meiner Meinung nach für jeden, der an Projekten arbeitet, nützlich sein wird. Beim Bereinigen von Daten denken wir oft: „Wie sauber ist sauber genug“, und Christine zeigt mit ihrem fünfstufigen CLEAN-Framework einen klaren Weg, damit umzugehen. Sie erläutert, wie Sie lösbare und unlösbare Probleme erkennen, Werte standardisieren, alles dokumentieren und iterieren, um Ihre Daten zuverlässig zu machen, ohne „perfekt“ anzustreben. Die Beispiele, die sie verwendet, wie das Korrigieren fehlender Ländercodes oder inkonsistenter Produktbeschreibungen, sind sehr nachvollziehbar und die von ihr betonte Denkweise ist genauso wichtig wie die Instruments. Ich finde, dass dies ein äußerst praktischer Leitfaden für jeden ist, der versucht, effektiv mit Daten aus der realen Welt umzugehen.

# 2. Explorative Datenanalyse bei Pandas

Dieses Video zeigt, warum es nicht ausreicht, nur Daten zu haben, und wie ein sorgfältiger Blick auf die Zahlen verborgene Muster aufdecken kann. Der Moderator führt Sie durch die Untersuchung von Datensätzen, die Zusammenfassung von Verteilungen, die Prüfung auf fehlende Werte und Ausreißer sowie die Visualisierung von Beziehungen zwischen Spalten mithilfe von Pandas Und seegeboren. Ich fand es wirklich praktisch, weil es nicht nur die Befehle anzeigt, sondern auch erklärt, warum jeder Schritt wichtig ist und wie Statistiken einem Dinge sagen können, die auf den ersten Blick nicht offensichtlich sind. Dies ist ein großartiger Leitfaden für alle, die reale Daten untersuchen und aussagekräftige Erkenntnisse gewinnen möchten, bevor sie mit der Modellierung beginnen.

# 3. Datenvisualisierung mit Pandas und Plotly

Dieses Video von Greg Kamadt, Gründer von Information Impartial, zeigt, dass das Erzählen einer Geschichte mit Ihren Daten genauso wichtig ist wie das Erstellen von Modellen. Er geht durch ein praktisches Tutorial mit pandas für Datenverarbeitung und Plotly für interaktive Diagramme, beginnend mit den Grundlagen dessen, was eine Visualisierung effektiv macht. Sie erfahren, wie Sie Daten laden und formen, die richtigen Diagrammtypen auswählen und Formatierungsschritte hinzufügen, die Ihre Diagramme klar und leicht verständlich machen. Mir gefiel wirklich, wie praktisch es ist, mit Tipps zum Umgang mit realen Problemen wie Ausreißern, Datumsachsen und Aggregationen und wie kleine Entscheidungen die Lesbarkeit verbessern können. Am Ende wissen Sie, wie Sie interaktive, gemeinsam nutzbare Diagramme erstellen, die Erkenntnisse effektiv vermitteln.

# 4. Function-Engineering-Techniken für maschinelles Lernen in Python

Sobald Ihre Daten sauber und verständlich sind, ist es an der Zeit, bessere Funktionen zu erstellen. Dieses Tutorial konzentriert sich auf die Section „Function Engineering“, in der Sie neue Datenspalten transformieren und generieren, die Ihr Modell intelligenter machen können. Der Dozent erklärt Techniken wie die Kodierung kategorialer Variablen, den Umgang mit fehlenden Daten, die Dimensionsreduktion (Hauptkomponentenanalyse (PCA)) und die Erstellung von Interaktionstermen. Mir gefällt, dass es auch hervorhebt, was man nicht tun sollte, wie z. B. Datenlecks, Überanpassung und Überentwicklung von Funktionen. Dies ist eine großartige Ressource für alle, die von Rohdaten zur Entwicklung ausgereifter Funktionen für reales maschinelles Lernen übergehen möchten.

# 5. Bereitstellen eines Modells für maschinelles Lernen in einer Streamlit-App und Erstellen von Dwell-Vorhersagen

Zum Schluss der befriedigendste Teil: Ihr Modell zum Leben zu erwecken. In diesem TutorialYiannis Pitsillides zeigt, wie man ein trainiertes maschinelles Lernmodell mit einsetzt Streamlit. Er führt Sie Schritt für Schritt durch das Laden eines gespeicherten Modells, das Einrichten einer übersichtlichen Benutzeroberfläche mit Eingabefeldern und Schaltflächen und das Generieren von Echtzeitvorhersagen für Autopreise. Das Video enthält sogar eine Visualisierung der Funktionsbedeutung Plotlydamit Sie sehen können, welche Eingaben am wichtigsten sind. Mir gefiel, wie praktisch es ist, mit Tipps zur Trennung von Roh- und bereinigten Daten, zum Umgang mit Abhängigkeiten und zum lokalen Ausführen der App oder auf einem Host. Es handelt sich um ein kurzes Tutorial, aber es erfüllt seine Aufgabe wunderbar und bietet Ihnen das „Finish-to-Finish“-Erlebnis, das die meisten Anfänger vermissen.

# Zusammenfassung

Diese Projekte decken alle wichtigen Phasen eines Information-Science-Workflows ab und zeigen, wie die Theorie in der Praxis zum Leben erweckt wird. Schnappen Sie sich Ihre Datensätze und beginnen Sie mit dem Experimentieren. Es gibt keinen besseren Weg, Information Science zu erlernen, als indem man es selbst tut.

Kanwal Mehreen ist ein Ingenieur für maschinelles Lernen und ein technischer Redakteur mit einer großen Leidenschaft für Datenwissenschaft und die Schnittstelle zwischen KI und Medizin. Sie ist Mitautorin des E-Books „Maximizing Productiveness with ChatGPT“. Als Google Technology Scholar 2022 für APAC setzt sie sich für Vielfalt und akademische Exzellenz ein. Sie ist außerdem als Teradata Variety in Tech Scholar, Mitacs Globalink Analysis Scholar und Harvard WeCode Scholar anerkannt. Kanwal ist ein leidenschaftlicher Verfechter von Veränderungen und hat FEMCodes gegründet, um Frauen in MINT-Bereichen zu stärken.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert