

Bild von Autor | Leinwand
Ein starkes Portfolio ist oft der Unterschied zwischen der Herstellung und dem Brechen. Aber was genau macht ein Portfolio stark? Zahlreiche komplizierte Projekte? Slick -Design? Beeindruckende Datenvisualisierung? Jein. Dies sind zwar notwendige Elemente, damit ein Portfolio großartig ist, aber sie sind so offensichtlich, dass jeder weiß, dass man ohne sie nicht machen kann.
Viele Datenwissenschaftler machen jedoch Fehler, wenn sie versuchen, darüber hinauszugehen. Infolgedessen interviewen sie mit Portfolios, die nominell alles haben, aber eigentlich nicht so toll sind.
# Der Rahmen
Hier ist der Rahmen, mit dem Sie beim Aufbau eines großartigen Portfolios gemeinsame Fehler vermeiden können.

# Die Fehler
Lassen Sie uns nun über die Fehler auf dem Portfolio-Aufbau sprechen und darüber, wie Sie sie vermeiden können, diesen Framework zu verwenden.
// Fehler Nr. 1: Bauprojekte, die Ihnen egal sind
Viele Portfolios vermitteln den Eindruck, dass die Projekte nur ein Kästchen ankreuzen: Titanic Survival, Iris Dataset, MNIST -Ziffern. Sie wissen – das typische Zeug. Es ist nicht nur so, dass Sie in Tausenden ähnlicher Portfolios ertrinken werden, sondern auch einen Mangel an Originalität und Interesse an dem, was Sie tun. Die Autopilotenprojekte.
Repair: Beginnen Sie mit Domains, die Sie interessieren, z. B., z. B. SportAnwesend FinanzenAnwesend Musik. Wenn das Thema Sie interessiert, werden Sie tiefer gehen, ohne es zu versuchen. Wenn Sie ein Sportfan sind, können Sie die Schuss -Effizienz in der NBA analysieren oder aus diesen coolen Projektideen für das Üben wählen. Ein Musikfan könnte Playlist -Empfehlungen modellieren.
// Fehler Nr. 2: Verwenden der Daten, die Daten in Ihren Schoß fallen
Kandidaten greifen oft nach dem ersten sauberen CSV, den sie finden können. Das Downside ist, dass die echte Datenwissenschaft nicht so funktioniert.
Repair: Sie sollten nachweisen, dass Sie wissen, wie Sie die tatsächlichen Daten finden, darauf zugreifen und sie für weitere Modellierungsstufen neu formen können. Verwenden Sie in Ihren Projekten APIs (z. B., z. Twitter/X API), offene Regierungsdatensätze (z. B.,, z. Information.gov) und webkrapierte Quellen (z. B., z. Tolle öffentliche Datensätze auf GitHub). Verwenden Sie so viele Datenquellen wie möglich, bewerten Sie Daten, fusionieren Sie sie in einen Datensatz und bereiten Sie sie auf die Modellierung vor.
// Fehler Nr. 3: Behandlung von Projekten wie Kaggle -Wettbewerben
Kaggle Wettbewerbe konzentrieren sich auf die Optimierung einer einzigen Metrik. Dies ist großartig für das Coaching, schneidet es aber nicht in der realen Welt. Genauigkeit an sich ist kein Ziel. Sie müssen einen Kompromiss zwischen den technischen Aspekten Ihres Modells und den tatsächlichen geschäftlichen oder sozialen Auswirkungen machen.
Repair: Selbst wenn Sie gemeinsame Datensätze von Kaggle verwenden, bieten Sie immer einen anderen Winkel an und rahmen das Downside so ein, dass es geschäftlich oder sozialer Wert hat. Klassifizieren Sie beispielsweise nicht nur gefälschte und echte Nachrichten. Zeigen Sie, welche Wörter, Phrasen oder Themen Fehlinformationen vorantreiben. Ein weiteres Beispiel: Prognose nicht nur die Abwanderung.

Zeigen Sie, wie sich eine Reduzierung der Abwanderung um 10% in Höhe von 2 Millionen US -Greenback im Jahresumsatz einsparen kann.

// Fehler Nr. 4: Nur Modelle anzeigen, keine Workflows
Viele Projekte lesen wie eine Abfolge von Jupyter -Notizbüchern: Bibliotheken importieren, dann Daten vorverfernen, dann Modelle anpassen – hier ist die Genauigkeit. Es ist unvollständig und langweilig. Was fehlt, ist eine Demonstration, wie Sie mit verschiedenen Phasen eines Projekts umgehen und warum Sie bestimmte Entscheidungen treffen.
Repair: Machen Sie sie Finish-to-Finish-Projekte. Zeigen Sie jede Section von der Datenerfassung bis zur Bereitstellung und allem dazwischen. Erklären Sie, warum Sie wichtige Auswahlmöglichkeiten getroffen haben, zB, warum Sie ein Modell über ein anderes ausgewählt haben oder warum Sie eine bestimmte Funktion entwickelt haben. Verwenden Sie Instruments wie StraffungAnwesend Flascheoder Energy Bi Dashboards für andere zu verwenden. All dies lässt Ihre Projekte wie angewandte Problemlösungen aussehen (z. B., z. Das Portfolio von Arch Desai), keine Code -Anleitung (z. B., z. B. Dieses hier).
// Fehler Nr. 5: Beenden mit einem Modell, nicht mit Aktion
Datenwissenschaftler enden häufig auf technischer Ebene, z. B. den Genauigkeitswert. Okay, aber was machst du damit? Sie müssen sich daran erinnern, dass die praktische Verwendung des Modells zählt. Der technische Aspekt des Modells ist nur ein Teil davon, der andere ist geschäftliche oder soziale Auswirkungen.
Repair: Beenden Sie das Projekt mit einer Empfehlung, was zu tun ist. Zum Beispiel „dieses Modell schlägt vor, dass Inspektionen in Eating places, die im Winter mit hohem Risikokuisinen kugelt werden, priorisierende Inspektionen vorsieht.“
# Projektbeispiel: Vorhersage des Energiebedarfs der Stadt, um Kosten zu senken
In diesem Abschnitt werde ich eine Mock Mission -Walkthrough erstellen, um Ihnen zu zeigen, wie das Framework in der Praxis verwendet werden kann.
Domäne: Die Domäne, die ich ausgewählt habe, ist Energieverbrauch und Nachhaltigkeit. Das Leben in einer großen Stadt machte mich darauf aufmerksam, wie Städte weltweit während der Spitzenzeiten mit hohem Strombedarf zu kämpfen haben. Die Vorhersage der Nachfrage genauer kann den Versorgungsunternehmen dazu beitragen, das Netz in Einklang zu bringen, die Kosten zu senken und die Emissionen zu senken.
Daten: Die Hauptquelle könnte die sein US -Energieinformationsverwaltung (UVP). Außerdem konnte ich das verwenden NOAA Wetterapi (zB für Temperatur und Luftfeuchtigkeit) und Urlaubs-/Veranstaltungskalender (für Nachfragespitzen).
Rahmung des Issues: Anstatt das Downside als „den Strombedarf im Laufe der Zeit vorherzusagen“, werde ich es als „Wie viel Geld könnte die Stadt sparen, wenn sie mit besseren Nachfrageprognosen verschoben wird?“ Damit verwandle ich ein technisches Prognoseproblem in eine Ressourcenzuweisung und ein kostensparendes Downside.
Aufbau von Finish-to-Finish: Das Projekt würde diese Phasen enthalten.
- Datenreinigung: Fehlende Stunden verarbeiten, Zeitstempel ausrichten, Wettervariablen normalisieren.
- Characteristic Engineering:
- Verzögerungsfunktionen: Nachfrage in früheren Stunden/Tagen
- Wettermerkmale: Temperatur, Luftfeuchtigkeit
- Kalendermerkmale: Wochentag, Feiertagsflagge, Hauptveranstaltungen
- Modellieren:
- Bereitstellung: Zum Beispiel könnte ich ein Dashboard erstellen, das eine 24-Stunden-Prognose im Vergleich zu der tatsächlichen Nachfrage zeigt und „Was wäre wenn“ Szenarien, z. B. Anpassung der Nachfrage durch Verschiebung der industriellen Lasten.
Aktion: Wir werden bei „Die Prognose hat niedrige RMSE“ nicht anhalten. Geben wir stattdessen eine Empfehlung mit geschäftlichen und sozialen Auswirkungen auf, z. B. „Wenn die Stadt große Unternehmen dazu anreizte, 5% des Verbrauchs von den Spitzenzeiten (durch das Modell vorhergesagte) zu verlagern, kann es jährlich 3,5 Mio. USD bei den Stromkosten einsparen.“
# Bonus: Ressourcen
Als Bonus finden Sie hier einige Vorschläge, welche Plattformen Sie zum Üben verwenden können und wo Sie die Daten finden können.
// Plattformen zum Üben
// Datenquellen öffnen
// APIs für Echtzeitdaten
# Abschluss
Sie haben wahrscheinlich festgestellt, dass keiner der genannten Fehler technisch ist. Das ist nicht zufällig; Der größte Fehler besteht darin, zu vergessen, dass ein Portfolio eine Demonstration ist, wie Sie Probleme lösen.
Konzentrieren Sie sich auf diese beiden Aspekte-Demonstration und Problemlösung-und Ihr Portfolio sieht endlich nach Beweis aus, dass Sie den Job machen können.
Nate Rosidi ist Datenwissenschaftler und in Produktstrategie. Er ist außerdem eine zusätzliche Professorin für Lehranalysen und Gründer von Stratascratch, einer Plattform, die Datenwissenschaftlern hilft, sich auf ihre Interviews mit echten Interviewfragen von Prime -Unternehmen vorzubereiten. Nate schreibt über die neuesten Developments auf dem Karrieremarkt, gibt Interviewberatung, teilt Datenwissenschaftsprojekte und deckt alles SQL ab.
