ein ständiges Gefühl von AI FOMO verspüren. Jeden Tag sehe ich Leute, die KI-Tipps, neue Agenten und Fähigkeiten, die sie entwickelt haben, und Vibe-codierte Apps teilen. Mir wird zunehmend klar, dass eine schnelle Anpassung an KI heutzutage eine Voraussetzung dafür wird, als Datenwissenschaftler wettbewerbsfähig zu bleiben.

Aber ich spreche nicht nur von Brainstorming mit ChatGPT, dem Generieren von Code mit Cursor oder dem Verfeinern eines Berichts mit Claude. Die größere Veränderung ist das KI kann jetzt an einem viel umfassenderen Information-Science-Workflow teilnehmen.

Um die Idee zu konkretisieren, habe ich sie anhand meiner Apple Well being-Daten an einem realen Projekt ausprobiert.


Ein einfaches Beispiel – Apple Well being Evaluation

Kontext

Seit 2019 trage ich jeden Tag eine Apple Watch, um meine Gesundheitsdaten wie Herzfrequenz, verbrannte Energie, Schlafqualität usw. zu verfolgen. Diese Daten enthalten jahrelange Verhaltenssignale über mein tägliches Leben, aber die Apple Well being App bringt sie meist mit einfachen Trendansichten zum Vorschein.

Ich habe vor sechs Jahren versucht, einen zweijährigen Apple Well being-Export zu analysieren. Aber am Ende wurde es zu einem dieser Nebenprojekte, die man nie fertigstellte … Mein Ziel ist es dieses Mal, mit Hilfe von KI schnell mehr Erkenntnisse aus den Rohdaten zu gewinnen.

Womit ich arbeiten musste

Hier sind die relevanten Ressourcen, die ich habe:

  1. Rohe Apple Well being-Exportdaten: 1,85 GB in XML, hochgeladen auf mein Google Drive.
  2. Beispielcode zum Parsen des Rohexports in strukturierte Datensätze in meinem GitHub-Repo von vor sechs Jahren. Der Code könnte jedoch veraltet sein.
Screenshot der XML-Rohdaten vom Autor

Workflow ohne KI

Ein Customary-Workflow ohne KI würde weitgehend so aussehen, wie ich es vor sechs Jahren versucht habe: Die XML-Struktur untersuchen, Python schreiben, um sie in strukturierte lokale Datensätze zu analysieren, EDA mit Pandas und Numpy durchführen und die Erkenntnisse zusammenfassen.

Ich bin sicher, dass jeder Datenwissenschaftler mit diesem Prozess vertraut ist – es ist kein Hexenwerk, aber es braucht Zeit, um es aufzubauen. Um zu einem ausgefeilten Insights-Bericht zu gelangen, es würde mindestens einen ganzen Tag dauern. Aus diesem Grund ist dieses 6 Jahre alte Repo immer noch als WIP gekennzeichnet …

KI-Finish-to-Finish-Workflow

Mein aktualisierter Workflow mit KI ist:

  1. AI findet die Rohdaten in meinem Google Drive und lädt sie herunter.
  2. AI referenziert meinen alten GitHub-Code und schreibt ein Python-Skript, um die Rohdaten zu analysieren.
  3. AI lädt die analysierten Datensätze auf Google BigQuery hoch. Natürlich könnte die Analyse auch lokal ohne BigQuery erfolgen, aber ich habe sie so eingerichtet, dass sie einer echten Arbeitsumgebung besser ähnelt.
  4. AI führt SQL-Abfragen für BigQuery aus, um die Analyse durchzuführen und einen Analysebericht zu erstellen.

Im Wesentlichen übernimmt KI quick jeden Schritt von der Datenentwicklung bis zur Analyse, wobei ich eher als Prüfer und Entscheidungsträger agiere.

KI-generierter Bericht

Sehen wir uns nun an, was Codex mit meiner Anleitung und einigem Hin und Her generieren konnte in 30 Minutenohne die Zeit zum Einrichten der Umgebung und der Werkzeuge.

Ich habe mich für Codex entschieden, weil ich Claude Code hauptsächlich bei der Arbeit verwende und daher ein anderes Device ausprobieren wollte. Ich habe diese Likelihood genutzt, meine Codex-Umgebung von Grund auf neu einzurichten, damit ich den gesamten Aufwand besser einschätzen kann.

Sie sehen, dass dieser Bericht intestine strukturiert und optisch ausgefeilt ist. Es fasste wertvolle Einblicke in jährliche Tendencies, Trainingskonsistenz und die Auswirkungen von Reisen auf das Aktivitätsniveau zusammen. Außerdem wurden Empfehlungen abgegeben und Einschränkungen und Annahmen dargelegt. Was mich am meisten beeindruckte, warfare nicht nur die Geschwindigkeit, sondern auch, wie schnell die Ausgabe wie eine Stakeholder-orientierte Analyse statt wie ein grobes Notizbuch aussah.

Bitte beachten Sie, dass der Bericht aus Datenschutzgründen bereinigt ist.

Von Codex erstellter Bericht (Zahlen aus Datenschutzgründen angepasst, Screenshot vom Autor)
Von Codex erstellter Bericht (Zahlen aus Datenschutzgründen angepasst, Screenshot vom Autor)
Von Codex erstellter Bericht (Zahlen aus Datenschutzgründen angepasst, Screenshot vom Autor)

Wie ich es tatsächlich gemacht habe

Nachdem wir nun gesehen haben, welche beeindruckende Arbeit KI in 30 Minuten leisten kann, möchte ich sie aufschlüsseln und Ihnen alle Schritte zeigen, die ich unternommen habe, um dies zu erreichen. Ich habe verwendet Kodex für dieses Experiment. Wie Claude Code kann es in der Desktop-App, einer IDE oder der CLI ausgeführt werden.

1. MCP einrichten

Um Codex den Zugriff auf Instruments wie Google Drive, GitHub und Google BigQuery zu ermöglichen, bestand der nächste Schritt darin, Mannequin Context Protocol (MCP)-Server einzurichten.

Der einfachste Weg, MCP einzurichten, besteht darin, Codex zu bitten, dies für Sie zu tun. Als ich es beispielsweise darum bat, Google Drive MCP einzurichten, konfigurierte es meine lokalen Dateien schnell und zeigte klare nächste Schritte zum Erstellen eines OAuth-Purchasers in der Google Cloud Console.

Nicht immer gelingt es auf Anhieb, aber Beharrlichkeit hilft. Als ich es aufforderte, BigQuery MCP einzurichten, scheiterte es mindestens zehnmal, bevor die Verbindung erfolgreich hergestellt werden konnte. Aber jedes Mal erhielt ich klare Anweisungen zum Testen und welche Informationen für die Fehlerbehebung hilfreich waren.

Codex MCP hat Screenshots vom Autor erstellt
Codex MCP hat Screenshots vom Autor erstellt

2. Erstellen Sie einen Plan mit dem Planmodus

Nachdem ich die MCPs eingerichtet hatte, ging ich zum eigentlichen Projekt über. Bei einem komplizierten Projekt, das mehrere Datenquellen/Instruments/Fragen umfasst, beginne ich normalerweise mit dem Planmodus, um die Implementierungsschritte festzulegen. Sowohl in Claude Code als auch in Codex können Sie den Planmodus mit aktivieren /plan. Das funktioniert so: Sie skizzieren die Aufgabe und Ihren groben Plan, das Modell stellt klärende Fragen und schlägt Ihnen einen detaillierteren Umsetzungsplan zur Überprüfung und Verfeinerung vor. In den Screenshots unten finden Sie meine erste Iteration damit.

Screenshots des Planmodus vom Autor – Teil 1
Screenshots des Planmodus vom Autor – Teil 2
Screenshots des Planmodus vom Autor – Teil 3

3. Ausführung und Iteration

Nachdem ich auf „Ja, diesen Plan umsetzen“ geklickt hatte, begann Codex selbstständig mit der Ausführung und folgte den Schritten. Es funktionierte 13 Minuten lang und generierte die erste Analyse unten. Die verschiedenen Instruments gingen schnell voran, die Analyse wurde jedoch lokal durchgeführt, da weitere Probleme mit dem BigQuery MCP auftraten. Nach einer weiteren Fehlerbehebungsrunde konnten die Datensätze ordnungsgemäß hochgeladen und Abfragen in BigQuery ausgeführt werden.

Erster Screenshot der Analyseausgabe vom Autor

Allerdings warfare die Ausgabe im ersten Durchgang immer noch oberflächlich, sodass ich sie mit Folgefragen dazu anleitete, tiefer in die Tiefe zu gehen. Ich habe beispielsweise Flugtickets und Reisepläne vergangener Reisen in meinem Google Drive. Ich habe es gebeten, sie zu finden und meine Aktivitätsmuster während der Reisen zu analysieren. Diese Dateien wurden erfolgreich gefunden, meine Reisetage extrahiert und die Analyse durchgeführt.

Nach einigen Iterationen konnte innerhalb von 30 Minuten ein viel umfassenderer Bericht erstellt werden, wie ich zu Beginn mitteilte. Sie können den Code finden Hier. Das warfare wahrscheinlich eine der wichtigsten Erkenntnisse aus der Übung: Die KI entwickelte sich schnell, aber die Tiefe kam immer noch durch Iteration und bessere Fragen.

Codex findet meine vergangenen Reisedaten (Screenshot des Autors)

Erkenntnisse für Datenwissenschaftler

Welche KI-Änderungen

Oben ist ein kleines Beispiel dafür, wie ich Codex und MCPs verwendet habe Führen Sie eine Finish-to-Finish-Analyse durch, ohne manuell eine einzige Codezeile schreiben zu müssen. Was können Datenwissenschaftler bei der Arbeit mitnehmen?

  1. Denken Sie über die Codierungsunterstützung hinaus. Anstatt KI nur zum Codieren und Schreiben zu verwenden, lohnt es sich, ihre Rolle auf den gesamten Lebenszyklus der Datenwissenschaft auszudehnen. Hier habe ich KI verwendet, um Rohdaten in Google Drive zu finden und geparste Datensätze in BigQuery hochzuladen. Es gibt viele weitere KI-Anwendungsfälle im Zusammenhang mit Datenpipelining und Modellbereitstellung.
  2. Der Kontext wird zum Kraftmultiplikator. MCPs haben diesen Workflow wesentlich leistungsfähiger gemacht. Codex hat mein Google Drive gescannt, um meine Reisedaten zu finden, und meinen alten GitHub-Code gelesen, um Beispiel-Parsing-Code zu finden. Ebenso können Sie andere aktivieren vom Unternehmen genehmigt MCPs helfen Ihrer KI (und Ihnen selbst), den Kontext besser zu verstehen. Zum Beispiel:
    – Stellen Sie eine Verbindung zu Slack MCP und Gmail MCP her, um nach früheren relevanten Konversationen zu suchen.
    – Verwenden Sie Atlassian MCP, um auf die Tabellendokumentation zu Confluence zuzugreifen.
    – Richten Sie Snowflake MCP ein, um das Datenschema zu erkunden und Abfragen auszuführen.
  3. Regeln und wiederverwendbare Fähigkeiten sind wichtig. Obwohl ich es in diesem Beispiel nicht explizit demonstriert habe, sollten Sie es tun Passen Sie Regeln an und erstellen Sie Fähigkeiten, um Ihre KI zu leiten und ihre Fähigkeiten zu erweitern. Diese Themen sind beim nächsten Mal einen eigenen Artikel wert 🙂

Wie sich die Rolle der Datenwissenschaftler weiterentwickeln wird

Aber bedeutet das, dass KI Datenwissenschaftler ersetzen wird? Dieses Beispiel gibt auch Aufschluss darüber, wie sich die Rollen von Datenwissenschaftlern in Zukunft ändern werden.

  1. Weniger manuelle Ausführung, mehr Problemlösung. Im obigen Beispiel warfare die von Codex erstellte anfängliche Analyse sehr einfach. Die Qualität der KI-generierten Analyse hängt stark von der Qualität Ihrer Problemstellung ab. Sie müssen die Frage klar definieren, sie in umsetzbare Aufgaben aufteilen, den richtigen Ansatz identifizieren und die Analyse vertiefen.
  2. Domänenkenntnisse sind von entscheidender Bedeutung. Um die Ergebnisse richtig zu interpretieren und Empfehlungen abzugeben, ist nach wie vor dringend Fachwissen erforderlich. Beispielsweise stellte die KI fest, dass mein Aktivitätsniveau seit 2020 deutlich zurückgegangen warfare. Sie konnte keine überzeugende Erklärung finden, sagte aber: „Zu den möglichen Ursachen gehören Routineänderungen, Arbeitspläne, Veränderungen im Lebensstil, Verletzungen, Motivation oder weniger strukturiertes Coaching, aber dabei handelt es sich um Schlussfolgerungen, nicht um Erkenntnisse.“ Aber der wahre Grund dafür ist, wie Sie vielleicht bemerkt haben, die Pandemie. Da ich Anfang 2020 angefangen habe, von zu Hause aus zu arbeiten, habe ich natürlich weniger Kalorien verbrannt. Dies ist ein sehr einfaches Beispiel dafür, warum Domänenwissen immer noch wichtig ist – selbst wenn KI auf alle früheren Dokumente in Ihrem Unternehmen zugreifen kann, heißt das nicht, dass sie alle Geschäftsnuancen versteht, und das ist Ihr Wettbewerbsvorteil.
  3. Dieses Beispiel warfare relativ einfach, aber es gibt immer noch viele Arbeitsbereiche, bei denen ich der KI heute nicht mehr zutrauen würde, dass sie unabhängig agiert Projekte, die ein stärkeres technisches und statistisches Urteilsvermögen erfordernwie kausale Folgerung.

Wichtige Vorbehalte

Zu guter Letzt gibt es einige Überlegungen, die Sie beim Einsatz von KI beachten müssen:

  1. Datensicherheit. Ich bin mir sicher, dass Sie das schon oft gehört haben, aber ich wiederhole es noch einmal. Das Datensicherheitsrisiko beim Einsatz von KI ist actual. Bei einem persönlichen Nebenprojekt kann ich die Dinge so einrichten, wie ich möchte, und mein eigenes Risiko eingehen (ganz ehrlich: Es scheint ein riskanter Schachzug zu sein, der KI vollen Zugriff auf Google Drive zu gewähren, daher dient dies eher der Veranschaulichung). Befolgen Sie bei der Arbeit jedoch immer die Richtlinien Ihres Unternehmens dazu, welche Werkzeuge sicher zu verwenden sind und wie. Und stellen Sie sicher, dass Sie jeden einzelnen Befehl durchlesen, bevor Sie auf „Genehmigen“ klicken.
  2. Überprüfen Sie den Code noch einmal. Für mein einfaches Projekt kann KI problemlos genaues SQL schreiben. Aber in komplizierteren Geschäftsumgebungen sehe ich immer noch, dass KI von Zeit zu Zeit Fehler in ihrem Code macht. Manchmal werden Tabellen mit unterschiedlicher Granularität verknüpft, was zu einer Auffächerung und Doppelzählung führt. In anderen Fällen fehlen kritische Filter und Bedingungen.
  3. KI ist praktisch, kann aber mit unerwarteten Nebenwirkungen zur Lösung Ihrer Frage führen… Zum Abschluss dieses Artikels möchte ich Ihnen eine lustige Geschichte erzählen. Heute Morgen habe ich meinen Laptop computer eingeschaltet und eine Warnung gesehen, dass kein Festplattenspeicher mehr übrig ist – ich habe ein SSD-MacBook Professional mit 512 GB und warfare mir ziemlich sicher, dass ich nur etwa die Hälfte des Speichers genutzt hatte. Da ich gestern Abend mit Codex gespielt habe, wurde es mein erster Verdacht. Additionally habe ich tatsächlich gefragt: „Hey, hast du etwas gemacht? Meine „Systemdaten“ waren über Nacht um 150 GB gewachsen“ Es antwortete: „Nein, Codex benötigt nur xx MBDann habe ich meine Dateien ausgegraben und ein 142 GB großes „bigquery-mcp-wrapper.log“ gesehen … Wahrscheinlich hat Codex dieses Protokoll erstellt, als es Fehler beim BigQuery MCP-Setup behoben hat. Später in der eigentlichen Analyseaufgabe explodierte es in eine riesige Datei. Additionally ja, diese magische Wunschmaschine hat ihren Preis.

Diese Erfahrung hat den Kompromiss für mich intestine auf den Punkt gebracht: KI kann den Abstand zwischen Rohdaten und nützlicher Analyse drastisch verkleinern, aber um das Beste daraus zu machen, sind immer noch Urteilsvermögen, Kontrolle und die Bereitschaft erforderlich, den Arbeitsablauf selbst zu debuggen.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert