Wie ich einen MCP erstellt habe, um meinen Datenwissenschaftsjob zu automatisierenWie ich einen MCP erstellt habe, um meinen Datenwissenschaftsjob zu automatisieren
Bild durch Ideogramm

Die meisten meiner Tage als Datenwissenschaftler sehen so aus:

  • Stakeholder: „Können Sie uns sagen, wie viel wir im letzten Monat in Werbeeinnahmen erzielt haben und wie viel Prozent der Suchanzeigen stammen?
  • Mich: „Führen Sie eine SQL -Abfrage aus, um die Daten zu extrahieren und ihnen zu übergeben.“
  • Stakeholder: „Ich sehe. Was ist unsere Umsatzprognose für die nächsten 3 Jahre?“
  • Mich: „Konsolidieren Sie Daten aus mehreren Quellen, sprechen Sie mit dem Finanzteam und bauen Sie ein Modell auf, das Einnahmen prognostiziert.“

Aufgaben wie die oben genannten sind Advert -hoc -Anfragen von Unternehmensstakeholdern. Es dauert ungefähr 3 bis 5 Stunden, bis sie abgeschlossen sind, und haben normalerweise nichts mit dem Kernprojekt, an dem ich arbeite.

Wenn datenbezogene Fragen wie diese eingehen, müssen ich häufig die Fristen aktueller Projekte überschreiten oder zusätzliche Stunden arbeiten, um die Arbeit zu erledigen. Und hier kommt KI ins Spiel.

Sobald AI -Modelle mögen Chatgpt Und Claude Die Effizienz des Groups verbesserte sich ebenso wie meine Fähigkeit, auf Advert -hoc -Stakeholder -Anfragen zu reagieren. KI reduzierte die Zeit, die ich damit verbracht habe, Code zu schreiben, SQL -Abfragen zu generieren, und setzte sogar mit verschiedenen Groups zusammen, um erforderliche Informationen zu erhalten. Zusätzlich nach KI -Code -Assistenten mögen Cursor In unseren Codebasen integriert wurden, verbesserte sich die Effizienzgewinne noch weiter. Aufgaben wie die, die ich gerade erklärt habe, könnten jetzt doppelt so schnell wie zuvor erledigt werden.

Kürzlich, als MCP -Server an Popularität gewann, dachte ich mir:

Kann ich ein MCP erstellen, das diese Datenwissenschaftsworkflows weiter automatisiert?

Ich habe zwei Tage damit verbracht, diesen MCP -Server zu erstellen, und in diesem Artikel werde ich zusammenbrechen:

  • Die Ergebnisse und wie viel Zeit habe ich mit meinem Information Science MCP gespeichert
  • Ressourcen und Referenzmaterialien, die zum Erstellen des MCP verwendet werden
  • Das grundlegende Setup, die APIs und die Dienste, die ich in meinen Workflow integriert habe

# Aufbau eines Information Science MCP

Wenn Sie noch nicht wissen, was ein MCP ist, steht es für Modellkontextprotokoll und ist ein Framework, mit dem Sie ein großes Sprachmodell mit externen Diensten verbinden können.
Dieses Video ist eine großartige Einführung in MCPs.

// Das Kernproblem

Das Drawback, das ich mit meinem neuen Information Science MCP lösen wollte, warfare:

Wie konsolidiere ich Informationen, die über verschiedene Quellen verteilt sind, und generiere Ergebnisse, die direkt von Stakeholdern und Teammitgliedern verwendet werden können?

Um dies zu erreichen, habe ich ein MCP mit drei Komponenten erstellt, wie im folgenden Flussdiagramm gezeigt:

Data Science MCP FlowdiagrammData Science MCP Flowdiagramm
Bild von Autor | Meerjungfrau

// Komponente 1: Integration der Abfragebank

Als Wissensbasis für meinen MCP habe ich die Question Financial institution meines Groups verwendet (die Fragen enthielt, eine Beispielabfrage, um die Frage und einen Kontext über die Tabellen zu beantworten).

Wenn ein Stakeholder mir eine Frage wie diese stellt:

Wie viel Prozent der Werbeeinnahmen kamen aus Suchanzeigen?

Ich muss nicht mehr mehrere Tabellen und Spaltennamen durchsuchen, um eine Abfrage zu generieren. Die MCP durchsucht stattdessen die Abfragebank nach einer ähnlichen Frage. Anschließend gewinnt es einen Kontext über die relevanten Tabellen, die es abfragen sollte, und passt diese Abfragen an meine spezifische Frage an. Ich muss nur den MCP -Server anrufen, in die Anfrage meines Stakeholders einfügen, und ich erhalte in wenigen Minuten eine relevante Abfrage.

// Komponente 2: Integration von Google Drive

Die Produktdokumentation wird normalerweise in Google Drive gespeichert – ob es sich um ein Dickdel, ein Dokument oder eine Tabelle handelt.

Ich habe meinen MCP -Server mit dem Google Drive des Groups verbunden, sodass er Zugriff auf alle unsere Dokumentationen in Dutzenden von Projekten hatte. Dies hilft schnell, Daten zu extrahieren und Fragen zu beantworten wie:

Können Sie uns sagen, wie viel wir im letzten Monat in Werbeeinnahmen erzielt haben?

Ich habe diese Dokumente auch so indiziert, um bestimmte Schlüsselwörter und Titel zu extrahieren, sodass der MCP einfach die Key phrase -Liste basierend auf der Abfrage durchlaufen muss, anstatt auf Hunderte von Seiten gleichzeitig zugegriffen zu haben.

Wenn beispielsweise jemand eine Frage in Bezug auf „cell Videoanzeigen“ stellt, sucht der MCP zunächst den Dokumentindex durch, um die relevantesten Dateien zu identifizieren, bevor sie sie durchschaut.

// Komponente 3: Zugriff auf lokaler Dokument

Dies ist die einfachste Komponente des MCP, in der ich einen lokalen Ordner habe, den der MCP durchsucht. Ich füge nach Bedarf Dateien hinzu oder entferne ich und ermöglichte mir, meinen eigenen Kontext, meine Informationen und meine Anweisungen zusätzlich zu den Projekten meines Groups hinzuzufügen.

# Zusammenfassung: Wie meine Datenwissenschaft MCP funktioniert

Hier ist ein Beispiel dafür, wie mein MCP derzeit für die Beantwortung von Advert -hoc -Datenanfragen arbeitet:

  • Es kommt eine Frage: „Wie viele Video -Anzeigeneindrücke haben wir im dritten Quartal und in wie viel Werbenachfrage im Verhältnis zum Angebot haben?“
  • Das Dokumentenabruf -MCP durchsucht unseren Projektordner nach „Q3“, „Video“, „Anzeige“, „Nachfrage“ und „Angebot“ und findet relevante Projektdokumente
  • Anschließend werden spezifische Particulars zur Q3 -Video -Anzeigenkampagne, ihres Angebots und der Nachfrage aus Teamdokumenten abgerufen
  • Es durchsucht die Question Financial institution nach ähnlichen Fragen zu AD -Diensten
  • Es verwendet den Kontext, der von den Dokumenten und der Abfragebank erhalten wurde, um eine SQL -Abfrage zur Videokampagne von Q3 zu generieren
  • Schließlich wird die Abfrage an einen separaten MCP übergeben, der mit Presto SQL verbunden ist, das automatisch ausgeführt wird
  • Ich sammle dann die Ergebnisse, überprüfe sie und schicke sie an meine Stakeholder

# Implementierungsdetails

Hier ist, wie ich diesen MCP implementiert habe:

// Schritt 1: Cursorinstallation

Ich habe Cursor als meinen MCP -Consumer verwendet. Sie können Cursor von installieren Dieser Hyperlink. Es handelt sich im Wesentlichen um einen AI -Code -Editor, der auf Ihre Codebasis zugreifen und sie zum Generieren oder Ändern von Code verwenden kann.

// Schritt 2: Google Drive -Anmeldeinformationen

Quick alle von dieser MCP (einschließlich der Question Financial institution) verwendeten Dokumente wurden in Google Drive gespeichert.

Um Ihren MCP -Zugriff auf Google Drive, Blätter und Dokumente zu gewähren, müssen Sie den API -Zugriff einrichten:

  1. Gehen Sie zur Google Cloud -Konsole und erstellen Sie ein neues Projekt.
  2. Aktivieren Sie die folgenden APIs: Google Drive, Google Sheets, Google Docs.
  3. Erstellen Sie Anmeldeinformationen (OAuth 2.0 Consumer -ID) und speichern Sie sie in einer Datei mit dem Namen credentials.json.

// Schritt 3: Fastmcp einrichten

Fastmcp ist ein Open-Supply-Python-Framework, das zum Erstellen von MCP-Servern verwendet wird. Ich folgte Dieses Tutorial So erstellen Sie meinen ersten MCP -Server mit Fastmcp.

(Hinweis: In diesem Tutorial wird Claude Desktop als MCP -Consumer verwendet. Die Schritte gelten jedoch für Cursor oder einen AI -Code -Editor Ihrer Wahl.)

Mit FASTMCP können Sie den MCP -Server mit Google Integration (Beispielcode -Snippet unten) erstellen:

@mcp.device()
def search_team_docs(question: str) -> str:
    """Search workforce paperwork in Google Drive"""
    drive_service, _ = get_google_services()
    # Your search logic right here
    return f"Trying to find: {question}"

// Schritt 4: Konfigurieren Sie den MCP

Sobald Ihr MCP erstellt wurde, können Sie ihn in Cursor konfigurieren. Dies kann durch Navigieren zum Cursor -Einstellungsfenster → Funktionen → Modellkontextprotokoll erfolgen. Hier sehen Sie einen Abschnitt, in dem Sie einen MCP -Server hinzufügen können. Wenn Sie darauf klicken, rufen Sie eine Datei an mcp.json Öffnen Sie, wo Sie die Konfiguration für Ihren neuen MCP -Server aufnehmen können.

Dies ist ein Beispiel dafür, wie Ihre Konfiguration aussehen soll:

{
  "mcpServers": {
    "team-data-assistant": {
      "command": "python",
      "args": ("path/to/team_data_server.py"),
      "env": {
        "GOOGLE_APPLICATION_CREDENTIALS": "path/to/credentials.json"
      }
    }
  }
}

Nachdem Sie Ihre Änderungen in der JSON -Datei gespeichert haben, können Sie diesen MCP aktivieren und in Cursor verwenden.

# Letzte Gedanken

Dieser MCP -Server warfare ein einfaches Nebenprojekt. Ich habe mich entschlossen, Zeit für meine personenbezogenen Datenwissenschafts -Workflows zu sparen. Es ist nicht bahnbrechend, aber dieses Instrument löst meinen unmittelbaren Schmerzpunkt: Stunden damit, advert -hoc -Datenanfragen zu beantworten, die die Kernprojekte, an denen ich arbeite, wegnehmen. Ich glaube, dass ein Instrument wie dieses einfach die Oberfläche dessen kratzt, was mit generativer KI möglich ist, und eine breitere Verschiebung bei der Durchführung der Datenwissenschaft darstellt.

Der traditionelle Information Science Workflow bewegt sich von:

  • Stunden damit verbringen, Daten zu finden
  • Schreibcode
  • Gebäudemodelle

Der Fokus verlagert sich von praktischen technischen Arbeiten, und Datenwissenschaftler werden nun das größere Bild untersuchen und Geschäftsprobleme lösen. In einigen Fällen wird erwartet, dass wir Produktentscheidungen überwachen und als Produkt- oder Projektmanager einsteigen.

Während sich die KI weiterentwickelt, glaube ich, dass die Grenzen zwischen technischen Rollen verschwommen werden. Was related bleibt, ist die Fähigkeit, den geschäftlichen Kontext zu verstehen, die richtigen Fragen zu stellen, Ergebnisse zu interpretieren und Erkenntnisse zu kommunizieren. Wenn Sie ein Datenwissenschaftler sind (oder ein aufstrebender), steht keine Frage, dass AI Ihre Arbeit verändert.

Sie haben zwei Möglichkeiten: Sie können entweder KI -Instruments übernehmen und Lösungen erstellen, die diese Änderung für Ihr Workforce beeinflussen, oder andere für Sie erstellen lassen.

Natassha Selvaraj ist ein autodidaktischer Datenwissenschaftler mit einer Leidenschaft für das Schreiben. Natassha schreibt über alles, was Information Science zu tun hat, einen echten Grasp aller Datenthemen. Sie können sich mit ihr verbinden LinkedIn Oder schauen Sie sich sie an YouTube -Kanal.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert