
Bild von Editor | Chatgpt
Die Datenanalyse hat sich geändert. Es reicht nicht mehr aus, Instruments wie Python, SQL und Excel als Datenanalyst zu kennen.
Als Datenprofi in einem Technologieunternehmen erlebe ich die Integration von KI in den Workflow eines jeden Mitarbeiters aus erster Hand. Es gibt einen Ozean von KI -Instruments, mit denen Sie jetzt auf Ihre gesamte Datenbank zugreifen und analysieren können und Ihnen bei der Erstellung von Datenanalyseprojekten, maschinellem Lernmodellen und Webanwendungen in Minuten beitragen können.
Wenn Sie ein aufstrebender Datenprofi sind und diese KI -Instruments nicht verwenden, verlieren Sie. Und bald werden Sie von anderen Datenanalysten übertroffen. Menschen, die KI verwenden, um ihre Workflows zu optimieren.
In diesem Artikel werde ich Sie durch KI -Instruments führen, die Ihnen helfen, dem Wettbewerb einen Schritt voraus zu sein und Ihre Datenanalyse -Workflows zu 10x.
Mit diesen Werkzeugen können Sie:
- Erstellen und bereitstellen kreative Portfolioprojekte, um als Datenanalyst eingestellt zu werden
- Verwenden Sie Plain English, um Finish-to-Finish-Datenanalyseanwendungen zu erstellen
- Beschleunigen Sie Ihre Datenworkflows und werden Sie zum effizienteren Datenanalyst
Darüber hinaus ist dieser Artikel eine Schritt-für-Schritt-Anleitung zum Verwenden von AI-Instruments zum Erstellen von Datenanalyseanwendungen. Wir werden uns auf zwei KI -Instruments konzentrieren – Cursor und Pandas AI.
Für eine Videoversion dieses Artikels sehen Sie sich Folgendes an:
https://www.youtube.com/watch?v=ukidrskagai
AI -Werkzeug 1: Cursor
Cursor ist ein KI -Code -Editor, der Zugriff auf Ihre gesamte Codebasis hat. Sie müssen nur eine Eingabeaufforderung in die Chat -Oberfläche von Cursor eingeben, und es wird auf alle Dateien in Ihrem Verzeichnis zugreifen und Code für Sie bearbeiten.
Wenn Sie Anfänger sind und keine einzelne Codezeile schreiben können, können Sie sogar mit einem leeren Codeordner beginnen und Cursor bitten, etwas für Sie zu erstellen. Das KI -Software folgt dann Ihren Anweisungen und erstellt Codedateien entsprechend Ihren Anforderungen.
Hier finden Sie eine Anleitung, wie Sie Cursor verwenden können, um ein Finish-to-Finish-Datenanalyseprojekt zu erstellen, ohne eine einzige Codezeile zu schreiben.
Schritt 1: Cursorinstallation und -aufbau
Lassen Sie uns sehen, wie wir Cursor AI für Datenanalysen verwenden können.
Um Cursor zu installieren, gehen Sie einfach zu www.cursor.com, laden Sie die mit Ihrem Betriebssystem kompatibele Model herunter, befolgen Sie die Installationsanweisungen und Sie werden in Sekunden eingerichtet.
So sieht die Cursorschnittstelle aus:

Cursor AI -Schnittstelle
Um diesem Tutorial zu folgen, laden Sie die herunter practice.csv Datei aus dem Sentiment Evaluation -Datensatz auf Kaggle.
Erstellen Sie dann einen Ordner mit dem Namen „Sentiment Evaluation Undertaking“ und verschieben Sie die heruntergeladene Coaching.csv -Datei in sie.
Erstellen Sie schließlich eine leere Datei mit dem Namen app.py. Ihr Projektordner sollte jetzt so aussehen:

Sentiment Evaluation Undertaking Ordner
Dies wird unser Arbeitsverzeichnis sein.
Öffnen Sie nun diesen Ordner in Cursor, indem Sie zu Datei navigieren -> Ordner öffnen.
Die rechte Seite des Bildschirms verfügt über eine Chat -Schnittstelle, an der Sie Eingabeaufforderungen in den Cursor eingeben können. Beachten Sie, dass es hier einige Auswahlmöglichkeiten gibt. Wählen wir in der Dropdown-Liste „Agent“ aus.
Dies sagt Cursor, dass er Ihre Codebasis untersuchen und als KI -Assistent fungieren soll, der Ihren Code refaktor und debuggen wird.
Darüber hinaus können Sie auswählen, welches Sprachmodell Sie mit Cursor (GPT-4O, Gemini-2,5-pro usw.) verwenden möchten. Ich schlage vor, Claude-4-SONNET zu verwenden, ein Modell, das für seine fortschrittlichen Codierungsfunktionen bekannt ist.
Schritt 2: Aufforderung an Cursor, eine Anwendung zu erstellen
Lassen Sie uns nun diese Eingabeaufforderung in den Cursor eingeben und auffordern, ein Finish-to-Finish-Analysemodell mit dem Trainingsdatensatz in unserer Codebasis zu erstellen:
Create a sentiment evaluation internet app that:
1. Makes use of a pre-trained DistilBERT mannequin to research the sentiment of textual content (optimistic, damaging, or impartial)
2. Has a easy internet interface the place customers can enter textual content and see outcomes
3. Reveals the sentiment consequence with applicable colours (inexperienced for optimistic, crimson for damaging)
4. Runs instantly with no need any coaching
Please join all of the information correctly in order that once I enter textual content and click on analyze, it reveals me the sentiment consequence instantly.
Nachdem Sie diese Eingabeaufforderung in den Cursor eingegeben haben, generiert sie automatisch Codedateien, um die Anwendung zur Stimmungsanalyse zu erstellen.
Schritt 3: Änderungen annehmen und Befehle ausführen
Da Cursor neue Dateien erstellt und Code generiert, müssen Sie auf „Akzeptieren“ klicken, um die Änderungen des AI -Agenten zu bestätigen.
Nachdem der Cursor den gesamten Code ausgeschrieben hat, kann es Sie dazu veranlassen, einige Befehle auf dem Terminal auszuführen. Durch Ausführen dieser Befehle können Sie die erforderlichen Abhängigkeiten installieren und die Webanwendung ausführen.
Klicken Sie einfach auf „Ausführen“, so dass Cursor diese Befehle für uns ausführen kann:

Befehlscursor ausführen
Sobald der Cursor die Anwendung erstellt hat, werden Sie aufgefordert, diesen Hyperlink in Ihren Browser zu kopieren und einfügen:

Cursor -App -Hyperlink
Dies führt Sie zur Webanwendung zur Sentimentanalyse, die so aussieht:

Sentimentanalyse -App mit Cursor
Dies ist eine vollwertige Webanwendung, mit der Arbeitgeber interagieren können. Sie können jeden Satz in diese App einfügen, und es wird das Gefühl vorhergesagt und Ihnen ein Ergebnis zurückgeben.
Ich finde, dass Instruments wie Cursor unglaublich leistungsfähig sind, wenn Sie ein Anfänger auf dem Gebiet sind und Ihre Projekte produzieren möchten.
Die meisten Datenfachleute kennen keine Entrance-Finish-Programmiersprachen wie HTML und CSS, da wir unsere Projekte nicht in einer interaktiven Anwendung präsentieren können.
Unser Code befindet sich oft in Kaggle -Notizbüchern, was uns keinen Wettbewerbsvorteil über Hunderte anderer Bewerber bietet, die genau dasselbe tun.
Ein Werkzeug wie Cursor kann Sie jedoch von der Konkurrenz abheben. Es kann Ihnen helfen, Ihre Ideen in die Realität umzusetzen, indem Sie genau das codieren, was Sie ihm sagen.
AI -Werkzeug 2: Pandas AI
Mit Pandas AI können Sie Pandas -Datenrahmen manipulieren und analysieren, ohne Code zu schreiben.
Sie müssen nur Eingabeaufforderungen in einfachem Englisch eingeben, was die Komplexität verringert, die mit der Durchführung von Datenvorverarbeitung und EDA einhergeht.
Wenn Sie es noch nicht wissen, ist Pandas eine Python -Bibliothek, mit der Sie Daten analysieren und manipulieren können.
Sie lesen Daten in etwas, das als Pandas -Datenrahmen bezeichnet wird, mit dem Sie dann Vorgänge für Ihre Daten ausführen können.
Lassen Sie uns ein Beispiel dafür durchgehen, wie Sie mit Pandas AI Datenvorverarbeitung, Manipulation und Analyse durchführen können.
Für diese Demo werde ich die verwenden Titanic Survival Prediction Dataset auf kaggle (laden Sie die herunter practice.csv Datei).
Für diese Analyse schlage ich vor, eine Python -Pocket book -Umgebung wie ein Jupyter -Pocket book, ein Kaggle -Pocket book oder Google Colab zu verwenden. Der vollständige Code für diese Analyse finden Sie in Dieses Kaggle -Notizbuch.
Schritt 1: Pandas AI Set up und Setup
Sobald Sie Ihre Pocket book -Umgebung bereit haben, geben Sie den folgenden Befehl ein, um Pandas AI zu installieren:
!pip set up pandasai
Laden Sie als nächstes den Titanic DataFrame mit den folgenden Codezeilen:
import pandas as pd
train_data = pd.read_csv('/kaggle/enter/titanic/practice.csv')
Importieren wir nun die folgenden Bibliotheken:
import os
from pandasai import SmartDataframe
from pandasai.llm.openai import OpenAI
Als nächstes müssen wir ein Pandas -AI -Objekt erstellen, um den Titanic Prepare -Datensatz zu analysieren.
Folgendes bedeutet dies:
Pandas AI ist eine Bibliothek, die Ihren Pandas -Datenrahmen mit einem großen Sprachmodell verbindet. Sie können Pandas AI verwenden, um eine Verbindung zu GPT-4O, Claude-3.5 und anderen LLMs herzustellen.
Standardmäßig verwendet Pandas AI ein Sprachmodell namens Bamboo LLM. Um Pandas AI mit dem Sprachmodell zu verbinden, können Sie besuchen Diese Web site um einen API -Schlüssel zu bekommen.
Geben Sie dann den API -Schlüssel in diesen Codeblock ein, um ein Pandas AI -Objekt zu erstellen:
# Set the PandasAI API key
# By default, until you select a distinct LLM, it can use BambooLLM.
# You will get your free API key by signing up at https://app.pandabi.ai
os.environ('PANDASAI_API_KEY') = 'your-pandasai-api-key' # Substitute along with your precise key
# Create SmartDataframe with default LLM (Bamboo)
smart_df = SmartDataframe(train_data)
Persönlich habe ich einige Probleme beim Abrufen des Bambus -LLM -API -Schlüssels konfrontiert. Aus diesem Grund habe ich mich entschlossen, stattdessen einen API -Schlüssel von OpenAI zu bekommen. Dann habe ich das GPT-4O-Modell für diese Analyse verwendet.
Eine Einschränkung für diesen Ansatz ist, dass die API -Schlüssel von OpenAI nicht frei sind. Sie müssen OpenAIs API -Token erwerben, um diese Modelle zu verwenden.
Navigieren Sie dazu, um die Web site von AI zu öffnen und Token aus dem zu kaufen Billings -Seite. Dann kannst du zum der gehen „API -Schlüssel“ Seite und erstellen Sie Ihren API -Schlüssel.
Nachdem Sie den OpenAI-API-Schlüssel haben, müssen Sie ihn in diesen Codeblock eingeben, um das GPT-4O-Modell mit Pandas AI zu verbinden:
# Set your OpenAI API key
os.environ("OPENAI_API_KEY") = "YOUR_API_KEY"
# Initialize OpenAI LLM
llm = OpenAI(api_token=os.environ("OPENAI_API_KEY"), mannequin="gpt-4o")
config = {
"llm": llm,
"enable_cache": False,
"verbose": False,
"save_logs": True
}
# Create SmartDataframe with specific configuration
smart_df = SmartDataframe(train_data, config=config)
Wir können jetzt dieses Pandas -AI -Objekt verwenden, um den Titanic -Datensatz zu analysieren.
Schritt 2: EDA- und Datenvorverarbeitung mit Pandas AI
Beginnen wir zunächst mit einer einfachen Eingabeaufforderung, die Pandas AI auffordert, diesen Datensatz zu beschreiben:
smart_df.chat("Are you able to describe this dataset and supply a abstract, format the output as a desk.")
Sie werden ein Ergebnis sehen, das so aussieht, mit einer grundlegenden statistischen Zusammenfassung des Datensatzes:

Beschreibung der titanischen Datensatz
Normalerweise haben wir einen Code schreiben, um eine Zusammenfassung wie diese zu erhalten. Mit Pandas AI müssen wir jedoch nur eine Aufforderung schreiben.
Dies spart Ihnen eine Menge Zeit, wenn Sie ein Anfänger sind, der einige Daten analysieren möchte, aber nicht weiß, wie man Python -Code schreibt.
Lassen Sie uns als nächstes eine explorative Datenanalyse mit Pandas AI durchführen:
Ich bitte es, mir die Beziehung zwischen der Variablen „Überlebter“ im Titanic -Datensatz sowie einige andere Variablen im Datensatz zu geben:
smart_df.chat("Are there correlations between Survived and the next variables: Age, Intercourse, Ticket Fare. Format this output as a desk.")
Die obige Eingabeaufforderung sollte Ihnen einen Korrelationskoeffizienten zwischen „überlebten“ und den anderen Variablen im Datensatz bieten.
Bitten wir als nächstes, dass Pandas AI uns hilft, die Beziehung zwischen diesen Variablen zu visualisieren:
1. überlebt und Alter
smart_df.chat("Are you able to visualize the connection between the Survived and Age columns?")
Die obige Eingabeaufforderung sollte Ihnen ein Histogramm geben, das so aussieht:

Titanic -Datensatzalterverteilung
Dieses Bild sagt uns, dass jüngere Passagiere eher den Absturz überleben.
2. Überlebte und Geschlecht
smart_df.chat("Are you able to visualize the connection between the Survived and Intercourse")
Sie sollten ein Balkendiagramm erhalten, in dem die Beziehung zwischen „überlebt“ und „Geschlecht“ zeigt.
3..
smart_df.chat("Are you able to visualize the connection between the Survived and Fare")
Die obige Eingabeaufforderung machte eine Field -Handlung und teilte mir mit, dass Passagiere, die höhere Tarifpreise bezahlten, den Titanic -Crash mit größerer Wahrscheinlichkeit überlebte.
Beachten Sie, dass LLMs nicht deterministisch sind, was bedeutet, dass die Ausgabe, die Sie erhalten, von meiner unterschiedlich sein kann. Sie erhalten jedoch weiterhin eine Antwort, die Ihnen hilft, den Datensatz besser zu verstehen.
Als nächstes können wir einige Datenvorverarbeitung mit solchen Eingabeaufforderungen ausführen:
Eingabeaufforderung Beispiel 1
smart_df.chat("Analyze the standard of this dataset. Determine lacking values, outliers, and potential information points that will have to be addressed earlier than we construct a mannequin to foretell survival.")
Eingabeaufforderung Beispiel 2
smart_df.chat("Let's drop the cabin column from the dataframe because it has too many lacking values.")
Eingabeaufforderung Beispiel 3
smart_df.chat("Let's impute the Age column with the median worth.")
Wenn Sie alle Vorverarbeitungsschritte durchlaufen möchten, mit denen ich diesen Datensatz mit Pandas AI reinigt, finden Sie die vollständigen Eingabeaufforderungen und Code in meinem Kaggle Pocket book.
In weniger als 5 Minuten konnte ich diesen Datensatz vorbereiten, indem ich fehlende Werte, codierte kategoriale Variablen und neue Funktionen erstellen konnte. Dies geschah ohne viel Python -Code, was besonders hilfreich ist, wenn Sie neu in der Programmierung sind.
So lernen Sie KI für Datenanalysen: Nächste Schritte
Meiner Meinung nach ist das Hauptverkaufsargument von Instruments wie Cursor und Pandas AI, dass Sie Daten analysieren und Code -Änderungen in Ihrer Programmierschnittstelle vornehmen können.
Dies ist weitaus besser, als Code aus Ihrer Programmier -IDE in eine Schnittstelle wie Chatgpt zu kopieren und einfügen zu müssen.
Wenn Ihre Codebasis wächst (dh wenn Sie Tausende von Codezeilen und über 10 Datensätze haben), ist es unglaublich nützlich, ein integriertes KI -Software zu haben, das den gesamten Kontext hat und die Verbindung zwischen diesen Codedateien verstehen kann.
Wenn Sie KI für Datenanalysen lernen möchten, finden Sie hier einige weitere Instruments, die ich als hilfreich empfunden habe:
- Github Copilot: Dieses Software ähnelt dem Cursor. Sie können es in Ihrer Programmier -IDE verwenden, um Codevorschläge zu generieren, und es verfügt sogar über eine Chat -Oberfläche, mit der Sie interagieren können.
- Microsoft Copilot in Excel: Mit diesem KI -Software können Sie Daten automatisch in Ihren Tabellenkalkulationen analysieren.
- Python in Excel: Dies ist eine Erweiterung, mit der Sie den Python -Code in Excel ausführen können. Obwohl dies kein KI -Software ist, habe ich es unglaublich nützlich gefunden, da Sie Ihre Datenanalyse zentralisieren können, ohne zwischen verschiedenen Anwendungen wechseln zu müssen.
Natassha Selvaraj ist ein autodidaktischer Datenwissenschaftler mit einer Leidenschaft für das Schreiben. Natassha schreibt über alles, was Knowledge Science zu tun hat, einen echten Grasp aller Datenthemen. Sie können sich mit ihr verbinden LinkedIn Oder schauen Sie sich sie an YouTube -Kanal.
