
Bild von Autor | Leinwand
„AI -Agenten werden ein wesentlicher Bestandteil unseres täglichen Lebens und helfen uns bei allem, von Planung von Terminen bis hin zur Verwaltung unserer Finanzen. Sie werden unser Leben bequemer und effizienter machen.“
– undw. ng
Nach der wachsenden Popularität großer Sprachmodelle (LLMs) sind AI -Agenten die nächste große Sache. Wie Andrew Ng gesagt hat, werden sie Teil unseres täglichen Lebens, aber wie wirkt sich dies auf die analytischen Workflows aus? Kann dies das Ende der manuellen Datenanalyse sein oder den vorhandenen Workflow verbessern?
In diesem Artikel haben wir versucht, die Antwort auf diese Frage herauszufinden und die Zeitleiste zu analysieren, um festzustellen, ob es zu früh ist, dies zu tun, oder zu spät.
Die Vergangenheit der Datenanalyse
Die Datenanalyse conflict nicht so einfach oder schnell wie heute. Tatsächlich ging es mehrere verschiedene Phasen durch. Es ist von der Technologie seiner Zeit und der wachsenden Nachfrage nach datengesteuerten Entscheidungen von Unternehmen und Einzelpersonen geprägt.
Die Dominanz von Microsoft Excel
In den 90er und frühen 2000er Jahren haben wir Microsoft Excel für alles verwendet. Denken Sie an diese Schulaufgaben oder Aufgaben an Ihrem Arbeitsplatz. Sie mussten Spalten kombinieren und sortieren, indem Sie Langformeln schreiben. Es gibt nicht zu viele Quellen, in denen Sie sie lernen können, daher sind Kurse sehr beliebt.
Große Datensätze würden diesen Vorgang verlangsamen, und das Erstellen eines Berichts conflict manuell und wiederholt.
Der Aufstieg von SQL, Python, R.
Schließlich begann Excel zu kurz zu kommen. Hier trat SQL ein. Und seitdem ist es der Rockstar. Es ist strukturiert, skalierbar und schnell. Sie erinnern sich wahrscheinlich an das erste Mal, dass Sie SQL verwendet haben. In Sekunden brachte es die Analyse.
R conflict da, aber mit dem Wachstum von Python wurde es auch verbessert. Python ist wie wegen seiner Syntax mit Daten zu sprechen. Jetzt könnten die komplexen Aufgaben in Minuten erledigt werden. Unternehmen bemerkten dies auch, und alle suchten nach Talenten, die mit SQL, Python und R und R zusammenarbeiten konnten. Dies conflict der neue Customary.
Bi -Dashboards überall
Nach 2018 ereignete sich eine neue Schicht. Instruments wie Tableau und Energy BI DEA -Datenanalyse, indem Sie nur klicken, und sie bieten gleichzeitig erstaunliche Visualisierungen, die als Dashboards bezeichnet werden. Diese No-Code-Instruments sind so schnell populär geworden, und alle Unternehmen ändern jetzt ihre Stellenbeschreibungen.
Powerbi- oder Tableau -Erfahrungen sind ein Muss!
Die Zukunft: Eingang von LLMs
Dann betreten große Sprachmodelle die Szene und was für ein Eingang es conflict! Jeder spricht über die LLMs und versucht, sie in seinen Workflow zu integrieren. Sie können die Artikel -Titel zu oft sehen “Ersetzen LLMs Datenanalysten?”.
Die ersten Versionen von LLMs konnten jedoch keine automatisierte Datenanalyse anbieten, wenn der ChatGPT -Code -Interpreter aufgetreten ist. Dies conflict der Sport-Changer, der Datenanalysten am meisten verängstigt, da er gezeigt hatte, dass Datenanalyse-Workflows möglicherweise mit nur einem Klick automatisiert werden könnten. Wie? Mal sehen.
Datenerforschung mit LLMs
Betrachten Sie dieses Datenprojekt: Black Friday -Einkäufe. Es wurde als Zuordnung zum Mitnehmen im Rekrutierungsprozess für die Knowledge Science-Place bei Walmart verwendet.
Hier ist der Hyperlink zu diesem Datenprojekt: https://platform.stratascratch.com/data-projects/black-friday-purchasen
Besuchen Sie den Datensatz und laden Sie ihn in ChatGPT hoch. Verwenden Sie diese schnelle Struktur:
I've connected my dataset.
Right here is my dataset description:
(Copy-paste from the platform)
Carry out knowledge exploration utilizing visuals.
Hier ist der erste Teil der Ausgabe.
Aber es ist noch nicht fertig. Es geht weiter, additionally mal sehen, was es uns sonst noch zeigen muss.
Jetzt haben wir eine Gesamtübersicht über den Datensatz und die Visualisierungen. Schauen wir uns den dritten Teil der Datenforschung an, die jetzt verbal ist.
Das Beste daran? Das alles in Sekunden. Aber KI -Agenten sind etwas fortgeschrittener als das. Lassen Sie uns additionally einen KI -Agenten erstellen, der die Datenerforschung automatisiert.
Datenanalyseagenten
Die Agenten gingen einen Schritt weiter als die traditionelle LLM -Interaktion. So mächtig diese LLMs auch waren, es fühlte sich an, als fehlte etwas. Oder ist es nur ein unvermeidlicher Drang für die Menschheit, eine Intelligenz zu entdecken, die ihre eigenen überschreitet? Für LLMs mussten Sie sie wie oben taten, aber für Datenanalyse -Agenten benötigen sie nicht einmal menschliche Interventionen. Sie werden alles selbst tun.
Datenerforschung und Visualisierungsagent implementieren
Lassen Sie uns gemeinsam einen Agenten bauen. Dazu werden wir Langchain und Strömung verwenden.
Einrichten des Agenten
Lassen Sie uns zunächst alle Bibliotheken installieren.
import streamlit as st
import pandas as pd
warnings.filterwarnings('ignore')
from langchain_experimental.brokers.agent_toolkits import create_pandas_dataframe_agent
from langchain_openai import ChatOpenAI
from langchain.brokers.agent_types import AgentType
import io
import warnings
import matplotlib.pyplot as plt
import seaborn as sns
Mit unserem Streamlit -Agenten können Sie eine CSV- oder Excel -Datei mit diesem Code hochladen.
api_key = "api-key-here"
st.set_page_config(page_title="Agentic Knowledge Explorer", structure="huge")
st.title("Chat With Your Knowledge — Agent + Visible Insights")
uploaded_file = st.file_uploader("Add your CSV or Excel file", sort=("csv", "xlsx"))
if uploaded_file:
# Learn file
if uploaded_file.title.endswith(".csv"):
df = pd.read_csv(uploaded_file)
elif uploaded_file.title.endswith(".xlsx"):
df = pd.read_excel(uploaded_file)
Als nächstes kommen die Datenerforschungs- und Datenvisualisierungscodes ein. Wie Sie sehen können, gibt es einige if Blöcke, die Ihren Code basierend auf den Eigenschaften der hochgeladenen Datensätze anwenden.
# --- Fundamental Exploration ---
st.subheader("📌 Knowledge Preview")
st.dataframe(df.head())
st.subheader("🔎 Fundamental Statistics")
st.dataframe(df.describe())
st.subheader("📋 Column Data")
buffer = io.StringIO()
df.data(buf=buffer)
st.textual content(buffer.getvalue())
# --- Auto Visualizations ---
st.subheader("📊 Auto Visualizations (Prime 2 Columns)")
numeric_cols = df.select_dtypes(embody=("int64", "float64")).columns.tolist()
categorical_cols = df.select_dtypes(embody=("object", "class")).columns.tolist()
if numeric_cols:
col = numeric_cols(0)
st.markdown(f"### Histogram for `{col}`")
fig, ax = plt.subplots()
sns.histplot(df(col).dropna(), kde=True, ax=ax)
st.pyplot(fig)
if categorical_cols:
# Limiting to the highest 15 classes by rely
top_cats = df(col).value_counts().head(15)
st.markdown(f"### Prime 15 Classes in `{col}`")
fig, ax = plt.subplots()
top_cats.plot(sort='bar', ax=ax)
plt.xticks(rotation=45, ha="proper")
st.pyplot(fig)
Geben Sie als nächstes einen Agenten ein.
st.divider()
st.subheader("🧠 Ask Something to Your Knowledge (Agent)")
immediate = st.text_input("Strive: 'Which class has the very best common gross sales?'")
if immediate:
agent = create_pandas_dataframe_agent(
ChatOpenAI(
temperature=0,
mannequin="gpt-3.5-turbo", # Or "gpt-4" in case you have entry
api_key=api_key
),
df,
verbose=True,
agent_type=AgentType.OPENAI_FUNCTIONS,
**{"allow_dangerous_code": True}
)
with st.spinner("Agent is considering..."):
response = agent.invoke(immediate)
st.success("✅ Reply:")
st.markdown(f"> {response('output')}")
Testen des Agenten
Jetzt ist alles fertig. Speichern Sie es als:
Gehen Sie anschließend zum Arbeitsverzeichnis dieser Skriptdatei und führen Sie sie mit diesem Code aus:
Und voila!
Ihr Agent ist bereit, lassen Sie es uns testen!

Letzte Gedanken
In diesem Artikel haben wir die Datenanalyseentwicklung von heute bis heute analysiert, von Excel bis zu LLM -Agenten. Wir haben analysiert Dieser reale Datensatzwas in einem tatsächlichen Datenwissenschaftsvorstellungsgespräch mit ChatGPT gefragt wurde.
Schließlich haben wir einen Agenten entwickelt, der die Datenerforschung und die Datenvisualisierung mithilfe von Streamlit-, Langchain- und anderen Python -Bibliotheken automatisiert. Und wir haben alles mit einem realen Datenprojekt gemacht.
Egal, ob Sie sie heute oder morgen adoptieren, KI -Agenten sind kein zukünftiger Pattern mehr. Tatsächlich sind sie die nächste Section der Analytik.
Nate Rosidi ist Datenwissenschaftler und in Produktstrategie. Er ist außerdem eine zusätzliche Professorin für Lehranalysen und Gründer von Stratascratch, einer Plattform, die Datenwissenschaftlern hilft, sich auf ihre Interviews mit echten Interviewfragen von Prime -Unternehmen vorzubereiten. Nate schreibt über die neuesten Tendencies auf dem Karrieremarkt, gibt Interviewberatung, teilt Datenwissenschaftsprojekte und deckt alles SQL ab.
