KI hat den ersten Entwurf billig gemacht: Korrektheit ist immer noch teuer
Am 16. Juni stellte Databricks einen KI-Agenten vor, der Prognosemodelle erstellt, Apps bereitstellt und seine eigene Dokumentation aus einem Satz Englisch schreibt und sich damit vergleichbaren Agenten anschließt, die bereits bei Snowflake, AWS und GitHub laufen. Die offene Frage ist nicht, ob ein Agent den Code schreiben kann. Es geht darum, ob irgendjemand dem vertrauen kann, was es geschrieben hat.
KI hat den ersten Entwurf billig gemacht. Korrektheit ist immer noch teuer
Der freiberufliche Datenwissenschaftler Longhow Lam beschrieb einen ähnlichen Second auf LinkedIn. Er sagte, dass Anweisungen in einfachem Englisch einen KI-Agenten durch die Datengenerierung, Prognose, Bereitstellung und Dokumentation leiten könnten, dennoch müsse jedes Artefakt noch sorgfältig überprüft werden, bevor er ihm vertrauen könne.
Eine Lücke trennt die generierte Arbeit von der Arbeit, die als korrekt bestätigt wurde, und definiert das vergangene Jahr der Agentendatentools. Anbieter messen, wie viel ein Agent produzieren kann. Nur wenige messen, wie viel von der resultierenden Produktion den Kontakt mit einem Rezensenten übersteht, der sie absegnen muss.
Nennen Sie die fehlende verifizierte Ausgabe: den Anteil des generierten Codes, der Modelle oder Dashboards, den ein qualifizierter Mensch ohne Nacharbeit genehmigt. Es handelt sich um die Kennzahl, die die meisten Produktivitätsbehauptungen außer Acht lassen, und sie ist die Kennzahl, die Datenverantwortliche am meisten benötigen.
Englisch wird zur Schnittstelle zum Datenstapel
Die Programmierung ist schon einmal eine Ebene höher gerückt. Programmierer schrieben Maschinencode bis 1957, als John Backus von IBM das Crew leitete, das Fortran entwickelte, die erste weit verbreitete Hochsprache. Low-Code-Plattformen folgten Jahrzehnte später: Forrester gab an, den Begriff im Jahr 2014 geprägt zu haben, und Microsoft brachte im November 2015 PowerApps auf den Markt, um Geschäftsanwendern die Erstellung von Anwendungen mithilfe visueller Instruments anstelle von Code zu ermöglichen.
Agentische KI erweitert das Muster, der Mechanismus unterscheidet sich jedoch. Ein Compiler wendet feste Regeln auf den Quellcode an und erzeugt jedes Mal ein vorhersehbares Ergebnis. Ein großes Sprachmodell interpretiert eine mehrdeutige Anweisung und liefert ein wahrscheinliches Ergebnis, kein garantiertes. Englisch fungiert als Schnittstelle zu einem Code-produzierenden System und nicht als Ersatz für den Code, die Assessments und die Schemata darunter.
Vier Beispiele zeigen, wie weit sich die Schnittstelle entwickelt hat. Die Cortex-Agenten von Snowflake wurden am 4. November 2025 allgemein verfügbar. Sie planen Aufgaben und greifen über Cortex Analyst und Cortex Search auf strukturierte und unstrukturierte Daten zu. AWS führte im August 2025 den AgentCore Code Interpreter ein, der es Agenten ermöglicht, Python, JavaScript und TypeScript für die Datenanalyse in einer Sandbox-Umgebung zu schreiben und auszuführen. Der Copilot-Coding-Agent von GitHub wurde am 25. September 2025 allgemein verfügbar. Er akzeptierte eine delegierte Aufgabe, öffnete einen Pull-Request-Entwurf und bat einen Menschen, ihn zu überprüfen. Der Genie Code von Databricks, der jetzt in die umfassendere Genie One-Suite integriert ist, plant und führt Information-Science-Workflows anhand einer schriftlichen Eingabeaufforderung aus.
Jeder Anbieter stellt seinem Agenten eine leicht verständliche Anfrage vor. „None“ entfernt den Schritt, in dem eine Particular person entscheidet, ob die Ausgabe für den Versand geeignet ist.
Generierung und Überprüfung lassen sich nicht zusammen skalieren
Speziell für die Datenarbeit erstellte Benchmarks zeigen, warum believable Antworten ein echtes Risiko bergen. DSBench, vorgestellt auf der ICLR 2025, testete KI-Agenten anhand von 466 Datenanalysefragen und 74 Finish-to-Finish-Modellierungsaufgaben aus echten Wettbewerben. Der stärkste Agent in der ursprünglichen Bewertung löste etwa ein Drittel der Analysefragen und lag damit deutlich unter der menschlichen Leistung, obwohl der Benchmark auf Modellen aus dem Jahr 2024 beruhte und neuere Systeme möglicherweise höhere Ergebnisse erzielten.
Google Analysis veröffentlichte im November 2025 einen Kontrapunkt. Sein DS-STAR-System steigerte die Genauigkeit bei drei datenwissenschaftlichen Benchmarks und erreichte 45,2 % bei DABStep, 44,7 % bei KramaBench und 38,5 % bei DA-Code und lag damit vor der damals besten getesteten Various. Die schwierigsten DABStep-Aufgaben erforderten immer noch durchschnittlich 5,6 Planungs- und Überprüfungsrunden, bevor sich das System auf eine Antwort einigte. Sogar ein Recherchesystem, das darauf ausgelegt ist, frühere Grenzen zu überwinden, betrachtet die Überprüfung als Teil der Arbeit und nicht als anschließende Bereinigung.
In einer auf der CHI vorgestellten Studie von Microsoft Analysis und der College of Washington aus dem Jahr 2024 wurden 22 Analysten bei der Arbeit mit KI-generierten Analysen beobachtet. Um zu entscheiden, ob ein Ergebnis Bestand hatte, stützten sich die Teilnehmer auf Beweise auf Verfahrensebene wie Code und Erklärungen sowie auf Beweise auf Datenebene wie Tabellen und Diagramme. Ihre Prüfungen waren in fünf Ebenen unterteilt: Wurde der Code ausgeführt, struggle die Methode geeignet, wurden Verknüpfungen und fehlende Werte korrekt verarbeitet, beantwortete das Ergebnis die eigentliche Geschäftsfrage und arbeitete die Pipeline weiterhin an neuen Daten?
Die Generierung skaliert mit der Rechenleistung. Die Überprüfung skaliert mit der Anzahl qualifizierter Personen, die eine Antwort genau prüfen und entscheiden können, ob sie vertrauenswürdig ist. Die beiden Tarife stimmen selten überein, und durch den Abstand zwischen ihnen häuft sich die Arbeit.
Der Produktivitätsnachweis hängt davon ab, was gezählt wird
Einer der stärksten Beweise für die KI-Produktivität stammt aus einem kontrollierten Experiment aus dem Jahr 2023, das immer noch häufig zitiert wird und bei dem Entwickler, die einen JavaScript-HTTP-Server erstellen wollten, mit GitHub Copilot 55,8 % schneller fertig wurden als ohne. Die Aufgabe struggle eng, das Ziel klar und der Erfolg leicht zu beurteilen. Unter engen, intestine abgegrenzten Bedingungen hat ein Agent enorm geholfen.
Der randomisierte Versuch von METR für 2025 weist in die andere Richtung. Sechzehn erfahrene Open-Supply-Entwickler arbeiteten 246 Aufgaben in großen, ausgereiften Repositories ab, die sie bereits intestine kannten. Mit KI-Zugriff dauerte die Fertigstellung 19 % länger. Die Teilnehmer hatten zuvor eine Beschleunigung um 24 % vorhergesagt und schätzten auch danach eine Beschleunigung um 20 % ein, trotz des langsameren Ergebnisses, das sie gerade erlebt hatten. METR stellt das Ergebnis als eine Momentaufnahme der Instruments für Anfang 2025 in einer Umgebung dar und nicht als ein allgemeingültiges Urteil über die KI-Codierung.
Der DORA-Bericht 2025 von Google befragte Software program-Experten und stellte fest, dass 90 % von ihnen KI nutzen, im Durchschnitt zwei Stunden professional Tag. Die Akzeptanz verlief mit einem höheren Output und gleichzeitig mit einer geringeren Lieferstabilität. Der Rahmen von DORA passt ins Muster: KI verstärkt, was ein Crew bereits intestine macht, und verstärkt ebenso schnell, was es schlecht macht.
Die Entwicklerumfrage 2025 von Stack Overflow liefert ein Verhaltenssignal. 46 % der Befragten misstrauten der Genauigkeit der KI-Ausgabe, 33 % vertrauten ihr und nur 3 % gaben großes Vertrauen an. 66 Prozent gaben an, dass sie mehr Zeit damit verbrachten, KI-Code zu reparieren, der quick richtig aussah, sich aber als falsch erwies. dbt Labs stellte fest, dass Ende 2024 80 % der Datenexperten täglich KI nutzten, gegenüber 30 % ein Jahr zuvor, doch nur 30 % vertrauten einem Agenten, der Fragen in natürlicher Sprache direkt anhand ihrer Daten beantwortete. Beschleunigung und Vertrauen sind nicht dasselbe Maß, und die Umfragen stellen immer wieder Lücken zwischen ihnen fest.
Der neue Engpass verändert die Type des Datenteams
Wenn Englisch die Kosten für das Stellen einer Frage senkt, verlagern sich die Kosten auf die Beurteilung der Antwort. Anacondas Umfrage unter Praktikern aus dem Jahr 2025 ergab, dass sich die gemeldeten Qualifikationslücken auf die Bereiche KI-Governance (30 %), Deep-Studying-Engineering (23 %) und Immediate-Design (20 %) konzentrieren. LinkedIn-Daten zeigen einen 177-prozentigen Anstieg der Mitglieder, die ihren Profilen seit 2023 KI-bezogene Fähigkeiten hinzufügen, quick das Fünffache der Wachstumsrate bei allen Fähigkeiten, obwohl die Zahl selbst gemeldete Fähigkeiten erfasst und nicht die in Stellenausschreibungen geschriebenen Arbeitgeberanforderungen.
Eine Stellenausschreibungsstudie, die 378 börsennotierte US-Unternehmen umfasste, die für Stellen im Bereich der generativen KI rekrutierten, ergab eine höhere Nachfrage nach kognitiven Fähigkeiten und einen Anstieg der Anforderungen an soziale Kompetenzen nach ChatGPT, obwohl der Datensatz bis 2023 läuft und nicht spezifisch für Stellen im Bereich Datenwissenschaft ist. Zusammengenommen stützen die Beweise eine engere Behauptung als die, die häufig in Schlagzeilen wiederholt wird: Area-Framing, Evaluierung, Governance und Orchestrierung gewinnen neben der Codierungsfähigkeit an Wert, ersetzen sie jedoch nicht. Kein hier überprüfter Datensatz zeigt, dass Arbeitgeber Python- oder Statistikanforderungen zugunsten von Fähigkeiten zum schnellen Schreiben aufgegeben haben.
Innerhalb eines Datenteams verläuft die Verschiebung ungleichmäßig. Ein Junior-Analyst kann nun an einem Nachmittag einen funktionierenden Modellentwurf erstellen. Ein leitender Prüfer, ein Domänenexperte oder ein Datenqualitätseigentümer muss immer noch entscheiden, ob der Entwurf es verdient, einen Kunden, eine betriebliche Entscheidung oder einen Greenback an Ausgaben zu beeinflussen. Nachwuchskräfte schaffen schneller. Leitende Mitarbeiter müssen täglich mehr Entscheidungen treffen, weil die Menge, die ihnen bevorsteht, zunimmt, während ihre Mitarbeiterzahl gleich bleibt. Die Verantwortung konzentriert sich auf die Personen, die in der Lage sind, eine falsche Annahme zu erkennen, bevor sie in die Produktion gelangt, unabhängig davon, wer die erste Model geschrieben hat.
Meinung: Messen Sie verifizierte Ergebnisse, nicht das generierte Volumen
Hier ist die Annahme: Die Zählung generierter Artefakte als Produktivitätsmaß belohnt falsches Verhalten. Ein Dashboard, ein Modell oder eine Pull-Anfrage, die ein Agent in Sekundenschnelle erstellt, hat keinen Wert, bis eine qualifizierte Particular person bestätigt, dass es funktioniert, und beschließt, es beizubehalten. Eine einfache Zählung der Ergebnisse sagt einem Crew, wie beschäftigt seine Agenten waren, und nicht, wie viele tatsächliche Fortschritte es gemacht hat.
Datenverantwortliche sollten stattdessen verifizierte Ergebnisse verfolgen. Die Akzeptanzrate misst den Anteil der vom Agenten erstellten Arbeit, die ohne Nacharbeit genehmigt wurde. Die Überprüfungszeit misst, wie viele Arbeitsstunden jedes akzeptierte Artefakt gekostet hat. Die Charge der entgangenen Fehler misst, wie oft ein Downside trotzdem in die Produktion gelangt. Der Nacharbeitsumfang, die Modellüberwachungsvorfälle und die Zeit bis zu einer validierten Entscheidung runden ein Bild ab, das der Realität näher kommt als die Anzahl geschriebener Zeilen oder beantworteter Fragen. Die klarste einzelne Zahl ist möglicherweise die einfachste: der Anteil der erzeugten Arbeit, der unverändert in die Produktion gelangt.
Nichts obenstehendes spricht gegen Agententools. Cortex Brokers, AgentCore und Copilots Coding Agent senken alle die Kosten für einen ersten Entwurf, und es lohnt sich, einen günstigeren ersten Entwurf zu kaufen. Meine Meinung: Der Gewinn wird immer dann überbewertet, wenn ein Anbieter oder eine Schlagzeile die Geschwindigkeit der Generierung mit der Geschwindigkeit der Lieferung verwechselt.
In der natürlichen Sprache wird es immer mehr geben, wer mit der Arbeit an Daten beginnen kann. Ein Marketinganalyst, ein Finanzleiter oder ein Betriebsleiter kann jetzt eine Frage in einfachen Worten stellen und erhält ein Modell, ein Diagramm oder eine funktionierende App zurück. Was noch rar bleibt, ist das Wissen, welche Frage man stellen muss, wie viele Beweise ausreichen, um einer Antwort zu vertrauen, und wann man sie ablehnen sollte. Die Fertigkeit wird in der Reaktionszeit eines Modells nicht angezeigt und sie wird nicht billiger, nur weil dies im ersten Entwurf der Fall struggle.
