machten letzte Woche Schlagzeilen.
In Microsofts Construct 2025 stellte CEO Satya Nadella die Imaginative and prescient eines „Open Agentic Net“ vor und präsentierte einen neueren Github-Copiloten, der als Multi-Agent-Teamkollege diente, das von Azure AI Foundry angetrieben wurde.
Googles I/O 2025 folgte schnell mit einer Reihe von einer Reihe von Agenten AI Innovationen: Der neue Agentenmodus in Gemini 2.5, das offene Beta des Codierungsassistenten Jules und die native Unterstützung des Modellkontextprotokolls, das eine reibungsloseere Zusammenarbeit zwischen den Agenten ermöglicht.
Openai sitzt auch nicht nonetheless. Sie haben ihren Betreiber, den Webbrowsing-Agenten, auf das neue O3-Modell verbessert, das mehr Autonomie, Argumentation und kontextbezogenes Bewusstsein für alltägliche Aufgaben bringt.
In allen Ankündigungen taucht immer wieder ein Key phrase auf: Gaia. Jeder scheint zu Rennen zu sein, um seine Gaia -Ergebnisse zu melden, aber wissen Sie tatsächlich, was es ist?
Wenn Sie neugierig sind, mehr darüber zu erfahren, was sich hinter den Gaia -Ergebnissen befindet, sind Sie am richtigen Ort. Lassen Sie uns in diesem Weblog die Gaia auspacken Benchmark Und besprechen Sie, was es ist, wie es funktioniert und warum Sie sich bei der Auswahl von LLM -Agent -Instruments um diese Zahlen kümmern sollten.
1. Agenten AI -Bewertung: Von Drawback zur Lösung
Llm Agenten sind AI -Systeme, die LLM als Kern verwenden, der Aufgaben autonom ausführen kann, indem es das Verständnis der natürlichen Sprache kombiniert, mit Argumentation, Planung, Gedächtnis und Werkzeuggebrauch.
Im Gegensatz zu einem Commonplace -LLM sind sie nicht nur passive Responder für Eingabeaufforderungen. Stattdessen initiieren sie Aktionen, passen sich an den Kontext an und arbeiten mit Menschen (oder sogar mit anderen Agenten) zusammen, um komplexe Aufgaben zu lösen.
Wenn diese Agenten fähiger werden, folgt natürlich eine wichtige Frage: Wie finden wir heraus, wie intestine sie sind?
Wir brauchen Commonplace -Benchmark -Bewertungen.
Seit einer Weile stützt sich die LLM -Neighborhood auf Benchmarks, die sich hervorragend zum Testen spezifischer Fähigkeiten von LLM, z. MMLUarithmetisches Denken auf GSM8KCoding-Generierung auf Snippet-Ebene auf HumaneralVerständnis für eine Sprachverständnis von Einzelgezogenen auf Superklebe.
Diese Checks sind sicherlich wertvoll. Aber hier ist der Haken: Die Bewertung eines vollwertigen KI-Assistenten ist a völlig anderes Spiel.
Ein Assistent muss autonom planenAnwesend entscheidenUnd Akt über mehrere Schritte. Diese dynamischen, realen Fähigkeiten lagen nicht im Mittelpunkt dieser „älteren“ Bewertungsparadigmen.
Dies hob schnell eine Lücke hervor: Wir brauchen eine Möglichkeit, diese rundum praktische Intelligenz zu messen.
Geben Sie Gaia ein.
2. Gaia ausgepackt: Was ist unter der Motorhaube?
Gaia steht für General Ai ASSISTANTS Benchmark (1). Dieser Benchmark wurde eingeführt, um LLM-Agenten speziell auf ihre Fähigkeit zu bewerten, als Allzweck-AI-Assistenten zu fungieren. Es ist das Ergebnis einer gemeinsamen Anstrengung von Forschern von Meta-Truthful, Meta-Genai, umarmendem Gesicht und anderen, die mit der Autogpt-Initiative verbunden sind.
Um besser zu verstehen, lassen Sie uns diesen Benchmark aufschlüsseln, indem wir uns auf seine Struktur befassen, wie sie Ergebnisse erzielt und was ihn von anderen Benchmarks unterscheidet.
2.1 Gaia Struktur
Gaia ist im Grunde ein fragwürdiger Benchmark, bei dem LLM-Agenten die Aufgabe haben, diese Fragen zu lösen. Dies erfordert, dass sie eine breite Reihe von Fähigkeiten demonstrieren, einschließlich, aber nicht beschränkt auf:
- Logische Argumentation
- Multimodalitätsverständnis, z. B. Interpretation von Bildern, Daten in nicht-textuellen Formaten usw. dargestellt.
- Net -Surfen zum Abrufen von Informationen
- Verwendung verschiedener Softwaretools, z. B. Code -Dolmetscher, Dateimanipulatoren usw.
- Strategische Planung
- Aggregierte Informationen aus unterschiedlichen Quellen
Schauen wir uns eine der „harten“ Gaia -Fragen an.
Welcher der Früchte im Gemälde 2008 gezeigt? Stickerei aus Usbekistan wurden als Teil der serviert Oktober 1949 Frühstücksmenü Für den Ocean Liner wurde später als schwebende Requisite im Movie verwendet Die letzte Reise? Geben Sie die Gegenstände als von Kommas getrennte Liste an und bestellen Sie sie im Uhrzeigersinn aus der 12-Uhr-Place im Gemälde und verwenden Sie die Pluralform jeder Frucht.
Die Lösung dieser Frage zwingt einen Agenten zu (1) Bilderkennung durchführen, um die Früchte im Gemälde zu kennzeichnen, (2) Forschungsfilm Trivia, um den Namen des Schiffes zu lernen, (3) Abrufen und analysieren Sie ein historisches Menü von 1949, (4) Schneiden Sie die beiden Fruchtlisten und schneiden (5) Formatieren Sie die Antwort genau wie angefordert. Dies zeigt mehrere Fähigkeiten auf einmal.
Insgesamt besteht der Benchmark aus 466 kuratierten Fragen. Sie sind in a unterteilt Entwicklungs-/Validierungssatzwas öffentlich ist und privat Testset Von 300 Fragen werden die Antworten zurückbehalten, um die offizielle Rangliste mitzuwirken. Ein einzigartiges Merkmal von Gaia ist, dass sie eindeutige, sachliche Antworten haben sollen. Diese Eigenschaft vereinfacht den Bewertungsprozess erheblich und gewährleistet auch die Konsistenz bei der Bewertung.
Die Gaia -Fragen sind basierend auf drei Schwierigkeitsgraden strukturiert. Die Idee hinter diesem Design ist, zunehmend komplexere Fähigkeiten zu untersuchen:
- Stufe 1: Diese Aufgaben sollen durch sehr kompetente LLMs lösbar sein. Sie benötigen in der Regel weniger als fünf Schritte für die Ausführung und beinhalten nur minimale Werkzeugverwendung.
- Stufe 2: Diese Aufgaben erfordern komplexere Argumentation und die ordnungsgemäße Verwendung mehrerer Instruments. Die Lösung umfasst im Allgemeinen zwischen fünf und zehn Schritten.
- Stufe 3: Diese Aufgaben stellen die anspruchsvollsten Aufgaben innerhalb des Benchmarks dar. Die erfolgreiche Beantwortung dieser Fragen würde eine langfristige Planung und die ausgefeilte Integration verschiedener Instruments erfordern.
Nachdem wir verstehen, was Gaia testet, untersuchen wir, wie es den Erfolg misst.
2.2 Gaia’s Tor
Die Leistung eines LLM -Agenten wird hauptsächlich entlang von zwei Hauptabmessungen gemessen. Genauigkeit Und kosten.
Für die Genauigkeit ist dies zweifellos die Hauptmetrik für die Bewertung der Leistung. Das Besondere an Gaia ist, dass die Genauigkeitsmetrik normalerweise nicht nur als als gemeldet wird Gesamtpunktzahl über alle Fragen hinweg. Zusätzlich, Individuelle Bewertungen Für jede der drei Schwierigkeitsgrads wird auch berichtet, dass die Fähigkeiten eines Vertreters bei Fragen mit unterschiedlichen Komplexität ein klarer Aufschlüsselung der Fähigkeiten eines Vertreters ermöglichen.
Für die Kosten wird es in USD gemessen und spiegelt die gesamten API -Kosten wider, die einem Agenten entstehen, um alle Aufgaben im Bewertungssatz zu versuchen. Die Kostenmetrik ist in der Praxis sehr wertvoll, da sie das bewertet Effizienz Und Kosteneffizienz den Agenten in der realen Welt bereitzustellen. Ein leistungsstarker Agent, der übermäßige Kosten verursacht, wäre im Maßstab unpraktisch. Im Gegensatz dazu könnte ein kostengünstiges Modell in der Produktion eher vorzuziehen sein, selbst wenn es eine geringfügige Genauigkeit erreicht.
Betrachten Sie die folgenden Referenzpunkte:
- Menschen erreichen bei Gaia -Aufgaben eine Genauigkeit von rund 92%.
- Zum Vergleich starteten frühe LLM-Agenten (angetrieben von GPT-4 mit Plugin-Unterstützung) mit Punktzahlen von rund 15%.
- Neuere High-Performing-Agenten, z. B. H2OGPTE von H2O.AI (angetrieben von Claude-3,7-SONNet), haben einen Gesamtwert von ~ 74percentgeliefert, wobei Stufe 1/2/3 Punkte 86%, 74,8percentbzw. 53percentbetragen.
Diese Zahlen zeigen, wie viel Agenten verbessert haben, aber auch, wie herausfordernde Gaia auch für die High -LLM -Agentensysteme bleibt.
Aber was macht Gaia Schwierigkeiten so bedeutungsvoll für die Bewertung der realen Agentenfunktionen?
2.3 Gaia -Leitprinzipien
Was Gaia hervorhebt, ist nicht nur, dass es schwierig ist. Es ist so, dass die Schwierigkeit sorgfältig ausgelegt ist Testen Sie die Artwork von Fähigkeiten Diese Agenten brauchen in praktischen, realen Szenarien. Hinter diesem Design stehen einige wichtige Prinzipien:
- Schwierigkeitsgrad der realen Welt: Gaia -Aufgaben sind absichtlich herausfordernd. Sie erfordern in der Regel mehrstufige Argumentation, ein modales Verständnis und die Verwendung von Werkzeugen oder APIs. Diese Anforderungen spiegeln die Arten von Aufgaben, die Agenten in realen Anwendungen ausgesetzt sind, genau wider.
- Menschliche Interpretierbarkeit: Obwohl diese Aufgaben für LLM -Agenten eine Herausforderung sein können, bleiben sie für den Menschen intuitiv verständlich. Dies erleichtert Forschern und Praktikern das Verhalten von Fehlern und Verfolgung des Agenten.
- Nicht-Gammenfreundlichkeit: Die richtige Antwort abrufen bedeutet, dass der Agent die Aufgabe vollständig lösen und nicht nur Musteranpassungen erraten oder verwenden muss. Gaia hält auch die Überanpassung ab, indem er Argumentationsspuren verlangt und Fragen mit leicht durchsuchbaren Antworten vermeidet.
- Einfachheit der Bewertung: Antworten auf Gaia -Fragen sollen sein prägnant, sachlich und eindeutig. Dies ermöglicht eine automatisierte (und objektive) Bewertung, wodurch groß angelegte Vergleiche zuverlässiger und reproduzierbarer werden.
Mit einem klareren Verständnis von Gaia unter der Haube lautet die nächste Frage: Wie sollten wir diese Ergebnisse interpretieren, wenn wir sie in Forschungsarbeiten, Produktankündigungen oder Lieferantenvergleiche sehen?
3.. Gaia -Scores zur Arbeit bringen
Nicht alle Gaia -Scores werden gleich erzeugt, und mit einer Prise Salz sollten Schlagzeilennummern eingenommen werden. Hier sind vier wichtige Dinge zu beachten:
- Priorisieren Sie die Ergebnisse des privaten Testsatzes. Denken Sie beim Betrachten von Gaia -Ergebnissen immer daran, zu überprüfen, wie die Bewertungen berechnet werden. Basiert es auf dem öffentlichen Validierungssatz oder dem privaten Testsatz? Die Fragen und Antworten für das Validierungssatz sind on-line weit verbreitet. Daher ist es sehr wahrscheinlich, dass die Modelle sie möglicherweise während ihres Trainings „auswendig gelernt“ haben, anstatt Lösungen aus echtem Denken abzuleiten. Der non-public Testsatz ist die „echte Prüfung“, während das öffentliche Set eher eine „offene Buchprüfung“ ist.
- Schauen Sie über die allgemeine Genauigkeit hinaus und streichen Sie in Schwierigkeitsgrad. Während die Gesamtgenauigkeitsbewertung eine allgemeine Idee liefert, ist es oft besser, einen tieferen Blick darauf zu werfen, wie genau der Agent für unterschiedliche Schwierigkeitsgrads funktioniert. Achten Sie besonders auf die Aufgaben der Stufe 3, da starke Leistung erhebliche Fortschritte in den Fähigkeiten eines Agenten für die langfristige Planung und die anspruchsvolle Integration von Werkzeugen signalisiert.
- Suchen Sie kostengünstige Lösungen. Ziehen Sie immer darauf ab, Agenten zu identifizieren, die die beste Leistung für eine bestimmte Kosten bieten. Wir sehen hier erhebliche Fortschritte. Zum Beispiel kann das jüngste Wissensgraphen der Gedanken (KGOT) (2) bis zu 57 Aufgaben aus dem GAIA-Validierungssatz (165 Aufgaben) zu ungefähr 5 US-Greenback mit GPT-4O-Mini-Kosten lösen, verglichen mit den früheren Versionen von Umarmungsmotiven, die rund 29 Aufgaben bei 187 $ unter Verwendung von GPT-4O lösen.
- Beachten Sie potenzielle Unvollkommenheiten mit Datensatz. Etwa 5% der GAIA -Daten (über die Validierungs- und Testsätze hinweg) enthält Fehler/Mehrdeutigkeiten in den Grundwahrheitsantworten. Obwohl dies die Bewertung schwierig macht, gibt es ein Silberstreifen: Testen von LLM -Agenten auf Fragen mit unvollkommenen Antworten können deutlich zeigen, welche Agenten wirklich Grund im Vergleich zu ihren Trainingsdaten geben.
4. Schlussfolgerung
In diesem Beitrag haben wir die Gaia ausgepackt, einen Benchmark zur Bewertung von Agenten, der schnell zur Choice vor Ort geworden ist. Die wichtigsten Punkte, an die Sie sich erinnern sollten:
- Gaia ist ein Actuality -Examine für AI -Assistenten. Es wurde speziell entwickelt, um eine hoch entwickelte Reihe von Fähigkeiten von LLM -Agenten als AI -Assistenten zu testen. Diese Fähigkeiten umfassen komplexes Denken, die Behandlung verschiedener Arten von Informationen, das Browsen von Net -Surfen und die effektive Verwendung verschiedener Instruments.
- Schauen Sie über die Schlagzeilenzahlen hinaus. Überprüfen Sie die Quelle für den Testset, Schwierigkeitsgrad und Kosteneffizienz.
Gaia stellt einen erheblichen Schritt zur Bewertung von LLM-Agenten so dar, wie wir sie tatsächlich verwenden möchten: Als autonome Assistenten, die die chaotischen, facettenreichen Herausforderungen der realen Welt bewältigen können.
Vielleicht werden neue Bewertungsrahmen entstehen, aber Gaia’s Kernprinzipien, Relevanz, menschliche Interpretierbarkeit und Widerstand gegen Spiele, werden wahrscheinlich für die Messung von AI-Agenten zentral bleiben.
Referenzen
(1) Mialon et al., Gaia: Ein Maßstab für allgemeine KI -Assistenten2023, Arxiv.
(2) Besta et al., Erschwingliche AI -Assistenten mit Wissensgrafik von Gedanken2025, Arxiv.
