In den letzten Wochen haben wir die Veröffentlichung mächtiger LLMs wie Qwen 3 Moe, Kimi K2 und Grok 4 gesehen. Wir werden in absehbarer Zeit so rasante Verbesserungen sehen und die LLMs miteinander zu vergleichen, wir benötigen Benchmarks. In diesem Artikel diskutiere ich den neu veröffentlichten ARC AGI 3 -Benchmark und warum Frontier LLMs Schwierigkeiten haben, alle Aufgaben auf dem Benchmark zu erledigen.
Motivation
Meine Motivation, diesen Artikel zu schreiben, ist es, den neuesten Entwicklungen in der LLM -Technologie auf dem Laufenden zu halten. Erst in den letzten Wochen haben wir das gesehen Kimi K2 Modell (Greatest Open-SoUrce -Modell, wenn freigegeben), Qwen 3 235B-A22B (derzeit Bestes Open-Supply-Modell), Grok 4und so weiter. Im LLM -Bereich ist so viel passiert, und eine Möglichkeit, die Benchmarks zu verfolgen, besteht darin, die Benchmarks zu verfolgen.
Ich denke, der AGI-Benchmark ist besonders interessant, vor allem, weil ich sehen möchte, ob LLMs in der Intelligenz auf menschlicher Ebene mithalten können. Arc Agi -Rätsel werden so gemacht, dass Menschen sie vervollständigen können, aber LLMs werden kämpfen.
Sie können auch meinen Artikel lesen Bei der Verwendung von Kontexttechnik, um die LLM -Leistung erheblich zu verbessern und schau dir an Meine Web site, die alle meine Informationen und Artikel enthält.
Inhaltsverzeichnis
Einführung in ARC AGI
ARC AGI ist im Wesentlichen ein Puzzlespiel des Muster -Matchings.
- ARC AGI 1: Sie erhalten eine Reihe von Eingabe-Output-Paaren und müssen das Muster vervollständigen
- Bogen Agi 2: Ähnlich wie beim ersten Benchmark, das Muster -Matching für Eingangs- und Ausgangsbeispiele durchführt
- Bogen Agi 3: Hier spielen Sie ein Spiel, in dem Sie Ihren Block in den Torbereich bewegen müssen, aber einige erforderliche Schritte dazwischen
Ich finde es cool, diese Puzzlespiele zu testen und sie selbst zu vervollständigen. Dann sehen Sie, wie LLMs zunächst mit den Benchmarks zu kämpfen haben, und dann ihre Leistung mit besseren Modellen erhöhen. Openai zum Beispiel erzielte:
- 7,8% mit O1 Mini
- 75% mit O3-Tiefe
- 88% mit O3-Hoch
Wie Sie auch im Bild unten sehen können:

Spielen Sie den ARC AGI -Benchmark
Sie können auch die Bogen -AGI -Benchmarks selbst ausprobieren oder eine KI erstellen, um die Aufgaben auszuführen. Gehe zum ARC AGI 3 Web site und fang an, das Spiel zu spielen.
Der springende Punkt der Spiele ist, dass Sie keine Anweisungen haben und die Regeln selbst herausfinden müssen. Ich genieße dieses Konzept, da es darstellt, dass es ohne Hilfe ein völlig neues Downside herausfindet. Dies unterstreicht Ihre Fähigkeit, neue Umgebungen zu lernen, sich an sie anzupassen und Probleme zu lösen.
Sie können sehen Eine Aufnahme von mir, wie ich Arc Agi 3 hier spieleauf die Probleme zum ersten Mal auf die Probleme. Ich konnte den Hyperlink leider nicht in den Artikel einbetten. Es conflict jedoch tremendous interessant, den Benchmark zu testen und sich vorzustellen, dass ein LLM durchgehen muss, um ihn zu lösen. Ich beobachte zuerst die Umwelt und was passiert, wenn ich die verschiedenen Aktionen ausführe. Eine Aktion in diesem Fall besteht darin, eine der relevanten Tasten zu drücken. Einige Aktionen tun nichts, während andere die Umwelt beeinflussen. Ich gehe dann weiter, um das Ziel des Puzzles aufzudecken (zum Beispiel das Ziel in den Zielbereich) und versuche, dieses Ziel zu erreichen.
Warum Frontier -Modelle 0% erreichen
Dieser Artikel Staaten, dass, wenn Frontier -Modelle in der Vorschau der ARC AGI 3 getestet wurden, 0percenterreichten. Dies magazine für manche Menschen enttäuschend klingen, wenn man bedenkt, dass Sie wahrscheinlich relativ schnell viele Aufgaben selbst erledigen konnten.
Wie ich bereits diskutierte, hatten mehrere OpenAI -Modelle Erfolg mit den früheren AGI -Benchmarks, wobei ihr bestes Modell in der ersten Model 88% erreichte. Die Modelle erreichten jedoch zunächst 0percentoder in den niedrigen einstelligen Prozentsätzen.
Ich habe ein paar Theorien dafür, warum Frontier -Modelle keine Aufgaben auf ARC AGI 3 ausführen konnten:
Kontextlänge
Wenn Sie an ARC AGI 3 arbeiten, erhalten Sie keine Informationen über das Spiel. Das Modell muss somit eine Vielzahl von Aktionen ausprobieren, die Ausgabe dieser Aktionen sehen (zum Beispiel passiert nichts oder ein Block usw.). Das Modell muss dann die Maßnahmen, die es ergriffen hat, zusammen mit der Ausgabe bewerten und seine nächsten Bewegungen berücksichtigen.
Ich glaube, der Aktionsraum auf Arc AGI 3 ist sehr groß und es ist daher schwierig für die Modelle, sowohl zu experimentieren, um die richtige Aktion zu finden als auch die Wiederholung erfolgloser Handlungen zu vermeiden. Die Modelle haben im Wesentlichen ein Downside mit ihrer Kontextlänge und der Verwendung der vollen Länge.
Ich habe kürzlich einen interessanten Artikel von Manus darüber gelesen, wie sie ihre Agenten entwickeln und ihr Gedächtnis verwalten. Sie können Techniken verwenden, z. Ein Dateisystem zum Speichern eines wichtigen Kontextes. Ich glaube, dies wird der Schlüssel zur Steigerung der Leistung des ARC AGI 3 -Benchmarks sein.
Trainingsdatensatz
Ein weiterer Hauptgrund, warum Grenzmodelle nicht in der Lage sind, Bogen -AGI 3 -Aufgaben erfolgreich auszuführen, ist, dass sich die Aufgaben sehr von ihrem Trainingsdatensatz unterscheiden. LLMs wird bei einer Aufgabe quick immer besser abschneiden, wenn eine solche Aufgabe (oder eine ähnliche) im Trainingsdatensatz enthalten ist. In diesem Fall glaube ich, dass LLMs beispielsweise nur wenige Trainingsdaten zum Arbeiten mit Spielen haben. Darüber hinaus sind hier ein wichtiger Punkt auch die Agenten -Trainingsdaten für die LLMs.
Mit Agenten -Trainingsdaten meine ich Daten, bei denen das LLM Instruments verwendet und Aktionen ausführt. Ich glaube, wir sehen einen raschen Anstieg der als Wirkstoffe verwendeten LLMs, und daher nimmt die proportionale Menge an Trainingsdaten für das Agentenverhalten rasch zu. Es könnte jedoch sein, dass aktuelle Frontier -Modelle immer noch nicht so intestine darin sind, solche Aktionen auszuführen, obwohl sie in den kommenden Monaten wahrscheinlich schnell zunehmen wird.
Einige Menschen werden hervorheben, wie dies beweist, dass LLMs keine wirkliche Intelligenz haben: Der springende Punkt der Intelligenz (und der AGI -Benchmark) besteht darin, Aufgaben ohne Hinweise zu verstehen, nur indem sie die Umwelt untersuchen. Bis zu einem gewissen Grad stimme ich diesem Punkt zu und hoffe, dass Modelle aufgrund einer erhöhten Modellinformation und nicht wegen der Benchmark -Verfolgungsjagd, ein Konzept, das ich später in diesem Artikel untersuche, besser auf Arc Agi abschneiden.
Benchmark -Leistung in der Zukunft
Ich glaube, wir werden in Zukunft eine enorme Verbesserung der Modellleistung bei ARC AGI 3 verzeichnen. Vor allem, weil ich denke, dass Sie KI-Agenten erstellen können, die für die Agentenleistung fein abgestimmt sind und ihre Erinnerung optimum nutzen können. Ich glaube, relativ billige Verbesserungen können verwendet werden, um die Leistung erheblich zu verbessern, obwohl ich auch teurere Verbesserungen erwarte (z.
Benchmark -Verfolgungsjagd
Ich denke, es ist wichtig, einen Abschnitt über die Verfolgung von Benchmark zu verlassen. Benchmark -Verfolgungsjagd ist das Konzept der LLM -Anbieter, die optimale Punktzahlen für Benchmarks verfolgen, anstatt einfach die besten oder intelligentesten LLMs zu schaffen. Dies ist ein Downside, da die Korrelation zwischen der Benchmark -Leistung und der LLM -Intelligenz nicht 100percentbeträgt.
In der Verstärkungslernwelt würde das Benchmark -Verfolgungsjagd als Belohnungshacking bezeichnet. Ein Szenario, in dem der Agent einen Weg erteilt, die Umgebung zu hacken, in der er sich befindet, um eine Belohnung zu erhalten, ohne eine Aufgabe ordnungsgemäß auszuführen.
Der Grund, warum LLM -Anbieter dies tun, ist, dass die Menschen normalerweise zwei Dinge betrachten, wenn ein neues Modell veröffentlicht wird:
- Benchmark -Leistung
- Stimmung
Die Benchmark-Leistung wird normalerweise an bekannten Benchmarks wie SWE-Bench und Arc Agi gemessen. Vibe -Checks sind auch ein Weg, wie LLMs oft von der Öffentlichkeit gemessen werden (ich sage nicht, dass es eine gute Möglichkeit zum Testen des Modells ist, ich sage einfach, dass es in der Praxis passiert). Das Downside dabei ist jedoch, dass ich glaube, dass es recht einfach ist, Menschen mit der Stimmung eines Modells zu beeindrucken, da die Vibe -Überprüfung einen sehr kleinen Prozentsatz des Aktionsraums für die LLM versucht. Möglicherweise stellen Sie ihm nur bestimmte Fragen, die im Net verfügbar sind, oder bitten Sie sie, eine Anwendung zu programmieren, die das Modell bereits in seinen Trainingsdaten festgelegt hat.
Sie sollten additionally einen Benchmark selbst haben, beispielsweise einen internen Datensatz, der nicht ins Web durchgeführt wurde. Anschließend können Sie den LLM am besten für Ihren Anwendungsfall reduzieren und mit dieser LLM priorisieren.
Abschluss
In diesem Artikel habe ich LLM -Benchmarks diskutiert und warum sie für den Vergleich von LLMs wichtig sind. Ich habe Sie in den neu veröffentlichten ARC AGI 3 -Benchmark vorgestellt. Dieser Benchmark ist tremendous interessant, wenn man bedenkt, dass Menschen leicht einige der Aufgaben erledigen können, während Frontier -Modelle 0percenterzielen. Dies stellt somit eine Aufgabe dar, bei der die menschliche Intelligenz LLMs immer noch übertrifft.
Wenn wir voranschreiten, werden wir glaube, dass wir bei ARC AGI 3 rasante Verbesserungen bei der LLM -Leistung verzeichnen werden, obwohl ich hoffe, dass dies nicht das Ergebnis der Benchmark -Verfolgung sein wird, sondern die Verbesserung der LLMs in der Geheimdienste.
