In diesem AI-Papier wird der Kolmogorov-Take a look at vorgestellt: ein Komprimierungs-As-Intelligence-Benchmark für die Bewertung von Code-erzeugenden Sprachmodellen

Komprimierung ist ein Eckpfeiler der Computational Intelligence, die tief in der Theorie der Kolmogorov -Komplexität verwurzelt ist, die das minimale Programm definiert, das zur Wiedergabe einer bestimmten Sequenz erforderlich ist. Im Gegensatz zu herkömmlichen Komprimierungsmethoden, die nach Wiederholung und Redundanz suchen, interpretiert Kolmogorovs Rahmen die Komprimierung als Drawback, strukturierte Muster durch programmatische Darstellung zu entdecken. Während die Theorie eine optimale Komprimierung verspricht, hat ihre Unkomputierbarkeit eine signifikante Hürde. Dennoch eröffnet die Entstehung von großsprachigen Modellen, die zur Erzeugung von Code in der Lage sind, eine faszinierende Gelegenheit, zu testen, wie eng moderne Systeme dieses theoretische Preferrred annähern, indem sie eher durch Code als Musteranpassung argumentieren.

Ein Kernproblem ergibt sich aus den Einschränkungen der aktuellen Instruments bei der Komprimierung von Datensequenzen mit präzisen, ausführbaren Code. Modelle replizieren häufig Eingaben, anstatt Programme zu erzeugen, die sie reproduzieren, was auf eine Lücke im wahren Musterverständnis hinweist. Dies wird besonders deutlich, wenn es sich um reale Audio-, Textual content- oder DNA-Sequenzen handelt, in denen komplexe logische Strukturen aufgedeckt werden müssen, um eine effiziente Komprimierung zu erreichen. Die Hauptherausforderung besteht darin, sicherzustellen, dass das Modell die Sequenz repliziert und einen minimalen und rationalen Satz von Anweisungen verwendet. Obwohl synthetische Trainingsdaten für die kontrollierte Bewertung nützlich sind, unterstützt sie häufig keine robuste Verallgemeinerung auf natürliche Daten, was für praktische Anwendungen wesentlich ist.

Es gibt mehrere Komprimierungswerkzeuge, die von herkömmlichen Algorithmen wie GZIP bis hin zu neueren neuronalen Komprimierungssystemen reichen. GZIP bleibt aufgrund seiner wirksamen Codierung statistischer Regelmäßigkeiten eine starke Grundlinie, insbesondere für lange oder sich wiederholende Sequenzen. In jüngerer Zeit haben Sprachmodellierungsansätze in die arithmetische Codierung integriert, wobei Vorhersagewahrscheinlichkeiten zur Komprimierung Eingabedaten verwendet werden. Diese Methoden erfordern jedoch in der Regel Zugriff auf die vollständigen Modellgewichte zur Dekodierungszeit und begrenzen ihre Effizienz und Anwendbarkeit. Aufgebreitete Code-erzeugende Modelle wie GPT-4 und LLAMA wurden auch in Null-Shot-Einstellungen bewertet, um Python-Programme zu generieren, die Eingangssequenzen reproduzieren. Sie erzeugen jedoch häufig einen langen, ungenauen Code mit begrenztem Erfolg, insbesondere wenn sie mit unsichtbaren oder komplexen Sequenzen konfrontiert sind.

Forscher der Meta AI und der Tel Aviv College stellten den Kolmogorov-Take a look at (KT) vor, einen Benchmark für die Beurteilung der Argumentationsfähigkeit von Code-erzeugenden Sprachmodellen. Der Take a look at bewertet die Fähigkeit eines Modells, das kürzeste Programm zu generieren, das eine bestimmte Eingangssequenz ausgibt. Im Gegensatz zu typischen Benchmarks betont KT die logische Zusammensetzung und die Programmgenerierung gegenüber der Vorhersage -Textmodellierung. Zu den Sequenzen gehören natürliche Daten aus Audio (Librispeech), Textual content (Wikipedia Enwik9) und DNA (GRCH38) sowie synthetische Sequenzen, die durch eine benutzerdefinierte domänenspezifische Sprache (DSL) generiert werden. Dieser DSL unterstützt das Erstellen strukturierter Sequenzen, indem er Operationen wie Bereicherstellung, Sequenzmodifikation, Zusammenführung und Filterung komponierter erstellt.

Die Forscher entwickelten ein automatisiertes Rahmen, um Millionen von synthetischen Programmsequenzpaaren unter Verwendung dieser DSL zu generieren. Diese Programme schulen und bewerten dann Modelle, einschließlich großer vorgebreiteter und spezifisch ausgebildeter SEQCODER. Um die Leistung zu messen, verwendete das Crew Metriken wie Genauigkeit – ob das generierte Programm die Sequenz – und Präzision – reproduziert, wie das richtige Programm mit der GZIP -Komprimierung verglichen wird. Der Take a look at umfasste Komprimierungssequenzen unterschiedlicher Längen, wobei synthetische Sequenzen durchschnittlich 76 Bytes und reale Sequenzen auf 128 begrenzt waren.

Die Ergebnisse zeigten, dass selbst die mächtigsten Modelle zu kämpfen hatten. GPT-4 erreichte eine Genauigkeit von 69,5% bei hochwertigem Audio, fiel jedoch für 8-Bit-Audio auf 36,4% und für DNA-Daten um 50,3%. Lama-3,1-405b zeigte sich schlechter, mit Genauigkeiten von nur 3,9% für Audio und nur 24,8% für DNA. In synthetischen Daten erreichte SEQCODER-8B eine Genauigkeit von 92,5% mit einem Präzisionswert von 0,56 und übertriffte herkömmliche Instruments wie Gzip. Die Genauigkeit auf reale Daten blieb jedoch nahe Null. Diese Diskrepanz veranschaulicht die Schwierigkeit, den Erfolg von synthetischen Benchmarks auf abwechslungsreichere und lautliche reale Sequenzen zu übertragen, die Grenzen der aktuellen Trainingsregime hervorzuheben und die Notwendigkeit neuer Strategien zu fordern.

Insgesamt beschreibt diese Forschung die Komplexität der Komprimierung durch die Codegenerierung deutlich. Der KT-Benchmark bietet einen strengen und vielfältigen Modell-Argumentations- und Strukturerkennungstest und legt die Starke-Kluft zwischen synthetischen Lernumgebungen und realen Anwendungen auf. Die eingeführte Methodik und der Take a look at setzen eine hohe Balken für zukünftige Modelle fest, die die Argumentation mit Komprimierung vereinen sollen. Es ist jedoch noch erhebliche Innovationen erforderlich, um diese Herausforderung zu befriedigen.

Kasse Die Papier. Alle Krediten für diese Forschung gilt an die Forscher dieses Projekts. Fühlen Sie sich auch frei, uns zu folgen Twitter Und vergessen Sie nicht, sich unserer anzuschließen 85k+ ml Subreddit.

Nikhil ist Praktikantberater bei MarktechPost. Er macht am Indian Institute of Know-how, Kharagpur, einen integrierten Doppelabschluss in Materialien. Nikhil ist ein KI/ML -Fanatic, der immer Anwendungen in Bereichen wie Biomaterialien und biomedizinische Wissenschaft recherchiert. Mit einem starken Hintergrund in der Materialwissenschaft untersucht er neue Fortschritte und schafft Möglichkeiten, einen Beitrag zu leisten.

In diesem AI-Papier wird der Kolmogorov-Take a look at vorgestellt: ein Komprimierungs-As-Intelligence-Benchmark für die Bewertung von Code-erzeugenden Sprachmodellen

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Das Group von Andrew Ng veröffentlicht Context Hub: ein Open-Supply-Device, das Ihrem Coding-Agent die aktuelle API-Dokumentation liefert, die er benötigt

Google Stax: Testen von Modellen und Eingabeaufforderungen anhand Ihrer eigenen Kriterien

Drei OpenClaw-Fehler, die Sie vermeiden sollten, und wie Sie sie beheben können

Verbesserung der Fähigkeit von KI-Modellen, ihre Vorhersagen zu erklären | MIT-Nachrichten

About

Categories

Tags

Recent Post

Das Group von Andrew Ng veröffentlicht Context Hub: ein Open-Supply-Device, das Ihrem Coding-Agent die aktuelle API-Dokumentation liefert, die er benötigt

Google Stax: Testen von Modellen und Eingabeaufforderungen anhand Ihrer eigenen Kriterien

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt