Da sich Sprachmodelle (LMs) bei Aufgaben wie Bildgenerierung, Quizfragen und einfacher Mathematik verbessern, könnte man meinen, dass menschenähnliches Denken bald bevorsteht. In Wirklichkeit hinken sie uns bei komplexen Aufgaben immer noch deutlich hinterher. Spielen Sie beispielsweise Sudoku mit einem, indem Sie die Zahlen eins bis neun so eingeben, dass jede nur einmal in den Spalten, Zeilen und Abschnitten eines Neun-mal-Neun-Rasters erscheint. Ihr KI-Gegner wird es entweder nicht oder nur ineffizient schaffen, die Kästchen selbst auszufüllen, obwohl er überprüfen kann, ob Sie Ihre Kästchen richtig ausgefüllt haben.

Unabhängig davon, ob ein LM versucht, komplexe Rätsel zu lösen, Moleküle zu entwerfen oder mathematische Beweise zu schreiben, hat das System Schwierigkeiten, offene Anfragen zu beantworten, für die strenge Regeln gelten. Das Modell kann den Benutzern besser sagen, wie sie diese Herausforderungen angehen sollen, als sie selbst in Angriff zu nehmen. Darüber hinaus erfordert die praktische Problemlösung, dass LMs eine breite Palette von Optionen in Betracht ziehen und dabei Einschränkungen beachten. Kleine LMs können dies alleine nicht zuverlässig leisten; Große Sprachmodelle (LLMs) können dies manchmal, insbesondere wenn sie für Argumentationsaufgaben optimiert sind, aber es dauert eine Weile, bis sie reagieren, und sie verbrauchen viel Rechenleistung.

Dieses Dilemma veranlasste Forscher des Pc Science and Synthetic Intelligence Laboratory (CSAIL) des MIT dazu, einen kollaborativen Ansatz zu entwickeln, bei dem ein LLM die Planung übernimmt und dann die Arbeit dieser Strategie auf kleinere aufteilt. Ihre Methode hilft kleinen LMs, genauere Antworten zu liefern als führende LLMs wie OpenAI GPT-4ound nähern Sie sich der Präzision von Prime-Argumentationssystemen wie z o1ist aber gleichzeitig effizienter als beide. Ihr Framework mit dem Namen „Distributional Constraints by Inference Programming with Language Fashions“ (oder „DisCIPL“) basiert auf einem großen Modell, das kleinere „Follower“-Modelle zu präzisen Antworten führt, wenn Dinge wie Texttexte, Einkaufslisten mit Budgets und Reiserouten geschrieben werden.

Das Innenleben von DisCIPL ähnelt der Beauftragung eines Unternehmens mit einem bestimmten Auftrag. Sie stellen einem „Chef“-Modell eine Anfrage, und dieser überlegt sorgfältig, wie das Projekt umgesetzt werden soll. Anschließend gibt das LLM diese Anweisungen und Richtlinien in klarer Type an kleinere Modelle weiter. Es korrigiert die Ausgaben der Follower-LMs bei Bedarf – zum Beispiel ersetzt es die Formulierung eines Modells, die nicht in ein Gedicht passt, durch eine bessere Possibility eines anderen.

Der LLM kommuniziert mit seinen Followern in einer Sprache, die sie alle verstehen – additionally einer Programmiersprache zur Steuerung von LMs namens „LLaMPPL.“ Dieses Programm wurde 2023 vom Probabilistic Computing Mission des MIT entwickelt und ermöglicht es Benutzern, spezifische Regeln zu kodieren, die ein Modell zu einem gewünschten Ergebnis führen. Zum Produzieren kann beispielsweise LLaMPPL verwendet werden fehlerfreier Code indem sie die Regeln einer bestimmten Sprache in ihre Anweisungen integrieren. Anweisungen wie „Schreiben Sie acht Gedichtzeilen, wobei jede Zeile genau acht Wörter enthält“ sind in LLaMPPL codiert und stellen kleinere Modelle in die Warteschlange, um zu verschiedenen Teilen der Antwort beizutragen.

MIT-Doktorand Gabriel Grand, der Hauptautor von a Papier In der Präsentation dieser Arbeit heißt es, dass DisCIPL es LMs ermöglicht, sich gegenseitig zu den besten Antworten zu führen, was ihre Gesamteffizienz verbessert. „Wir arbeiten daran, die Inferenzeffizienz von LMs zu verbessern, insbesondere bei den vielen modernen Anwendungen dieser Modelle, bei denen es darum geht, Ausgaben zu generieren, die Einschränkungen unterliegen“, fügt Grand hinzu, der auch CSAIL-Forscher ist. „Sprachmodelle verbrauchen immer mehr Energie, da die Menschen sie häufiger nutzen, was bedeutet, dass wir Modelle brauchen, die bei minimalem Rechenaufwand genaue Antworten liefern können.“

„Es ist wirklich aufregend, neue Alternativen zur Commonplace-Sprachmodellinferenz zu sehen“, sagt Alane Suhr, Assistenzprofessor an der College of California in Berkeley, der nicht an der Forschung beteiligt battle. „Diese Arbeit lädt zu neuen Ansätzen für die Sprachmodellierung und LLMs ein, die die Inferenzlatenz durch Parallelisierung erheblich reduzieren, deutlich weniger Parameter als aktuelle LLMs erfordern und sogar die Aufgabenleistung gegenüber standardmäßiger serialisierter Inferenz verbessern. Die Arbeit bietet auch Möglichkeiten zur Untersuchung der Transparenz, Interpretierbarkeit und Steuerbarkeit von Modellausgaben, was bei der Bereitstellung dieser Technologien immer noch ein großes offenes Downside darstellt.“

Eine Underdog-Geschichte

Sie denken vielleicht, dass größere LMs bei komplexen Eingabeaufforderungen „besser“ sind als kleinere, wenn es um Genauigkeit und Effizienz geht. DisCIPL schlägt für diese Aufgaben einen überraschenden Kontrapunkt vor: Wenn Sie stattdessen die Stärken kleinerer Modelle kombinieren können, sehen Sie möglicherweise nur eine Effizienzsteigerung mit ähnlichen Ergebnissen.

Die Forscher stellen fest, dass man theoretisch Dutzende von LMs anschließen kann, um im DisCIPL-Framework zusammenzuarbeiten, unabhängig von der Größe. Bei Schreib- und Argumentationsexperimenten verwendeten sie GPT-4o als „Planer-LM“, eines der Modelle, das ChatGPT bei der Generierung von Antworten unterstützt. Es wurde ein Plan für mehrere erarbeitet „Lama-3.2-1B“ Modelle (kleinere von Meta entwickelte Systeme), in denen diese LMs jedes Wort (oder Token) der Antwort ausfüllen.

Dieser kollektive Ansatz konkurrierte mit drei vergleichbaren Ansätzen: einer Basislinie nur für Follower, die auf Llama-3.2-1B basiert, GPT-4o, das eigenständig arbeitet, und dem branchenführenden o1-Argumentationssystem, das ChatGPT dabei hilft, komplexere Fragen wie Codierungsanfragen und mathematische Probleme zu lösen.

DisCIPL stellte erstmals die Möglichkeit vor, Sätze und Absätze zu schreiben, die expliziten Regeln folgen. Den Modellen wurden sehr konkrete Anweisungen gegeben – zum Beispiel das Schreiben eines Satzes mit genau 18 Wörtern, wobei das vierte Wort „Glasgow“, das achte „in“ und das elfte „und“ sein muss. Das System battle bei der Bewältigung dieser Anforderung bemerkenswert geschickt, indem es kohärente Ausgaben erstellte und gleichzeitig eine ähnliche Genauigkeit und Kohärenz wie o1 erreichte.

Schneller, günstiger, besser

Dieses Experiment ergab auch, dass Schlüsselkomponenten von DisCIPL viel günstiger waren als hochmoderne Systeme. Während beispielsweise bestehende Argumentationsmodelle wie o1 von OpenAI die Argumentation im Textual content durchführen, „begründet“ DisCIPL durch das Schreiben von Python-Code, der kompakter ist. In der Praxis stellten die Forscher fest, dass DisCIPL im Vergleich zu o1 zu 40,1 Prozent kürzeren Begründungen und 80,2 Prozent Kosteneinsparungen führte.

Die Effizienzgewinne von DisCIPL resultieren teilweise aus der Verwendung kleiner Lama-Modelle als Follower, die professional Token 1.000 bis 10.000 Mal günstiger sind als vergleichbare Argumentationsmodelle. Dies bedeutet, dass DisCIPL „skalierbarer“ ist – die Forscher konnten Dutzende von Llama-Modellen zu einem Bruchteil der Kosten parallel ausführen.

Laut CSAIL-Forschern waren dies nicht die einzigen überraschenden Ergebnisse. Auch bei realen Aufgaben wie der Erstellung von Zutatenlisten, der Planung einer Reiseroute und dem Verfassen von Zuschussvorschlägen mit Wortbegrenzung schnitt ihr System im Vergleich zu o1 intestine ab. Unterdessen hatte GPT-4o mit diesen Anfragen zu kämpfen, und bei Schreibtests gelang es oft nicht, Schlüsselwörter in den richtigen Satzteilen zu platzieren. Die Nur-Follower-Basislinie landete im Wesentlichen auf dem letzten Platz, da sie Schwierigkeiten hatte, Anweisungen zu befolgen.

„In den letzten Jahren haben wir einige beeindruckende Ergebnisse von Ansätzen gesehen, die Sprachmodelle verwenden, um ‚automatisch formalisieren„Probleme in Mathematik und Robotik lösen, indem wir sie mit Code darstellen“, sagt der leitende Autor Jacob Andreas, außerordentlicher Professor für Elektrotechnik und Informatik am MIT und CSAIL-Hauptforscher. „Was ich an dieser Arbeit am spannendsten finde, ist die Tatsache, dass wir jetzt LMs verwenden können, um die Textgenerierung selbst automatisch zu formalisieren, was die gleichen Arten von Effizienzgewinnen und Garantien ermöglicht, die wir in diesen anderen Bereichen gesehen haben.“

In Zukunft planen die Forscher, dieses Framework zu einem vollständiger rekursiven Ansatz zu erweitern, bei dem Sie dasselbe Modell sowohl als Anführer als auch als Follower verwenden können. Grand fügt hinzu, dass DisCIPL auf mathematische Denkaufgaben ausgeweitet werden könnte, bei denen die Antworten schwieriger zu überprüfen sind. Sie beabsichtigen außerdem, das System auf seine Fähigkeit zu testen, die Fuzzy-Präferenzen der Benutzer zu erfüllen, anstatt harte Einschränkungen zu befolgen, die im Code nicht so explizit umrissen werden können. Das Crew denkt noch größer und hofft, die größtmöglichen verfügbaren Modelle verwenden zu können, weist jedoch darauf hin, dass solche Experimente rechenintensiv sind.

Grand und Andreas haben die Arbeit zusammen mit dem CSAIL-Hauptforscher und MIT-Professor Joshua Tenenbaum sowie dem Hauptforschungswissenschaftler der MIT-Abteilung für Gehirn- und Kognitionswissenschaften Vikash Mansinghka und dem Assistenzprofessor Alex Lew SM ’20 PhD ’25 der Yale College geschrieben. CSAIL-Forscher präsentierten die Arbeit auf der Konferenz zur Sprachmodellierung im Oktober und auf dem IVADO-Workshop „Deploying Autonomous Brokers: Classes, Dangers and Actual-World Influence“ im November.

Ihre Arbeit wurde teilweise vom MIT Quest for Intelligence, der Siegel Household Basis, dem MIT-IBM Watson AI Lab, einem Sloan Analysis Fellowship, Intel, dem Air Drive Workplace of Scientific Analysis, der Protection Superior Analysis Tasks Company, dem Workplace of Naval Analysis und der Nationwide Science Basis unterstützt.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert