
Große Sprachmodelle (LLMs) übertreffen die Verwendung von Textguthaben, um den Kontext eines Dokuments zu verstehen und eine logische Antwort auf den Inhalt zu geben. Aber diese LLMs haben oft Schwierigkeiten, selbst die einfachsten mathematischen Probleme richtig zu beantworten.
Textbedenken sind normalerweise eine weniger ideale Artwork, über rechnerische oder algorithmische Aufgaben zu überlegen. Während einige LLMs Code wie Python generieren können, um symbolische Abfragen zu behandeln, wissen die Modelle nicht immer, wann Code verwendet werden soll oder welche Artwork von Code am besten funktioniert.
Es scheint, dass LLMs einen Coach benötigen, um sie in Richtung der besten Technik zu lenken.
Eingeben Codesterein intelligenter Assistent, der von MIT -Forschern entwickelt wurde, die einen LLM dazu führen, zwischen Code und Textgenerierung zu wechseln, bis er eine Abfrage korrekt beantwortet.
Codester, selbst ein kleinerer LLM, generiert automatisch eine Reihe von Aufforderungen, um iterativ einen größeren LLM zu steuern. Es überprüft die aktuellen und früheren Antworten des Modells nach jeder Runde und enthält Anleitung, wie es diese Lösung reparieren oder verfeinern kann, bis sie die Antwort für korrekt hält.
Die Forscher fanden heraus, dass die Erweiterung eines größeren LLM mit Codester seine Genauigkeit auf symbolische Aufgaben wie Multiplikation von Zahlen, Spielen von Sudoku und Stapelblöcken um mehr als 30 Prozent erhöhte. Es ermöglichte auch weniger ausgefeilte Modelle, fortgeschrittenere Modelle mit verbesserten Argumentationsfähigkeiten zu übertreffen.
Dieser Fortschritt könnte die Problemlösungsfunktionen von LLMs für komplexe Aufgaben verbessern, die besonders schwer mit dem textuellen Denken zu lösen sind, z. B. Wege für Roboter in unsicheren Umgebungen oder die Planung von Sendungen in einer internationalen Lieferkette.
“There’s a race to develop higher and higher fashions which might be able to doing every thing, however we have taken a complementary method. Researchers have spent years growing efficient applied sciences and instruments to sort out issues in lots of domains. We wish to allow LLMs to pick out the suitable instruments and strategies, and make use of others‘ experience to reinforce their very own capabilities,” says Chuchu Fan, an affiliate professor of aeronautics and astronautics (AeroAstro) and principal Ermittler im MIT -Labor für Informations- und Entscheidungssysteme (LIDS).
Fan, der leitende Autor der Studie, wird angeschlossen ein Papier über die Arbeit von Lids Doktorand Yongchao Chen; Aeroastro -Doktorand Yilun Hao; Universität von Illinois in Urbana-Champaign-Doktorand Yueying Liu; und MIT-IBM Watson AI Lab Analysis Scientist Yang Zhang. Die Forschung wird auf der Internationalen Konferenz über maschinelles Lernen vorgestellt.
Ein LLM „Coach“
Fragen Sie eine LLM, welche Nummer größer ist, 9.11 oder 9.9, und es gibt häufig die falsche Antwort, indem sie Textminen verwenden. Bitten Sie ihn jedoch, Code zu verwenden, um dieselbe Frage zu beantworten, und es kann ein Python -Skript generieren und ausführen, um die beiden Zahlen zu vergleichen und das Drawback leicht zu lösen.
LLMs sind zunächst ausgebildet, um die menschliche Sprache zu verstehen und vorherzusagen, und beantworten eher Abfragen mit Textual content, selbst wenn Code effektiver wäre. Und während sie gelernt haben, durch Feinabstimmung Code zu generieren, generieren diese Modelle häufig eine falsche oder weniger effiziente Model des Codes.
Anstatt zu versuchen, ein leistungsstarkes LLM wie GPT-4 oder Claude um diese Funktionen zu verbessern, stimmen die MIT-Forscher ein kleineres, leichtes LLM, um ein größeres Modell zwischen Textual content und Code zu leiten. Die Feinabstimmung eines kleineren Modells ändert das größere LLM nicht, daher besteht kein Risiko, dass es die anderen Fähigkeiten des größeren Modells untergraben würde.
„Wir waren auch von Menschen inspiriert. Im Sport ist ein Coach möglicherweise nicht besser als der Star -Athlet im Crew, aber der Coach kann dennoch hilfreiche Vorschläge geben, um den Athleten zu führen. Diese Lenkmethode funktioniert auch für LLMs“, sagt Chen.
Dieser Coach, Codester, arbeitet in Verbindung mit dem größeren LLM. Es werden zunächst eine Abfrage überprüft und festgelegt, ob Textual content oder Code für dieses Drawback geeignet ist und welche Artwork von Code am besten wäre.
Anschließend generiert es eine Eingabeaufforderung für das größere LLM, in dem sie eine Codierungsmethode oder eine textuelle Argumentation verwenden soll, um die Abfrage zu beantworten. Das größere Modell folgt dieser Eingabeaufforderung, um die Abfrage zu beantworten, und sendet das Ergebnis zurück an das Codester, das sie überprüft.
Wenn die Antwort nicht korrekt ist, fordert Codesteer weiterhin die LLM auf, verschiedene Dinge auszuprobieren, die das Drawback beheben könnten, z.
„Wir haben festgestellt, dass der größere LLM oft versuchen wird, faul zu sein und einen kürzeren, weniger effizienten Code zu verwenden, der nicht die richtige symbolische Berechnung durchführt. Wir haben Codester entwickelt, um dieses Phänomen zu vermeiden“, sagt Chen.
Ein symbolischer Checker bewertet die Komplexität des Codes und sendet ein Sign an Codester, wenn er zu einfach oder ineffizient ist. Die Forscher integrieren auch einen Selbstversorgungs-Checker in Codester, der das LLM auffordert, Code zu generieren, der die Antwort berechnet, um zu überprüfen, ob er korrekt ist.
Komplexen Aufgaben angreifen
Als die Forscher konzipierten Codester, konnten sie keine geeigneten symbolischen Datensätze finden, um das Modell zu optimieren und zu testen, da viele vorhandene Benchmarks nicht darauf hinweisen, ob eine bestimmte Abfrage am besten mit Textual content oder Code gelöst werden kann.
So sammelten sie einen Korpus von 37 komplexen symbolischen Aufgaben, einschließlich räumlicher Argumentation, Mathematik, Ordnung und Optimierung, und erstellte ihren eigenen Datensatz namens Sie haben einen Feinabstimmungsansatz implementiert, der den Image nutzt, um die Leistung des Codesters zu maximieren.
In ihren Experimenten übertraf Codester alle neun Grundmethoden, die sie bewerteten und die durchschnittliche Genauigkeit von 53,3 Prozent auf 86,4 Prozent erhöhten. Es hält eine ähnliche Leistung auch bei unsichtbaren Aufgaben und auf einer Vielzahl von LLMs.
Darüber hinaus kann ein mit Codesteer erweitertes allgemeines Modell eine höhere Genauigkeit erzielen als hochmoderne Modelle, die sich auf komplexes Denken und Planen konzentrieren und gleichzeitig viel weniger Berechnung erfordern.
„Unsere Methode verwendet die eigenen Funktionen eines LLM. Indem wir ein LLM erweitern, um die Codierung clever zu verwenden, können wir ein Modell einnehmen, das bereits sehr stark ist und seine Leistung noch mehr verbessert“, sagt Chen.
In Zukunft möchten die Forscher Codester rationalisieren, um ihren iterativen Aufforderungsprozess zu beschleunigen. Darüber hinaus untersuchen sie, wie ein einheitliches Modell effektiv abgestimmt werden kann, um zwischen textuellem Denken und Codegenerierung zu wechseln, anstatt sich auf einen separaten Assistenten zu verlassen.
„Die Autoren präsentieren eine elegante Lösung für die kritische Herausforderung der Software-Nutzung in LLMs. Diese einfache, aber wirkungsvolle Methode ermöglicht modernste LLMs, erhebliche Leistungsverbesserungen zu erzielen, ohne direkte Feinabstimmung zu erfordern“, sagt Jinsung Yoon, ein Forschungswissenschaftler von Stabswissenschaftler bei Google Cloud AI, der nicht an dieser Arbeit beteiligt conflict. „Diese Forschung stellt einen wesentlichen Beitrag dar, der verspricht, die Anwendung von LLMs auf eine Vielzahl von Aufgaben, mit denen sie derzeit zu kämpfen haben, erheblich zu verbessern.“
„Ihr Erfolg bei der Ausbildung eines kleineren, spezialisierten Modells zur strategischen Leitung größerer, fortschrittlicher Modelle ist besonders wirkungsvoll“, fügt Chi Wang hinzu, ein leitender Angestellter bei Google Deepmind, der nicht an dieser Arbeit beteiligt conflict. „Diese intelligente Zusammenarbeit zwischen verschiedenen KI-Agenten ebnet den Weg für robustere und vielseitigere Anwendungen in komplexen realen Szenarien.“
Diese Forschung wird teilweise vom US-amerikanischen Büro für Marineforschung und dem MIT-IBM Watson AI Lab unterstützt.
