Große Sprachmodelle wie jene, die ChatGPT zugrunde liegen, haben bei Aufgaben wie dem Verfassen von Rechtsgutachten, der Analyse der Stimmung in Kundenrezensionen oder der Übersetzung von Dokumenten in andere Sprachen eine beeindruckende Leistung gezeigt.
Diese Modelle des maschinellen Lernens verwenden für die Informationsverarbeitung und Beantwortung von Anfragen in der Regel ausschließlich natürliche Sprache. Daher ist es für sie möglicherweise schwierig, Aufgaben auszuführen, die numerisches oder symbolisches Denken erfordern.
Ein großes Sprachmodell könnte beispielsweise in der Lage sein, eine Liste der jüngsten US-Präsidenten und deren Geburtstage auswendig zu lernen und aufzusagen. Dasselbe Modell könnte jedoch bei der Frage „Welche nach 1950 gewählten US-Präsidenten wurden an einem Mittwoch geboren?“ versagen. (Die Antwort lautet: Jimmy Carter.)
Forscher vom MIT und anderswo haben eine neue Technik vorgeschlagen, die es großen Sprachmodellen ermöglicht, durch die Generierung von Programmen Aufgaben der natürlichen Sprache, Mathematik und Datenanalyse sowie des symbolischen Denkens zu lösen.
Ihr Ansatz, der als „Pure Language Embedded Packages“ (NLEPs) bezeichnet wird, besteht darin, ein Sprachmodell dazu aufzufordern, ein Python-Programm zu erstellen und auszuführen, um die Abfrage eines Benutzers zu lösen und die Lösung dann in natürlicher Sprache auszugeben.
Sie fanden heraus, dass NLEPs großen Sprachmodellen ermöglichten, bei einer Vielzahl von Denkaufgaben eine höhere Genauigkeit zu erreichen. Der Ansatz ist zudem verallgemeinerbar, was bedeutet, dass eine NLEP-Eingabeaufforderung für mehrere Aufgaben wiederverwendet werden kann.
NLEPs verbessern auch die Transparenz, da ein Benutzer das Programm überprüfen kann, um genau zu sehen, wie das Modell über die Abfrage nachgedacht hat, und das Programm korrigieren kann, wenn das Modell eine falsche Antwort liefert.
„Wir möchten, dass KI komplexe Schlussfolgerungen auf transparente und vertrauenswürdige Weise durchführt. Es ist noch ein langer Weg, aber wir haben gezeigt, dass die Kombination der Fähigkeiten von Programmierung und natürlicher Sprache in großen Sprachmodellen ein sehr guter potenzieller erster Schritt in eine Zukunft ist, in der die Menschen vollständig verstehen und darauf vertrauen können, was in ihrem KI-Modell vor sich geht“, sagt Hongyin Luo PhD ’22, ein MIT-Postdoc und Co-Leiterautor eines Papier zu NLEPs.
An der Arbeit sind neben Luo die Co-Autoren Tianhua Zhang, ein Doktorand an der Chinese language College of Hong Kong, und Jiaxin Ge, ein Scholar an der Peking College, Yoon Kim, Assistenzprofessor am Division of Electrical Engineering and Laptop Science des MIT und Mitglied des Laptop Science and Synthetic Intelligence Laboratory (CSAIL), sowie der Hauptautor James Glass, leitender Wissenschaftler und Leiter der Spoken Language Programs Group am CSAIL, und andere beteiligt. Die Forschungsergebnisse werden auf der Jahreskonferenz des nordamerikanischen Kapitels der Affiliation for Computational Linguistics vorgestellt.
Problemlösung mit Programmen
Viele beliebte große Sprachmodelle funktionieren, indem sie bei einer natürlichen Spracheingabe das nächste Wort oder Token vorhersagen. Modelle wie GPT-4 können zwar zum Schreiben von Programmen verwendet werden, betten diese Programme jedoch in die natürliche Sprache ein, was zu Fehlern in der Programmlogik oder den Ergebnissen führen kann.
Bei NLEPs haben die MIT-Forscher den umgekehrten Ansatz gewählt. Sie fordern das Modell auf, ein schrittweises Programm vollständig in Python-Code zu generieren und betten dann die erforderliche natürliche Sprache in das Programm ein.
Ein NLEP ist eine Problemlösungsvorlage mit vier Schritten. Zunächst ruft das Modell die erforderlichen Pakete oder Funktionen auf, die es zur Lösung der Aufgabe benötigt. Im zweiten Schritt werden natürlichsprachliche Darstellungen des für die Aufgabe erforderlichen Wissens importiert (z. B. eine Liste der Geburtstage der US-Präsidenten). Im dritten Schritt implementiert das Modell eine Funktion, die die Antwort berechnet. Und im letzten Schritt gibt das Modell das Ergebnis als Zeile in natürlicher Sprache aus, bei Bedarf mit einer automatischen Datenvisualisierung.
„Es ist wie ein digitaler Taschenrechner, der immer das richtige Rechenergebnis liefert, solange das Programm korrekt ist“, sagt Luo.
Der Benutzer kann das Programm problemlos untersuchen und etwaige Fehler im Code direkt beheben, anstatt zur Fehlerbehebung das gesamte Modell erneut ausführen zu müssen.
Der Ansatz bietet auch eine höhere Effizienz als einige andere Methoden. Wenn ein Benutzer viele ähnliche Fragen hat, kann er ein Kernprogramm generieren und dann bestimmte Variablen ersetzen, ohne das Modell wiederholt ausführen zu müssen.
Um das Modell zur Generierung eines NLEP zu veranlassen, geben die Forscher ihm die allgemeine Anweisung, ein Python-Programm zu schreiben, zwei NLEP-Beispiele (eines mit Mathematik und eines mit natürlicher Sprache) und eine Testfrage bereitzustellen.
„Wenn Leute diese Artwork von Few-Shot-Prompting durchführen, müssen sie normalerweise immer noch Prompts für jede Aufgabe entwerfen. Wir haben herausgefunden, dass wir einen Immediate für viele Aufgaben haben können, weil es kein Immediate ist, der LLMs beibringt, ein Drawback zu lösen, sondern ein Immediate, der LLMs beibringt, viele Probleme durch das Schreiben eines Programms zu lösen“, sagt Luo.
„Wenn Sprachmodelle mit Code argumentieren, eröffnen sich zahlreiche Möglichkeiten für den Einsatz von Instruments, die Validierung von Ergebnissen, ein strukturierteres Verständnis der Fähigkeiten und der Denkweise des Modells und vieles mehr“, sagt Leonid Karlinsky, leitender Wissenschaftler am MIT-IBM Watson AI Lab.
„Hier gibt es keine Magie“
NLEPs erreichten eine Genauigkeit von über 90 Prozent, wenn GPT-4 aufgefordert wurde, eine Reihe von symbolischen Denkaufgaben zu lösen, wie etwa das Verfolgen gemischter Objekte oder das Spielen eines 24-Punkte-Spiels, sowie Aufgaben zum Befolgen von Anweisungen und zur Textklassifizierung. Die Forscher stellten fest, dass NLEPs sogar eine um 30 Prozent höhere Genauigkeit aufwiesen als aufgabenspezifische Eingabemethoden. Die Methode zeigte auch Verbesserungen gegenüber Open-Supply-LLMs.
NLEPs könnten nicht nur die Genauigkeit großer Sprachmodelle verbessern, sondern auch den Datenschutz verbessern. Da NLEP-Programme lokal ausgeführt werden, müssen vertrauliche Benutzerdaten nicht an Unternehmen wie OpenAI oder Google gesendet werden, um von einem Modell verarbeitet zu werden.
Darüber hinaus können NLEPs die Leistung kleiner Sprachmodelle verbessern, ohne dass ein Modell für eine bestimmte Aufgabe neu trainiert werden muss, was ein kostspieliger Prozess sein kann.
„Hier gibt es keine Zauberei. Wir haben kein teureres oder ausgefalleneres Sprachmodell. Wir verwenden lediglich Programmgenerierung anstelle natürlicher Sprachgenerierung und können die Leistung deutlich steigern“, sagt Luo.
Ein NLEP hängt jedoch von der Programmgenerierungsfähigkeit des Modells ab, sodass die Technik bei kleineren Modellen, die mit begrenzten Datensätzen trainiert wurden, nicht so intestine funktioniert. In Zukunft planen die Forscher, Methoden zu untersuchen, mit denen kleinere Sprachmodelle effektivere NLEPs generieren können. Darüber hinaus möchten sie die Auswirkungen von Immediate-Variationen auf NLEPs untersuchen, um die Robustheit der Denkprozesse des Modells zu verbessern.
Diese Forschung wurde teilweise vom Heart for Perceptual and Interactive Intelligence in Hongkong unterstützt.