Programmierer können jetzt große Sprachmodelle (LLMs) verwenden, um den Computercode schneller zu generieren. Dies erleichtert jedoch nur das Leben der Programmierer, wenn dieser Code den Regeln der Programmiersprache folgt und keinen Pc zum Absturz bringt.
Es gibt einige Methoden, um sicherzustellen, dass LLMs den Regeln der Sprache entsprechen, in der sie Textual content generieren, aber viele dieser Methoden verzerren entweder die beabsichtigte Bedeutung des Modells oder sind zu zeitaufwändig, um für komplexe Aufgaben machbar zu sein.
Ein neuer Ansatz, der von Forschern am MIT und an anderer Stelle entwickelt wurde, führt automatisch einen LLM, um Textual content zu generieren, der die Regeln der relevanten Sprache wie eine bestimmte Programmiersprache hält, und ist auch fehlerfrei. Ihre Methode ermöglicht es einem LLM, Anstrengungen für Outputs zuzuordnen, die am wahrscheinlichsten gültig und genau sind und gleichzeitig die nicht vergleichbaren Ausgaben zu Beginn des Prozesses verwöhnen. Dieser probabilistische Ansatz steigert die Recheneffizienz.
Aufgrund dieser Effizienzgewinne ermöglichte die Architektur der Forscher kleine LLMs, viel größere Modelle zu übertreffen, um genaue, ordnungsgemäß strukturierte Ausgaben für mehrere reale Anwendungsfälle zu erzeugen, einschließlich molekularer Biologie und Robotik.
Langfristig könnte diese neue Architektur nicht dazu beitragen, den Inhalt der A-generierten Inhalte zu kontrollieren. Zum Beispiel könnte es BusinessPeople ermöglichen, komplexe Abfragen in SQL zu schreiben, eine Sprache für die Datenbankmanipulation unter Verwendung von nur natürlichen Sprachanforderungen.
„Diese Arbeit hat Auswirkungen über die Forschung hinaus. Sie könnte Programmierassistenten, Datenanalysen mit KI-betrieben und wissenschaftliche Entdeckungsinstrumente verbessern, indem sichergestellt wird, dass die Ausgaben von AI-Generierten sowohl nützlich als auch korrekt bleiben“, sagt João Loula, ein MIT-Doktorand und Co-Lead-Autor eines Papiers zu diesem Rahmen.
Loula wird von den Co-Lead-Autoren Benjamin LeBrun, einem Forschungsassistenten am Mila-Quebec Synthetic Intelligence Institute, und Li DU, einem Doktorand der John Hopkins College, auf dem Papier begleitet. Co-Senior-Autoren Vikash Manssinghka ’05, Meng ’09, PhD ’09, Hauptwissenschaftler und Leiter des probabilistischen Computing-Projekts im MIT Division of Mind and Cognitive Sciences; Alexander Okay. Lew SM ’20, Assistenzprofessor an der Yale College; Tim Vieira, ein Postdoc bei Eth Zürich; und Timothy J. O’Donnell, Affiliate Professor an der McGill College und Vorsitzender der Canada Cifar AI bei Mila, die das internationale Workforce leitete; sowie einige andere. Die Forschung wird auf der Internationalen Konferenz über Lernrepräsentationen vorgestellt.
Struktur und Bedeutung durchsetzen
Ein gemeinsamer Ansatz zur Steuerung des von LLM generierten strukturierten Textes besteht darin, eine gesamte Ausgabe wie einen Computercode zu überprüfen, um sicherzustellen, dass er gültig ist und fehlerfrei ausgeführt wird. Wenn nicht, muss der Benutzer erneut anfangen und Berechnungsressourcen aufstellen.
Andererseits konnte ein Programmierer anhalten, um die Ausgabe auf dem Weg zu überprüfen. Dies kann zwar sicherstellen, dass der Code die Programmiersprache hält und strukturell gültig ist, kann es dazu führen, dass der Code inkrementell von der beabsichtigten Bedeutung von der bedeutet, dass der Benutzer die Genauigkeit auf lange Sicht beeinträchtigt.
„Es ist viel einfacher, die Struktur durchzusetzen als die Bedeutung. Wir können schnell überprüfen, ob sich etwas in der richtigen Programmiersprache befindet. Um die Bedeutung zu überprüfen, müssen Sie den Code ausführen. In unserer Arbeit geht es auch darum, mit diesen verschiedenen Arten von Informationen umzugehen“, sagt Loula.
Der Ansatz der Forscher beinhaltet technische Kenntnisse in die LLM, um es auf die vielversprechendsten Ergebnisse zu lenken. Diese Ausgänge folgen eher den strukturellen Einschränkungen, die von einem Benutzer definiert wurden, und um die Bedeutung des Benutzers zu haben.
„Wir versuchen nicht, ein LLM dafür zu schulen. Stattdessen entwickeln wir einige Kenntnisse, die ein Experte hat, und kombinieren sie mit dem Wissen des LLM, was einen ganz anderen Ansatz für die Skalierung bietet als Sie im Deep -Lernen sehen“, fügt Mansinghka hinzu.
Sie erreichen dies unter Verwendung einer Technik namens Sequential Monte Carlo, die es der parallele Erzeugung von einem LLM ermöglicht, miteinander zu konkurrieren. Das Modell verteilt dynamisch Ressourcen verschiedenen Threads paralleler Berechnungen, basierend darauf, wie vielversprechend ihre Ausgabe erscheint.
Jeder Ausgang erhält ein Gewicht, das darstellt, wie wahrscheinlich es strukturell gültig und semantisch genau ist. Bei jedem Schritt in der Berechnung konzentriert sich das Modell auf diejenigen mit höheren Gewichten und wirft den Relaxation aus.
In gewissem Sinne ist es so, als hätte der LLM einen Experten, der über die Schulter schaut, um sicherzustellen, dass sie bei jedem Schritt die richtigen Entscheidungen trifft und gleichzeitig sich auf das Gesamtziel konzentriert. Der Benutzer legt seine gewünschte Struktur und Bedeutung sowie die Überprüfung der Ausgabe an, dann führt die Architektur der Forscher die LLM, um den Relaxation zu erledigen.
„Wir haben die harte Mathematik ausgearbeitet, damit Sie für alle Arten von Einschränkungen, die Sie einbeziehen möchten, die richtigen Gewichte erhalten. Am Ende erhalten Sie die richtige Antwort“, sagt Loula.
Kleine Modelle steigern
Um ihren Ansatz zu testen, wendeten sie das Framework auf LLMs mit der Aufgabe, vier Arten von Ausgängen zu generieren: Python -Code, SQL -Datenbankabfragen, molekulare Strukturen und Pläne, dass ein Roboter folgen soll.
Im Vergleich zu vorhandenen Ansätzen wurde die Methode der Forscher genauer entwickelt und erforderte weniger Berechnung.
In der Generierung von Python Code beispielsweise ermöglichte die Architektur der Forscher ein kleines Open-Supply-Modell, um ein spezielles, kommerzielles, kommerzielles Closed-Supply-Modell zu übertreffen, das mehr als doppelt so groß ist.
„Wir freuen uns sehr, dass wir diesen kleinen Modellen erlauben können, weit über ihr Gewicht zu schlagen“, sagt Loula.
In Zukunft möchten die Forscher ihre Technik verwenden, um größere Stücke von generiertem Textual content zu kontrollieren, anstatt jeweils ein kleines Stück zu arbeiten. Sie wollen auch ihre Methode mit dem Lernen kombinieren, damit ein Modell bei der Steuerung der Ausgaben genauer lernt.
Langfristig könnte dieses Projekt umfassendere Anwendungen für nicht-technische Benutzer haben. Zum Beispiel könnte es mit Systemen für kombiniert werden automatisierte DatenmodellierungUnd Abfragen generativer Modelle von Datenbanken.
Der Ansatz könnte auch maschinenunterstützte Datenanalysesysteme ermöglichen, bei denen der Benutzer mit Software program unterwegs sein kann, die die Bedeutung der Daten und die vom Benutzer gestellten Fragen genau modelliert, fügt Mansinghka hinzu.
„Eine der grundlegenden Fragen der Linguistik ist, wie die Bedeutung von Wörtern, Phrasen und Sätzen auf Modellen der Welt begründet werden kann, die Unsicherheit und Unbestimmtheit in Bezug auf Bedeutung und Referenz berücksichtigen. und künstliche Intelligenz, die erforderlich sind, um zu verstehen, wie Maschinen wie wir über die Welt kommunizieren können “, sagt O’Donnell.
Diese Forschung wird zum Teil vom Canada Cifar AI Chairs -Programm, der MIT -Suche nach Intelligenz und konvergenten Forschung finanziert und unterstützt.