Bei all ihren beeindruckenden Fähigkeiten sind große Sprachmodelle (LLMs) häufig zu kurz, wenn sie neue Aufgaben erleiden, die komplexe Argumentationsfähigkeiten erfordern.

Während die LLM eines Wirtschaftsprüfungsunternehmens möglicherweise bei der Zusammenfassung von Finanzberichten auszeichnet, könnte das gleiche Modell unerwartet scheitern, wenn sie die Aufgabe mit der Vorhersage von Markttrends oder zur Identifizierung betrügerischer Transaktionen fehlen.

Um LLMs anpassungsfähiger zu machen, untersuchten MIT -Forscher, wie eine bestimmte Trainingstechnik strategisch eingesetzt werden kann, um die Leistung eines Modells für unbekannte, schwierige Probleme zu steigern.

Sie zeigen, dass das Testzeittraining, eine Methode, bei der ein Teil der inneren Arbeiten eines Modells während der Bereitstellung vorübergehend aktualisiert wird, zu einer sechsfachen Verbesserung der Genauigkeit führen kann. Die Forscher entwickelten einen Rahmen für die Implementierung einer Testzeit-Schulungsstrategie, die Beispiele für die neue Aufgabe verwendet, um diese Gewinne zu maximieren.

Ihre Arbeit könnte die Flexibilität eines Modells verbessern und es ermöglichen, dass sich ein LLM im Bereich der Schelfs an komplexe Aufgaben anpassen kann, die Planung oder Abstraktion erfordern. Dies könnte zu LLMs führen, die in vielen Anwendungen genauer wären, die logisch abzielen, von der medizinischen Diagnostik bis zum Lieferkettenmanagement.

„Echtes Lernen-was wir hier mit Testzeittraining gemacht haben-ist etwas, was diese Modelle nach dem Versand nicht alleine tun können. Sie können keine neuen Fähigkeiten erlangen oder bei einer Aufgabe besser werden. Aber wir haben gezeigt, dass Sie, wenn Sie das Modell ein wenig zum tatsächlichen Lernen vornehmen, dass enorme Verbesserungen in der Leistung stattfinden können“, sagt Ekin Akyürk PhD ’25, Lead Writer der Studie.

Akyürk wird an der verbunden Papier von Doktoranden Mehul Damani, Linlu Qiu, Han Guo und Jyothish Pari; Pupil Adam Zweiger; und Senior -Autoren Yoon Kim, Assistenzprofessor für Elektrotechnik und Informatik (EWG) und Mitglied des Labors der Informatik und des Labors für Informatik und künstliche Intelligenz (CSAIL); und Jacob Andreas, Affiliate Professor bei EECs und Mitglied von CSAIL. Die Forschung wird auf der Internationalen Konferenz über maschinelles Lernen vorgestellt.

Harte Domänen angehen

LLM-Benutzer versuchen häufig, die Leistung ihres Modells für eine neue Aufgabe mit einer Technik namens In-Context Studying zu verbessern. Sie füttern das Modell einige Beispiele der neuen Aufgabe als Textaufgabe, die die Ausgaben des Modells leiten.

Das Lernen im Kontext funktioniert jedoch nicht immer für Probleme, die Logik und Argumentation erfordern.

Die MIT-Forscher untersuchten, wie das Testzeittraining in Verbindung mit dem Lernen in Kontext verwendet werden kann, um die Leistung bei diesen herausfordernden Aufgaben zu steigern. Das Testzeittraining beinhaltet die Aktualisierung einiger Modellparameter-die internen Variablen, mit denen Vorhersagen vorgenommen werden können-unter Verwendung einer kleinen Menge neuer Daten, die für die jeweilige Aufgabe spezifisch sind.

Die Forscher untersuchten, wie das Testzeittraining mit dem In-Kontext-Lernen interagiert. Sie untersuchten Designoptionen, die die Leistungsverbesserungen maximieren können, die man aus einem allgemeinen LLM leiten kann.

„Wir stellen fest, dass das Testzeittraining eine viel stärkere Type des Lernens ist. Wenn Sie einfach Beispiele anbieten, können Sie die Genauigkeit geringfügig steigern und das Modell mit diesen Beispielen tatsächlich zu einer deutlich besseren Leistung führen, insbesondere in herausfordernden Domänen“, sagt Damani.

Das Lernen des Kontextes erfordert eine Reihe von Aufgabenbeispielen, einschließlich Problemen und deren Lösungen. Die Forscher verwenden diese Beispiele, um einen aufgabenspezifischen Datensatz zu erstellen, der für die Testzeitschulung benötigt wird.

Um die Größe dieses Datensatzes zu erweitern, erstellen sie neue Eingaben, indem die Probleme und Lösungen in den Beispielen geringfügig geändert werden, z. B. durch horizontales Umdrehen einiger Eingabedaten. Sie finden, dass das Coaching des Modells auf den Ausgaben dieses neuen Datensatzes zu der besten Leistung führt.

Darüber hinaus aktualisieren die Forscher nur eine kleine Anzahl von Modellparametern unter Verwendung einer Technik, die als Low-Rank-Adaption bezeichnet wird und die Effizienz des Testzeit-Trainingsprozesses verbessert.

„Dies ist wichtig, da unsere Methode effizient sein muss, wenn sie in der realen Welt eingesetzt werden soll. Wir stellen fest, dass Sie mit einer sehr geringen Parametertraining enorme Verbesserungen in der Genauigkeit erzielen können“, sagt Akkürk.

Neue Fähigkeiten entwickeln

Die Straffung des Prozesses ist der Schlüssel, da die Testzeitschulung professional Instanzbasis eingesetzt wird, was bedeutet, dass ein Benutzer dies für jede einzelne Aufgabe tun muss. Die Aktualisierungen des Modells sind nur vorübergehend, und das Modell kehrt nach einer Vorhersage in seine ursprüngliche Type zurück.

Ein Modell, das normalerweise weniger als eine Minute dauert, um eine Abfrage zu beantworten, kann fünf oder 10 Minuten dauern, um eine Antwort mit Take a look at-Time-Coaching zu geben, fügt Akyürk hinzu.

„Wir möchten dies nicht für alle Benutzeranfragen tun, aber es ist nützlich, wenn Sie eine sehr schwierige Aufgabe haben, die Sie dem Modell intestine lösen möchten. Es kann auch Aufgaben geben, die für eine LLM zu schwierig sind, um ohne diese Methode zu lösen“, sagt er.

Die Forscher testeten ihren Ansatz auf zwei Benchmark -Datensätzen mit extrem komplexen Problemen wie IQ -Rätseln. Es steigerte die Genauigkeit um das Sechsfächer über Techniken, die nur das Lernen des Kontextes verwenden.

Aufgaben, die strukturierte Muster beinhalteten, oder solche, die völlig unbekannte Daten von Daten verwendeten, zeigten die größten Leistungsverbesserungen.

„Für einfachere Aufgaben ist das Lernen in Kontext in Ordnung. Die Aktualisierung der Parameter selbst könnte jedoch eine neue Fähigkeit im Modell entwickeln“, sagt Damani.

In Zukunft möchten die Forscher diese Einblicke in die Entwicklung von Modellen nutzen, die kontinuierlich lernen.

Das langfristige Ziel ist ein LLM, das bei einer Abfrage automatisch feststellen kann, ob es das Testzeittraining verwenden muss, um die Parameter zu aktualisieren, oder ob die Aufgabe mithilfe von In-Kontext-Lernen gelöst und dann die beste Take a look at-Time-Trainingsstrategie implementiert werden kann, ohne dass menschliche Interventionen erforderlich sind.

Diese Arbeit wird teilweise vom MIT-IBM Watson AI Lab und der Nationwide Science Basis unterstützt.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert