
Reasoning Giant Language Fashions (LLMs) sollen komplexe Probleme lösen, indem sie sie in eine Reihe kleinerer Schritte zerlegen. Diese leistungsstarken Modelle eignen sich besonders intestine für anspruchsvolle Aufgaben wie fortgeschrittene Programmierung und mehrstufige Planung.
Die Entwicklung von Argumentationsmodellen erfordert jedoch aufgrund von Ineffizienzen im Trainingsprozess einen enormen Rechen- und Energieaufwand. Während einige der Hochleistungsprozessoren kontinuierlich komplizierte Abfragen abarbeiten, bleiben andere in der Gruppe untätig.
Forscher vom MIT und anderswo haben einen Weg gefunden, diese Rechenausfallzeit zu nutzen, um das Coaching von Argumentationsmodellen effizient zu beschleunigen.
Ihre neue Methode trainiert automatisch ein kleineres, schnelleres Modell, um die Ergebnisse des größeren Argumentations-LLM vorherzusagen, die das größere Modell überprüft. Dies reduziert den Arbeitsaufwand, den das Argumentationsmodell leisten muss, und beschleunigt den Trainingsprozess.
Der Schlüssel zu diesem System liegt in seiner Fähigkeit, das kleinere Modell adaptiv zu trainieren und bereitzustellen, sodass es nur dann zum Einsatz kommt, wenn einige Prozessoren im Leerlauf sind. Durch die Nutzung von Rechenressourcen, die andernfalls verschwendet worden wären, wird das Coaching beschleunigt, ohne dass zusätzlicher Overhead entsteht.
Beim Take a look at auf LLMs mit mehreren Argumenten verdoppelte die Methode die Trainingsgeschwindigkeit bei gleichzeitiger Beibehaltung der Genauigkeit. Dies könnte die Kosten senken und die Energieeffizienz der Entwicklung fortschrittlicher LLMs für Anwendungen wie die Vorhersage finanzieller Traits oder die Erkennung von Risiken in Stromnetzen steigern.
„Die Leute wollen Modelle, die komplexere Aufgaben bewältigen können. Aber wenn das das Ziel der Modellentwicklung ist, dann müssen wir der Effizienz Priorität einräumen. Wir haben eine verlustfreie Lösung für dieses Downside gefunden und dann ein Full-Stack-System entwickelt, das in der Praxis ziemlich dramatische Beschleunigungen liefern kann“, sagt Qinghao Hu, Postdoktorand am MIT und Co-Hauptautor von a Papier über diese Technik.
Er wird bei dem Artikel von Co-Hauptautor Shang Yang unterstützt, einem Doktoranden der Elektrotechnik und Informatik (EECS); Junxian Guo, ein EECS-Doktorand; leitender Autor Music Han, außerordentlicher Professor für EECS, Mitglied des Forschungslabors für Elektronik und angesehener Wissenschaftler von NVIDIA; sowie andere bei NVIDIA, der ETH Zürich, dem MIT-IBM Watson AI Lab und der College of Massachusetts in Amherst. Die Forschung wird auf der ACM Worldwide Convention on Architectural Help for Programming Languages and Working Programs vorgestellt.
Trainingsengpass
Entwickler möchten, dass schlussfolgernde LLMs Fehler in ihrem kritischen Denkprozess identifizieren und korrigieren. Diese Fähigkeit ermöglicht es ihnen, komplizierte Abfragen zu bewältigen, die ein Commonplace-LLM zum Scheitern bringen würden.
Um ihnen diese Fähigkeit beizubringen, trainieren Entwickler LLMs zum logischen Denken mithilfe einer Technik namens Reinforcement Studying (RL). Das Modell generiert mehrere potenzielle Antworten auf eine Anfrage, erhält eine Belohnung für den besten Kandidaten und wird basierend auf der besten Antwort aktualisiert. Diese Schritte wiederholen sich tausende Male, während das Modell lernt.
Die Forscher fanden jedoch heraus, dass der Prozess der Generierung mehrerer Antworten, Rollout genannt, bis zu 85 Prozent der für das RL-Coaching erforderlichen Ausführungszeit in Anspruch nehmen kann.
„Die Aktualisierung des Modells – additionally der eigentliche ‚Trainings‘-Teil – nimmt im Vergleich sehr wenig Zeit in Anspruch“, sagt Hu.
Dieser Engpass tritt bei Commonplace-RL-Algorithmen auf, da alle Prozessoren in der Trainingsgruppe ihre Antworten beenden müssen, bevor sie mit dem nächsten Schritt fortfahren können. Da einige Prozessoren möglicherweise an sehr langen Antworten arbeiten, warten andere, die kürzere Antworten generiert haben, auf deren Abschluss.
„Unser Ziel struggle es, diese Leerlaufzeit ohne Kostenverschwendung in Beschleunigung umzuwandeln“, fügt Hu hinzu.
Sie versuchten, eine bestehende Technik namens spekulative Dekodierung zu nutzen, um die Dinge zu beschleunigen. Bei der spekulativen Dekodierung wird ein kleineres Modell, ein sogenannter Drafter, trainiert, um schnell die zukünftigen Ergebnisse des größeren Modells zu erraten.
Das größere Modell überprüft die Vermutungen des Verfassers und die akzeptierten Antworten werden für das Coaching verwendet.
Da das größere Modell alle Vermutungen des Verfassers auf einmal überprüfen kann, anstatt jede Ausgabe nacheinander zu generieren, beschleunigt es den Prozess.
Eine adaptive Lösung
Bei der spekulativen Dekodierung wird das Drafter-Modell jedoch normalerweise nur einmal trainiert und bleibt statisch. Dies macht die Technik für das verstärkende Lernen unbrauchbar, da das Argumentationsmodell während des Trainings tausende Male aktualisiert wird.
Ein statischer Drafter würde nach wenigen Schritten schnell veraltet und unbrauchbar werden.
Um dieses Downside zu lösen, haben die Forscher ein flexibles System namens „Taming the Lengthy Tail“ oder TLT entwickelt.
Der erste Teil von TLT ist ein adaptiver Drafter-Coach, der freie Zeit auf inaktiven Prozessoren nutzt, um das Drafter-Modell im laufenden Betrieb zu trainieren und es ohne den Einsatz zusätzlicher Rechenressourcen intestine am Zielmodell auszurichten.
Die zweite Komponente, eine adaptive Rollout-Engine, verwaltet die spekulative Dekodierung, um automatisch die optimale Strategie für jeden neuen Eingabestapel auszuwählen. Dieser Mechanismus ändert die Konfiguration der spekulativen Dekodierung basierend auf den Merkmalen der Trainingsarbeitslast, wie z. B. der Anzahl der vom Entwurfsmodell verarbeiteten Eingaben und der Anzahl der vom Zielmodell während der Verifizierung akzeptierten Eingaben.
Darüber hinaus haben die Forscher das Entwurfsmodell so konzipiert, dass es leichtgewichtig ist, damit es schnell trainiert werden kann. TLT verwendet einige Komponenten des Argumentationsmodell-Trainingsprozesses wieder, um den Zeichner zu schulen, was zu zusätzlichen Beschleunigungsgewinnen führt.
„Sobald einige Prozessoren ihre kurzen Abfragen beendet haben und inaktiv sind, schalten wir sie sofort um, um das Entwurfsmodelltraining mit denselben Daten durchzuführen, die sie für den Rollout-Prozess verwenden. Der Schlüsselmechanismus ist unsere adaptive spekulative Dekodierung – diese Gewinne wären ohne sie nicht möglich“, sagt Hu.
Sie testeten TLT über mehrere Reasoning-LLMs hinweg, die anhand realer Datensätze trainiert wurden. Das System beschleunigte das Coaching um 70 bis 210 Prozent und bewahrte gleichzeitig die Genauigkeit jedes Modells.
Als zusätzlicher Bonus könnte das kleine Drafter-Modell problemlos für eine effiziente Bereitstellung als kostenloses Nebenprodukt genutzt werden.
Zukünftig möchten die Forscher TLT in mehr Arten von Trainings- und Inferenzrahmen integrieren und neue Anwendungen für verstärktes Lernen finden, die mit diesem Ansatz beschleunigt werden könnten.
„Da das Denken weiterhin die Hauptarbeitsbelastung darstellt, die die Nachfrage nach Schlussfolgerungen antreibt, ist Qinghaos TLT eine großartige Arbeit, um den Rechenengpass beim Coaching dieser Argumentationsmodelle zu bewältigen. Ich denke, dass diese Methode im Kontext effizienter KI-Berechnung sehr hilfreich sein wird“, sagt Han.
Diese Arbeit wird vom MIT-IBM Watson AI Lab, dem MIT AI {Hardware} Program, dem MIT Amazon Science Hub, der Hyundai Motor Firm und der Nationwide Science Basis finanziert.
