
Um große Sprachmodelle (LLMs) bei der Beantwortung schwierigerer Fragen genauer zu machen, können Forscher dem Modell mehr Zeit zum Nachdenken über mögliche Lösungen geben.
Aber gängige Ansätze, die LLMs diese Fähigkeit verleihen, legen für jedes Drawback ein festes Rechenbudget fest, unabhängig davon, wie komplex es ist. Dies bedeutet, dass das LLM möglicherweise Rechenressourcen für einfachere Fragen verschwendet oder nicht in der Lage ist, komplizierte Probleme zu lösen, die mehr Überlegungen erfordern.
Um dieses Drawback anzugehen, haben MIT-Forscher eine intelligentere Methode zur Zuteilung des Rechenaufwands entwickelt, während das LLM ein Drawback löst. Ihre Methode ermöglicht es dem Modell, sein Rechenbudget basierend auf der Schwierigkeit der Frage und der Wahrscheinlichkeit, dass jede Teillösung zur richtigen Antwort führt, dynamisch anzupassen.
Die Forscher fanden heraus, dass ihr neuer Ansatz es LLMs ermöglichte, nur die Hälfte des Rechenaufwands im Vergleich zu bestehenden Methoden zu nutzen und gleichzeitig eine vergleichbare Genauigkeit bei einer Reihe von Fragen mit unterschiedlichen Schwierigkeiten zu erreichen. Darüber hinaus ermöglicht ihre Methode, dass kleinere, weniger ressourcenintensive LLMs bei komplexen Problemen genauso gute oder sogar bessere Leistungen erbringen als größere Modelle.
Durch die Verbesserung der Zuverlässigkeit und Effizienz von LLMs, insbesondere wenn sie komplexe Argumentationsaufgaben bewältigen, könnte diese Technik den Energieverbrauch generativer KI-Systeme senken und den Einsatz von LLMs in anspruchsvolleren und zeitkritischeren Anwendungen ermöglichen.
„Die Rechenkosten der Inferenz sind schnell zu einem großen Engpass für Anbieter von Frontier-Modellen geworden, und sie versuchen aktiv, Möglichkeiten zu finden, die Recheneffizienz professional Benutzerabfrage zu verbessern. Beispielsweise unterstreicht die aktuelle Model von GPT-5.1 die Wirksamkeit des in unserem Artikel vorgeschlagenen Ansatzes des ‚adaptiven Denkens‘. Indem wir die Modelle mit der Fähigkeit ausstatten, zu wissen, was sie nicht wissen, können wir ihnen ermöglichen, mehr Rechenleistung für die schwierigsten Probleme und vielversprechendsten Lösungspfade aufzuwenden und weit weniger zu verwenden.“ „Das macht das Denken sowohl zuverlässiger als auch weitaus effizienter“, sagt Navid Azizan, Assistenzprofessor für Karriereentwicklung bei Alfred H. und Jean M. Hayes in der Abteilung für Maschinenbau und am Institut für Daten, Systeme und Gesellschaft (IDSS), leitender Forscher am Labor für Informations- und Entscheidungssysteme (LIDS) und leitender Autor von a Papier über diese Technik.
Azizan wird bei dem Artikel vom Hauptautor Younger-Jin Park unterstützt, einem LIDS/MechE-Absolventen; Kristjan Greenewald, Forschungswissenschaftler im MIT-IBM Watson AI Lab; Kaveh Alim, ein IDSS-Doktorand; und Hao Wang, Forschungswissenschaftler am MIT-IBM Watson AI Lab und dem Crimson Hat AI Innovation Staff. Die Forschung wird diese Woche auf der Konferenz über neuronale Informationsverarbeitungssysteme vorgestellt.
Berechnung zur Kontemplation
Ein neuerer Ansatz namens Inferenzzeitskalierung sorgt dafür, dass ein großes Sprachmodell mehr Zeit benötigt, um über schwierige Probleme nachzudenken.
Mithilfe der Inferenzzeitskalierung kann das LLM mehrere Lösungsversuche gleichzeitig generieren oder verschiedene Argumentationspfade erkunden und dann aus diesen Kandidaten die besten auswählen.
Ein separates Modell, das sogenannte Prozessbelohnungsmodell (PRM), bewertet jede potenzielle Lösung oder jeden möglichen Argumentationspfad. Das LLM verwendet diese Ergebnisse, um die vielversprechendsten zu identifizieren.
Typische Ansätze zur Inferenzzeitskalierung weisen dem LLM einen festen Rechenaufwand zu, um das Drawback aufzuschlüsseln und die Schritte zu begründen.
Stattdessen passt die Methode der Forscher, die als instanzadaptive Skalierung bekannt ist, die Anzahl potenzieller Lösungen oder Argumentationsschritte dynamisch an, je nachdem, wie wahrscheinlich es ist, dass sie erfolgreich sind, während das Modell mit dem Drawback ringt.
„So lösen Menschen Probleme. Wir finden einige Teillösungen und entscheiden dann, ob ich mit einer dieser Lösungen weitermachen soll oder ob ich aufhören und sie überarbeiten soll oder sogar zu meinem vorherigen Schritt zurückkehren und das Drawback von dort aus weiter lösen soll?“ Wang erklärt.
Zu diesem Zweck nutzt das Framework das PRM, um die Schwierigkeit der Frage abzuschätzen, und hilft dem LLM dabei, zu beurteilen, wie viel Rechenbudget für die Generierung und Überlegungen zu möglichen Lösungen aufgewendet werden muss.
Bei jedem Schritt im Argumentationsprozess des Modells betrachtet der PRM die Frage und die Teilantworten und bewertet, wie vielversprechend jede einzelne davon ist, zur richtigen Lösung zu gelangen. Wenn das LLM sicherer ist, kann es die Anzahl der potenziellen Lösungen oder zu verfolgenden Argumentationspfade reduzieren und so Rechenressourcen sparen.
Die Forscher stellten jedoch fest, dass bestehende PRMs die Erfolgswahrscheinlichkeit des Modells häufig überschätzen.
Selbstüberschätzung überwinden
„Wenn wir einfach den aktuellen PRMs vertrauen würden, die die Erfolgsaussichten oft überschätzen, würde unser System das Rechenbudget zu stark reduzieren. Additionally mussten wir zunächst einen Weg finden, PRMs besser zu kalibrieren, um die Skalierung der Inferenzzeit effizienter und zuverlässiger zu machen“, sagt Park.
Die Forscher führten eine Kalibrierungsmethode ein, die es PRMs ermöglicht, eine Reihe von Wahrscheinlichkeitswerten anstelle eines einzelnen Werts zu generieren. Auf diese Weise erstellt das PRM zuverlässigere Unsicherheitsschätzungen, die die tatsächliche Erfolgswahrscheinlichkeit besser widerspiegeln.
Mit einem intestine kalibrierten PRM kann ihr instanzadaptives Skalierungsframework die Wahrscheinlichkeitswerte nutzen, um den Rechenaufwand effektiv zu reduzieren und gleichzeitig die Genauigkeit der Modellausgaben beizubehalten.
Als sie ihre Methode bei einer Reihe mathematischer Argumentationsaufgaben mit Standardansätzen zur Inferenzzeitskalierung verglichen, stellte sie fest, dass zur Lösung jedes Issues weniger Rechenaufwand erforderlich warfare und gleichzeitig eine ähnliche Genauigkeit erzielt wurde.
„Das Schöne an unserem Ansatz ist, dass diese Anpassung spontan erfolgt, während das Drawback gelöst wird, und nicht auf einmal zu Beginn des Prozesses“, sagt Greenewald.
Zukünftig sind die Forscher daran interessiert, diese Technik auf andere Anwendungen anzuwenden, beispielsweise auf die Codegenerierung und KI-Agenten. Sie planen außerdem, weitere Einsatzmöglichkeiten für ihre PRM-Kalibrierungsmethode zu erkunden, beispielsweise für das verstärkende Lernen und die Feinabstimmung.
„Menschliche Mitarbeiter lernen bei der Arbeit – einige CEOs haben sogar als Praktikanten angefangen –, aber heutige Agenten bleiben weitgehend statische Teile probabilistischer Software program. Arbeiten wie dieses Papier sind ein wichtiger Schritt, um das zu ändern: Agenten zu helfen, zu verstehen, was sie nicht wissen, und Mechanismen für die kontinuierliche Selbstverbesserung zu entwickeln. Diese Fähigkeiten sind unerlässlich, wenn wir Agenten wollen, die sicher arbeiten, sich an neue Situationen anpassen und konsistente Ergebnisse in großem Maßstab liefern können“, sagt Akash Srivastava, Direktor und Chefarchitekt von Core AI bei IBM Software program, der nicht beteiligt warfare mit dieser Arbeit.
Diese Arbeit wurde teilweise vom MIT-IBM Watson AI Lab, dem MIT-Amazon Science Hub, dem MIT-Google Program for Computing Innovation und MathWorks finanziert.
