Im Jahr 2026 ist der Hype um künstliche Intelligenz-Agenten lauter als je zuvor. Diese halbautonomen Programme können klar definierte Aufgaben in Bereichen wie Kundenservice und Softwareentwicklung „denken“ und ausführen, typischerweise unter Verwendung von Sprachmodellen (LMs). Aber Bereiche wie medizinische Diagnose und wissenschaftliche Entdeckung erfordern, dass sie nach einer breiten Palette von Lösungen in unsicheren Umgebungen suchen, mit denen LMs zu kämpfen haben.

Forscher am Laptop Science and Synthetic Intelligence Laboratory (CSAIL) des MIT und an der Faculty of Engineering and Utilized Sciences (SEAS) der Harvard College haben einen tieferen Blick auf LMs geworfen, um ihre Hauptprobleme in anspruchsvollen Umgebungen zu verstehen. Ihr Check: „Battleship“, ein klassisches Ratespiel, mit dem Kognitionswissenschaftler untersuchen konnten, wie Menschen nach Informationen suchen.

CSAIL- und SEAS-Wissenschaftler fügten eine Wendung hinzu, indem sie das Spiel um das Stellen und Beantworten von Fragen in natürlicher Sprache neu gestalteten. In ihrem „Collaborative Battleship“-Spiel ist ein Teilnehmer ein „Kapitän“, der sich erkundigt, wo sich versteckte Schiffe befinden, während sein Teamkollege den „Spotter“ spielt, indem er diese Fragen in Echtzeit beantwortet.

Die Forscher ließen zunächst über 40 Menschen das Spiel gemeinsam spielen und ihre Fragen und Ja-Nein-Antworten sammeln, um den „BattleshipQA“-Datensatz zu erstellen. Diese Ergebnisse waren ein hilfreicher Vergleichspunkt, als das Group hochmoderne LMs (wie GPT-5) und kleinere Modelle (wie Llama 4 Scout) in ihrem Spiel testete. Ohne die Modelle vorher zu trainieren, stellten sie fest, dass High-LMs Menschen im „Schlachtschiff“ „schlagen“ können – das heißt, das Spiel in weniger Runden abschließen –, kleinere Systeme jedoch weitaus weniger rational sind.

Das Hauptproblem bestand darin, dass viele Modelle einfach nicht in der Lage sind, nützliche Fragen zu stellen. Um LMs dazu zu bringen, ihre Anfragen auf eine Artwork und Weise zu stellen, die mehr Informationen über versteckte Schiffe preisgibt, gaben die Forscher jedem Modell eine Monte-Carlo-Inferenzstrategie, die sorgfältig die Wahrscheinlichkeit misst, dass verschiedene Optionen bei jeder Antwort richtig sind. Das Ergebnis: KI-Modelle, die reguläre Spieler bei „Battleship“ schlagen können, unabhängig von der Größe.

Das vielleicht auffälligste Ergebnis waren die Zuwächse von Llama 4 Scout. Als relativ kleines LM schlug es den Menschen nur in 8 Prozent der Fälle. Aber mit einer Verfeinerung seiner Inferenzstrategie erreichte das Modell eine „Schlachtschiff“-Gewinnrate von 82 Prozent im Vergleich zu Menschen. Diese sorgfältige und effiziente Artwork, Fragen zu stellen, ermöglichte es dem Modell auch, ein Grenzmodell (GPT-5) zu übertreffen und dabei etwa 1 Prozent seiner Kosten zu verursachen.

Zusätzlich zu dieser Verbesserung verringerten die Forscher die Kluft zwischen Menschen und LMs bei der Beantwortung von Fragen. Während GPT-5 ein zuverlässiger Spotter warfare, der den Modellen dabei half, Spiele schneller zu beenden, hatten kleinere Systeme die schlechte Angewohnheit, falsche Antworten darauf zu geben, wo Schiffe versteckt waren. Die Modelle verzeichneten eine Genauigkeitssteigerung von durchschnittlich 15 Prozent, als sie begannen, Fragen in Code umzuwandeln, der ihnen explizit vorgab, wie sie ihre Antworten überprüfen sollten (z. B. indem das Modell eine schnelle Suche in einem Gebiet durchführte, wenn es gefragt wurde, ob sich dort ein Schiff befand).

„Heutige Sprachmodelle sind in erster Linie für die Beantwortung komplexer Anfragen optimiert, aber es ist weniger klar, ob sie lernen, selbst gute Fragen zu stellen“, sagt MIT-Doktorand und CSAIL-Forscher Gabriel Grand SM ’23, der Hauptautor von a ist Papier über die Arbeit. „Unsere Arbeit zeigt, dass das Stellen informativer Fragen von der Fähigkeit abhängt, die Welt vorherzusagen und zu simulieren. Wir stellen fest, dass Agenten bessere Fragen stellen und Entdeckungen effizienter machen, wenn wir ihnen Zugang zu einem „Weltmodell“ geben.“

Eine grundlegende Veränderung für LMs

Der erste Schwerpunkt des Groups bestand darin, LMs dazu zu bringen, bessere Fragen zu stellen. Durch die Implementierung von Monte-Carlo-Inferenzstrategien schlussfolgern die LMs über mögliche Vermutungen als einzelne Partikel. Diejenigen, die mit jeder Antwort des Spotters gültiger erscheinen, werden stärker gewichtet, ähnlich wie Spielbälle, die sich in jeder Runde aufblasen oder entleeren. Mit diesem kalkulierteren, adaptiveren Ansatz konnte der Kapitän Nachforschungen anstellen, die dem Spotter wesentlich mehr Informationen entlockten.

Anschließend griffen die Wissenschaftler auf die weit verbreitete Programmiersprache Python zurück, um KI-Erkennern zu helfen. Jede Frage des Kapitäns wurde automatisch in einen verschlüsselten Befehl umgewandelt. Zum Beispiel eine Frage wie: „Befindet sich in Spalte eins ein Schiff, das sich über zwei Zeilen erstreckt?“ verwandelt sich in Anweisungen für den Spotter LM, den betreffenden Bereich abzusuchen und zu beurteilen, wie breit die digitale Spielfigur ist. Indem dem Modell klare Anweisungen in einer Sprache gegeben wurden, die es besonders intestine versteht, gab jedes System deutlich häufiger richtige Antworten. Das leichte System GPT-4o-mini verzeichnete beispielsweise eine Leistungssteigerung von quick 30 Prozent, und selbst das große Modell Claude 4 Opus verbesserte sich um etwa acht Punkte.

„Der Bereich hat großen Erfolg mit ‚Autoformalisierungs‘-Strategien erlebt, bei denen LMs Code generieren, um ihre Lösungen zu verifizieren“, sagt der leitende Autor Jacob Andreas, außerordentlicher Professor für Elektrotechnik und Informatik am MIT und leitender CSAIL-Forscher. „Was ich an dieser Arbeit am spannendsten finde, ist, dass sie die Möglichkeit eröffnet, diese Techniken zu nutzen, um überhaupt bessere Lösungen zu generieren, indem die Explorations- und Informationsbeschaffungsfähigkeiten von LMs verbessert werden. Wir freuen uns, diese Arbeit von wissenschaftlichen Bereichen auf Anwendungen wie Codierung und mathematische Problemlösung auszuweiten.“

Lass uns etwas anderes spielen

Aber wie würde sich dieser Ansatz bei anderen Brettspielen auswirken? Das Group testete seine neu ausgestatteten LMs bei „Guess Who?“, wo große und kleine Modelle gekonnt 100 Optionen auswählten, um richtig zu erraten, welcher versteckte Charakter ausgewählt wurde. Llama 4 Scout warfare in 30 Prozent der Fälle erfolgreich, aber nach den Optimierungen von Grand und seinen Kollegen erledigte es die Aufgabe in über 72 Prozent seiner Läufe. Unterdessen stieg GPT-4o von 62 Prozent auf 90 Prozent. GPT-5 warfare in jedem Spiel der Spotter, um sicherzustellen, dass die Fragen so genau wie möglich beantwortet wurden.

Während LMs in beiden Spielen vielversprechende Fortschritte gemacht haben, gibt es Raum für Verbesserungen. Beispielsweise haben die Modelle im Vergleich zu Menschen immer noch Schwierigkeiten, komplexe Fragen zu beantworten. Der OpenAI-Forscher, frischgebackene Harvard-Absolvent und Co-Autor Valerio Pepe fügt hinzu: „GPT-5 kann Ihren durchschnittlichen ‚Battleship‘-Spieler schlagen und wird mit unseren Methoden um ein Haar besser. Allerdings sind erfahrene Spieler bei allen Modellen immer noch schwer zu schlagen, anders als beim Schach, wo selbst Spitzenspieler gegen KI-Systeme keinen Erfolg haben.“

Die Ergebnisse der Forscher zeigen, dass KI-Agenten ungenutztes Potenzial für die „Nadel im Heuhaufen“-Entdeckung haben – sie navigieren durch einen riesigen Raum von Optionen, um eine seltene Lösung für wissenschaftliche Herausforderungen zu finden. Während verbesserte Fähigkeiten bei der Informationssuche sie zu hervorragenden Forschungsassistenten machen würden, beispielsweise bei der Identifizierung der Molekülstruktur einer Verbindung, weisen die Forscher darauf hin, dass es sich bei „Collaborative Battleship“ um einen recht einfachen Prüfstand handelt. Sie würden LMs gerne in komplexeren Umgebungen testen, in denen die Systeme weitaus mehr Optionen berücksichtigen müssen.

Grand plant außerdem, Menschen und KI-Modelle zusammenarbeiten zu lassen, um zu untersuchen, ob sie besser zusammenarbeiten. Die Modelle könnten auch von einer kleinen Feinabstimmung bei Spielsimulationen profitieren, und mit mehr Rechenleistung hätten LMs erweiterte Inferenzfähigkeiten, um vorherzusagen, wie sich ein Spiel entwickeln wird.

„Da KI-Systeme immer wirksamer werden, erweisen sich die schwierigsten Probleme als soziale Probleme: Gemeinsamkeiten erkennen, Missverständnisse lösen und sich im Laufe der Zeit an unterschiedliche Associate anpassen“, sagt Robert Hawkins, Assistenzprofessor für Linguistik an der Stanford College, der nicht an der Arbeit beteiligt warfare. „Diese Arbeit erfasst diese Phänomene auf elegante Weise in einer kontrollierten kollaborativen Umgebung und zeigt überzeugend, dass der eigentliche Engpass für KI-Agenten nicht nur in der Berechnung optimaler Fragen liegt, sondern in der pragmatischen Argumentation, die erforderlich ist, um das Beste aus ihren Antworten herauszuholen.“

Grand und Pepe haben die Arbeit zusammen mit zwei CSAIL-Hauptforschern geschrieben: MIT-Assoziierter Professor Jacob Andreas und MIT-Professor Joshua Tenenbaum. Ihre Arbeit wurde teilweise vom MIT Siegel Household Quest for Intelligence, dem MIT-IBM Watson AI Lab, der FinTechAI@CSAIL-Initiative, einem Sloan Analysis Fellowship, Intel, dem Air Power Workplace of Scientific Analysis, der Protection Superior Analysis Tasks Company, dem Workplace of Naval Analysis und der Nationwide Science Basis unterstützt. Sie präsentierten ihre Arbeit als mündliche Präsentation auf der Worldwide Convention on Studying Representations (ICLR) im April.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert