Große Sprachmodelle können beeindruckende Dinge leisten, etwa Gedichte schreiben oder brauchbare Computerprogramme generieren, obwohl diese Modelle darauf trainiert sind, Wörter vorherzusagen, die in einem Textual content als Nächstes kommen.
Solche überraschenden Fähigkeiten können den Eindruck erwecken, als würden die Modelle implizit einige allgemeine Wahrheiten über die Welt lernen.
Laut einer neuen Studie ist das jedoch nicht unbedingt der Fall. Die Forscher fanden heraus, dass eine beliebte Artwork von generatives KI-Modell kann detaillierte Wegbeschreibungen in New York Metropolis mit nahezu perfekter Genauigkeit bereitstellen – ohne eine genaue interne Karte der Stadt erstellt zu haben.
Trotz der erstaunlichen Fähigkeit des Modells, effektiv zu navigieren, brach seine Leistung ein, als die Forscher einige Straßen sperrten und Umleitungen hinzufügten.
Als sie tiefer gruben, stellten die Forscher fest, dass die New Yorker Karten, die das Modell implizit generierte, viele nicht existierende Straßen enthielten, die sich zwischen dem Raster und weit entfernten Kreuzungen verliefen.
Dies könnte schwerwiegende Auswirkungen auf generative KI-Modelle haben, die in der realen Welt eingesetzt werden, da ein Modell, das in einem bestimmten Kontext scheinbar intestine funktioniert, möglicherweise zusammenbricht, wenn sich die Aufgabe oder die Umgebung geringfügig ändert.
„Eine Hoffnung besteht darin, dass wir, weil LLMs all diese erstaunlichen Dinge in der Sprache leisten können, diese gleichen Werkzeuge vielleicht auch in anderen Bereichen der Wissenschaft nutzen könnten.“ Aber die Frage, ob LLMs kohärente Weltmodelle lernen, ist sehr wichtig, wenn wir diese Techniken nutzen wollen, um neue Entdeckungen zu machen“, sagt der leitende Autor Ashesh Rambachan, Assistenzprofessor für Wirtschaftswissenschaften und Hauptforscher am MIT Laboratory for Data and Choice Techniques (DECKEL).
Rambachan ist auf a verbunden Papier über die Arbeit vom Hauptautor Keyon Vafa, Postdoc an der Harvard College; Justin Y. Chen, ein Doktorand der Elektrotechnik und Informatik (EECS) am MIT; Jon Kleinberg, Tisch College Professor für Informatik und Informationswissenschaft an der Cornell College; und Sendhil Mullainathan, MIT-Professor in den Abteilungen EECS und Wirtschaftswissenschaften und Mitglied von LIDS. Die Forschung wird auf der Konferenz über neuronale Informationsverarbeitungssysteme vorgestellt.
Neue Metriken
Die Forscher konzentrierten sich auf eine Artwork generatives KI-Modell, das als Transformer bekannt ist und das Rückgrat von LLMs wie GPT-4 bildet. Transformatoren werden anhand einer riesigen Menge sprachbasierter Daten trainiert, um das nächste Token in einer Sequenz vorherzusagen, beispielsweise das nächste Wort in einem Satz.
Wenn Wissenschaftler jedoch feststellen wollen, ob ein LLM ein genaues Modell der Welt erstellt hat, reicht es nicht aus, die Genauigkeit seiner Vorhersagen zu messen, sagen die Forscher.
Sie fanden beispielsweise heraus, dass ein Transformator quick jedes Mal gültige Züge in einer Partie Join 4 vorhersagen kann, ohne die Regeln zu verstehen.
Deshalb entwickelte das Group zwei neue Metriken, mit denen das Weltmodell eines Transformators getestet werden kann. Die Forscher konzentrierten ihre Auswertungen auf eine Klasse von Problemen, die als deterministische endliche Automatisierungen oder DFAs bezeichnet werden.
Ein DFA ist ein Drawback mit einer Abfolge von Zuständen, etwa Kreuzungen, die man überqueren muss, um ein Ziel zu erreichen, und einer konkreten Beschreibung der Regeln, die man auf dem Weg befolgen muss.
Sie wählten zwei Probleme aus, die sie als DFAs formulieren wollten: das Navigieren auf den Straßen von New York Metropolis und das Spielen des Brettspiels Othello.
„Wir brauchten Prüfstände, von denen wir wissen, wie das Weltmodell aussieht. Jetzt können wir gründlich darüber nachdenken, was es bedeutet, dieses Weltmodell wiederherzustellen“, erklärt Vafa.
Die erste von ihnen entwickelte Metrik, Sequenzunterscheidung genannt, besagt, dass ein Modell ein kohärentes Weltmodell gebildet hat, wenn es zwei verschiedene Zustände sieht, wie zwei verschiedene Othello-Boards, und erkennt, wie unterschiedlich sie sind. Sequenzen, additionally geordnete Hear von Datenpunkten, werden von Transformatoren zum Generieren von Ausgaben verwendet.
Die zweite Metrik, Sequenzkomprimierung genannt, besagt, dass ein Transformator mit einem kohärenten Weltmodell wissen sollte, dass zwei identische Zustände, wie zwei identische Othello-Boards, die gleiche Reihenfolge möglicher nächster Schritte haben.
Sie verwendeten diese Metriken, um zwei gängige Klassen von Transformatoren zu testen, eine, die auf Daten trainiert wird, die aus zufällig erzeugten Sequenzen generiert werden, und die andere auf Daten, die durch folgende Strategien generiert werden.
Inkohärente Weltmodelle
Überraschenderweise stellten die Forscher fest, dass Transformatoren, die zufällig Entscheidungen trafen, genauere Weltmodelle bildeten, möglicherweise weil sie während des Trainings eine größere Vielfalt möglicher nächster Schritte sahen.
„Wenn man in Othello statt Meisterschaftsspielern zwei zufällig spielende Pc sieht, sieht man theoretisch alle möglichen Züge, selbst die schlechten Züge, die Meisterschaftsspieler nicht machen würden“, erklärt Vafa.
Obwohl die Transformatoren in quick jedem Fall genaue Richtungen und gültige Othello-Bewegungen generierten, zeigten die beiden Metriken, dass nur eine ein kohärentes Weltmodell für Othello-Bewegungen generierte und keines im Wegfindungsbeispiel gute Ergebnisse bei der Bildung kohärenter Weltmodelle lieferte.
Die Auswirkungen demonstrierten die Forscher, indem sie Umwege in die Karte von New York Metropolis einfügten, was zum Ausfall aller Navigationsmodelle führte.
„Ich conflict überrascht, wie schnell die Leistung nachließ, sobald wir einen Umweg hinzufügten. Wenn wir nur 1 Prozent der möglichen Straßen sperren, sinkt die Genauigkeit sofort von quick 100 Prozent auf nur noch 67 Prozent“, sagt Vafa.
Als sie die von den Modellen erstellten Stadtpläne wiederherstellten, sahen sie aus wie ein imaginäres New York Metropolis mit Hunderten von kreuz und quer über dem Raster überlagerten Straßen. Die Karten enthielten häufig zufällige Überführungen über andere Straßen oder mehrere Straßen mit unmöglicher Ausrichtung.
Diese Ergebnisse zeigen, dass Transformatoren bei bestimmten Aufgaben überraschend gute Leistungen erbringen können, ohne die Regeln zu verstehen. Wenn Wissenschaftler LLMs bauen wollen, die genaue Weltmodelle erfassen können, müssen sie einen anderen Ansatz verfolgen, sagen die Forscher.
„Oft sehen wir, wie diese Modelle beeindruckende Dinge tun, und glauben, dass sie etwas über die Welt verstanden haben müssen. Ich hoffe, wir können die Menschen davon überzeugen, dass es sich um eine Frage handelt, über die man sehr sorgfältig nachdenken muss und dass wir uns nicht auf unsere eigene Instinct verlassen müssen, um sie zu beantworten“, sagt Rambachan.
In Zukunft wollen die Forscher vielfältigere Probleme angehen, beispielsweise solche, bei denen einige Regeln nur teilweise bekannt sind. Sie möchten ihre Bewertungsmaßstäbe auch auf reale, wissenschaftliche Probleme anwenden.
Diese Arbeit wird zum Teil durch die Harvard Information Science Initiative, ein Graduate Analysis Fellowship der Nationwide Science Basis, ein Vannevar Bush College Fellowship, ein Simons Collaboration Grant und ein Stipendium der MacArthur Basis finanziert.