
Große Sprachmodelle (LLMs) wie ChatGPT können quick sofort einen Aufsatz schreiben oder ein Menü planen. Aber bis vor Kurzem conflict es auch leicht, sie zu überlisten. Die Modelle, die auf Sprachmustern basieren, um auf Benutzeranfragen zu reagieren, scheiterten oft bei mathematischen Problemen und waren nicht intestine im komplexen Denken. Plötzlich sind sie jedoch in diesen Dingen viel besser geworden.
Eine neue Era von LLMs, sogenannte Reasoning-Modelle, wird trainiert, um komplexe Probleme zu lösen. Wie Menschen brauchen sie etwas Zeit, um über Probleme wie diese nachzudenken – und bemerkenswerterweise haben Wissenschaftler am McGovern Institute for Mind Analysis des MIT herausgefunden, dass die Arten von Problemen, die die meiste Verarbeitung durch Argumentationsmodelle erfordern, genau die gleichen Probleme sind, mit denen sich Menschen Zeit lassen müssen. Mit anderen Worten, sie berichten heute im Journal PNASDie „Denkkosten“ für ein Argumentationsmodell ähneln den Denkkosten für einen Menschen.
Die Forscher unter der Leitung von Evelina Fedorenkoaußerordentlicher Professor für Gehirn- und Kognitionswissenschaften und Forscher am McGovern Institute, kommt zu dem Schluss, dass Argumentationsmodelle in mindestens einer wichtigen Hinsicht einen menschenähnlichen Denkansatz haben. Sie weisen darauf hin, dass dies nicht beabsichtigt sei. „Menschen, die diese Modelle bauen, ist es egal, ob sie es wie Menschen machen. Sie wollen einfach nur ein System, das unter allen möglichen Bedingungen zuverlässig funktioniert und korrekte Reaktionen liefert“, sagt Fedorenko. „Die Tatsache, dass es eine gewisse Konvergenz gibt, ist wirklich ziemlich bemerkenswert.“
Argumentationsmodelle
Wie viele Formen der künstlichen Intelligenz sind die neuen Argumentationsmodelle künstliche neuronale Netze: Rechenwerkzeuge, die lernen, Informationen zu verarbeiten, wenn ihnen Daten und ein zu lösendes Drawback gegeben werden. Künstliche neuronale Netze waren bei vielen Aufgaben, die die neuronalen Netze des Gehirns intestine erledigen, sehr erfolgreich – und in einigen Fällen haben Neurowissenschaftler herausgefunden, dass diejenigen, die die besten Leistungen erbringen, bestimmte Aspekte der Informationsverarbeitung im Gehirn gemeinsam haben. Dennoch argumentierten einige Wissenschaftler, dass künstliche Intelligenz nicht bereit sei, komplexere Aspekte der menschlichen Intelligenz zu übernehmen.
„Bis vor kurzem gehörte ich zu den Leuten, die sagten: ‚Diese Modelle sind wirklich intestine in Dingen wie Wahrnehmung und Sprache, aber es wird noch ein langer Weg sein, bis wir neuronale Netzwerkmodelle haben, die schlussfolgern können“, sagt Fedorenko. „Dann entstanden diese großen Denkmodelle, und sie scheinen bei vielen dieser Denkaufgaben, wie dem Lösen mathematischer Probleme und dem Schreiben von Computercode, viel besser zu sein.“
Andrea Gregor de Varda, a Ok. Lisa Yang ICoN Middle Fellow und Postdoktorand in Fedorenkos Labor erklärt, dass Argumentationsmodelle Probleme Schritt für Schritt lösen. „Irgendwann wurde den Leuten klar, dass Modelle mehr Platz benötigen, um die eigentlichen Berechnungen durchzuführen, die zur Lösung komplexer Probleme erforderlich sind“, sagt er. „Die Leistung wurde viel, viel besser, wenn man die Modelle die Probleme in Teile zerlegen ließ.“
Um Modelle zu ermutigen, komplexe Probleme in Schritten zu bearbeiten, die zu richtigen Lösungen führen, können Ingenieure Reinforcement Studying einsetzen. Während ihres Trainings werden die Modelle für richtige Antworten belohnt und für falsche bestraft. „Die Modelle erkunden den Problemraum selbst“, sagt de Varda. „Die Handlungen, die zu positiven Belohnungen führen, werden verstärkt, sodass sie häufiger zu richtigen Lösungen führen.“
Auf diese Weise trainierte Modelle sind viel wahrscheinlicher als ihre Vorgänger, dass sie zu den gleichen Antworten kommen wie ein Mensch, wenn ihnen eine Denkaufgabe gestellt wird. Ihre schrittweise Problemlösung bedeutet zwar, dass Reasoning-Modelle etwas länger brauchen können, um eine Antwort zu finden als die LLMs davor – aber da sie die richtigen Antworten erhalten, wo die vorherigen Modelle versagt hätten, lohnt sich das Warten auf ihre Antworten.
Dass die Modelle eine gewisse Zeit benötigen, um komplexe Probleme zu lösen, weist bereits auf eine Parallele zum menschlichen Denken hin: Wenn man von einer Individual verlangt, ein schwieriges Drawback sofort zu lösen, würde sie wahrscheinlich ebenfalls scheitern. De Varda wollte diesen Zusammenhang systematischer untersuchen. Additionally gab er Denkmodellen und menschlichen Freiwilligen die gleichen Aufgaben und verfolgte nicht nur, ob sie die richtigen Antworten bekamen, sondern auch, wie viel Zeit oder Mühe sie brauchten, um dorthin zu gelangen.
Zeit versus Token
Das bedeutete, dass auf die Millisekunde genau gemessen wurde, wie lange es dauerte, bis die Leute auf jede Frage antworteten. Für die Modelle verwendete Varda eine andere Metrik. Es machte keinen Sinn, die Verarbeitungszeit zu messen, da diese mehr von der Computerhardware abhängt als vom Aufwand, den das Modell für die Lösung eines Issues aufwendet. Stattdessen verfolgte er Token, die Teil der internen Gedankenkette eines Modells sind. „Sie produzieren Token, die nicht dazu gedacht sind, dass der Benutzer sie sieht und bearbeitet, sondern nur, um einen Überblick über die internen Berechnungen zu haben, die sie durchführen“, erklärt de Varda. „Es ist, als würden sie mit sich selbst reden.“
Sowohl Menschen als auch Denkmodelle wurden gebeten, sieben verschiedene Arten von Problemen zu lösen, darunter numerische Arithmetik und intuitives Denken. Für jede Problemklasse wurden ihnen viele Aufgaben gestellt. Je schwieriger ein bestimmtes Drawback conflict, desto länger brauchten die Leute, um es zu lösen – und je länger die Leute brauchten, um ein Drawback zu lösen, desto mehr Token generierte ein Argumentationsmodell, als es zu seiner eigenen Lösung kam.
Ebenso waren die Problemklassen, für deren Lösung Menschen am längsten brauchten, die gleichen Problemklassen, die die meisten Token für die Modelle erforderten: Rechenaufgaben waren am wenigsten anspruchsvoll, während eine Gruppe von Problemen, die als „ARC-Herausforderung“ bezeichnet werden und bei denen Paare von farbigen Gittern eine Transformation darstellen, die abgeleitet und dann auf ein neues Objekt angewendet werden muss, sowohl für Menschen als auch für Modelle am kostspieligsten conflict.
De Varda und Fedorenko sagen, dass die auffällige Übereinstimmung bei den Denkkosten zeigt, wie Argumentationsmodelle wie Menschen denken. Das bedeutet jedoch nicht, dass die Modelle menschliche Intelligenz nachbilden. Die Forscher wollen noch wissen, ob die Modelle ähnliche Informationsdarstellungen wie das menschliche Gehirn verwenden und wie diese Darstellungen in Problemlösungen umgewandelt werden. Sie sind auch neugierig, ob die Modelle in der Lage sein werden, Probleme zu bewältigen, die Weltwissen erfordern, das in den für das Modelltraining verwendeten Texten nicht dargelegt ist.
Die Forscher weisen darauf hin, dass Argumentationsmodelle zwar beim Lösen von Problemen interne Monologe erzeugen, sie aber nicht unbedingt die Sprache zum Denken verwenden. „Wenn man sich die Ausgabe ansieht, die diese Modelle beim Denken erzeugen, enthält sie häufig Fehler oder einige unsinnige Teile, selbst wenn das Modell letztendlich zu einer richtigen Antwort kommt. Die eigentlichen internen Berechnungen finden additionally wahrscheinlich in einem abstrakten, nicht-sprachlichen Darstellungsraum statt, ähnlich wie Menschen keine Sprache zum Denken verwenden“, sagt er.
