Ein Aspekt, der Massive Language Fashions (LLMs) so leistungsstark macht, ist die Vielfalt der Aufgaben, auf die sie angewendet werden können. Dasselbe maschinelle Lernmodell, das einem Doktoranden beim Verfassen einer E-Mail helfen kann, könnte auch einem Kliniker bei der Diagnose von Krebs helfen.
Die breite Anwendbarkeit dieser Modelle macht es jedoch auch schwierig, sie systematisch zu bewerten. Es wäre unmöglich, einen Benchmark-Datensatz zu erstellen, um ein Modell anhand aller möglichen Fragen zu testen.
In einem neues Papierverfolgten die Forscher am MIT einen anderen Ansatz. Sie argumentieren, dass Menschen entscheiden, wann große Sprachmodelle eingesetzt werden. Zur Bewertung eines Modells müsse man verstehen, wie sich Menschen eine Meinung über dessen Fähigkeiten bilden, denn dies ist der Fall, wenn man weiß, wie Menschen sich ein Bild von dessen Fähigkeiten machen.
Beispielsweise muss der Doktorand entscheiden, ob das Modell beim Verfassen einer bestimmten E-Mail hilfreich sein könnte, und der Kliniker muss bestimmen, in welchen Fällen das Modell am besten zu Charge gezogen werden kann.
Auf dieser Idee aufbauend erstellten die Forscher einen Rahmen zur Bewertung eines LLM auf der Grundlage seiner Übereinstimmung mit den Überzeugungen eines Menschen hinsichtlich seiner Leistung bei einer bestimmten Aufgabe.
Sie führen eine menschliche Generalisierungsfunktion ein – ein Modell, das zeigt, wie Menschen ihre Ansichten über die Fähigkeiten eines LLMs aktualisieren, nachdem sie mit ihm interagiert haben. Anschließend bewerten sie, inwieweit LLMs mit dieser menschlichen Generalisierungsfunktion übereinstimmen.
Ihre Ergebnisse zeigen, dass ein Benutzer, wenn Modelle nicht auf die menschliche Generalisierungsfunktion abgestimmt sind, zu selbstsicher oder zu unsicher sein kann, wo er sie einsetzen soll, was zu unerwarteten Modellfehlern führen kann. Darüber hinaus neigen leistungsfähigere Modelle aufgrund dieser Fehlausrichtung dazu, in Situationen, in denen viel auf dem Spiel steht, schlechter abzuschneiden als kleinere Modelle.
„Diese Instruments sind spannend, weil sie universell einsetzbar sind. Aber weil sie universell einsetzbar sind, werden sie mit Menschen zusammenarbeiten. Deshalb müssen wir den Menschen in den Prozess einbeziehen“, sagt Ashesh Rambachan, Co-Autor der Studie, Assistenzprofessor für Wirtschaftswissenschaften und leitender Forscher am Laboratory for Info and Resolution Methods (LIDS).
Rambachan wird an der Arbeit von Hauptautor Keyon Vafa, einem Postdoc an der Harvard College, und Sendhil Mullainathan, einem MIT-Professor in den Abteilungen Elektrotechnik und Informatik sowie Wirtschaftswissenschaften und Mitglied von LIDS, unterstützt. Die Forschungsarbeit wird auf der Worldwide Convention on Machine Studying vorgestellt.
Menschliche Verallgemeinerung
Im Umgang mit anderen Menschen bilden wir uns ein Bild davon, was sie wissen und was nicht. Wenn Ihr Freund beispielsweise sehr pingelig ist, wenn es darum geht, die Grammatik anderer zu korrigieren, könnten Sie verallgemeinern und denken, dass er auch im Satzbau hervorragend ist, obwohl Sie ihm nie Fragen zum Satzbau gestellt haben.
„Sprachmodelle wirken oft so menschlich. Wir wollten zeigen, dass diese Kraft der menschlichen Verallgemeinerung auch in der Artwork und Weise vorhanden ist, wie Menschen ihre Ansichten über Sprachmodelle bilden“, sagt Rambachan.
Als Ausgangspunkt definierten die Forscher formal die menschliche Generalisierungsfunktion. Dabei werden Fragen gestellt, die Antworten einer Particular person oder eines LLM beobachtet und daraus Rückschlüsse gezogen, wie diese Particular person oder dieses Modell auf entsprechende Fragen reagieren würde.
Wenn jemand sieht, dass ein LLM Fragen zur Matrixinversion korrekt beantworten kann, könnte er auch annehmen, dass es Fragen zur einfachen Arithmetik mit Bravour meistert. Ein Modell, das nicht auf diese Funktion abgestimmt ist – additionally Fragen, von denen ein Mensch erwartet, dass es sie richtig beantwortet, nicht intestine beantwortet – könnte bei der Bereitstellung fehlschlagen.
Mit dieser formalen Definition in der Hand entwarfen die Forscher eine Umfrage, um zu messen, wie Menschen verallgemeinern, wenn sie mit LLMs und anderen Menschen interagieren.
Sie zeigten den Umfrageteilnehmern Fragen, die eine Particular person oder ein LLM richtig oder falsch beantwortet hatte, und fragten dann, ob sie glaubten, dass diese Particular person oder dieser LLM eine verwandte Frage richtig beantworten würde. Durch die Umfrage generierten sie einen Datensatz mit quick 19.000 Beispielen, wie Menschen die Leistung eines LLM bei 79 verschiedenen Aufgaben verallgemeinern.
Messen von Ausrichtungsfehlern
Sie stellten fest, dass die Teilnehmer recht intestine abschnitten, wenn man sie fragte, ob ein Mensch, der eine Frage richtig beantwortet hatte, auch eine verwandte Frage richtig beantworten würde. Sie waren jedoch viel schlechter darin, Verallgemeinerungen über die Leistung von LLMs abzugeben.
„Menschliche Generalisierung wird auf Sprachmodelle angewendet, aber das funktioniert nicht, weil diese Sprachmodelle keine Muster von Fachwissen zeigen, wie es bei Menschen der Fall wäre“, sagt Rambachan.
Die Teilnehmer neigten auch eher dazu, ihre Meinung über einen LLM zu ändern, wenn dieser Fragen falsch beantwortete, als wenn er Fragen richtig beantwortete. Sie neigten auch dazu, zu glauben, dass die Leistung eines LLM bei einfachen Fragen wenig Einfluss auf die Leistung bei komplexeren Fragen hätte.
In Situationen, in denen Menschen falschen Antworten mehr Gewicht beimaßen, schnitten einfachere Modelle besser ab als sehr große Modelle wie GPT-4.
„Sprachmodelle, die immer besser werden, können die Leute quick dazu verleiten zu glauben, dass sie bei verwandten Fragen gute Ergebnisse erzielen werden, obwohl das in Wirklichkeit nicht der Fall ist“, sagt er.
Eine mögliche Erklärung dafür, warum Menschen schlechter darin sind, LLMs zu verallgemeinern, könnte darin liegen, dass sie neuartig sind: Menschen haben weitaus weniger Erfahrung im Umgang mit LLMs als mit anderen Menschen.
„In Zukunft ist es möglich, dass wir allein durch die stärkere Interaktion mit Sprachmodellen besser werden“, sagt er.
Zu diesem Zweck möchten die Forscher weitere Studien darüber durchführen, wie sich die Ansichten der Menschen über LLMs im Laufe der Zeit entwickeln, wenn sie mit einem Modell interagieren. Sie möchten auch untersuchen, wie menschliche Generalisierung in die Entwicklung von LLMs einbezogen werden könnte.
„Wenn wir diese Algorithmen überhaupt erst trainieren oder versuchen, sie mit menschlichem Suggestions zu aktualisieren, müssen wir bei unserer Betrachtung der Leistungsmessung die menschliche Generalisierungsfunktion berücksichtigen“, sagt er.
In der Zwischenzeit hoffen die Forscher, dass ihr Datensatz als Benchmark verwendet werden kann, um die Leistung von LLMs im Zusammenhang mit der menschlichen Generalisierungsfunktion zu vergleichen. Dies könnte dazu beitragen, die Leistung von Modellen zu verbessern, die in realen Situationen eingesetzt werden.
„Für mich hat der Beitrag des Papiers zweierlei. Der erste ist praktischer Natur: Das Papier deckt ein kritisches Downside bei der Bereitstellung von LLMs für den allgemeinen Verbrauchergebrauch auf. Wenn die Leute nicht das richtige Verständnis dafür haben, wann LLMs genau sind und wann sie versagen, werden sie eher Fehler bemerken und sich vielleicht von der weiteren Verwendung abhalten lassen. Dies verdeutlicht das Downside, die Modelle an das Verständnis der Leute von Generalisierung anzupassen“, sagt Alex Imas, Professor für Verhaltenswissenschaften und Ökonomie an der Sales space College of Enterprise der College of Chicago, der nicht an dieser Arbeit beteiligt conflict. „Der zweite Beitrag ist grundlegender: Das Fehlen einer Generalisierung auf erwartete Probleme und Domänen hilft dabei, ein besseres Bild davon zu bekommen, was die Modelle tun, wenn sie ein Downside ‚richtig‘ lösen. Es bietet einen Take a look at dafür, ob LLMs das Downside ‚verstehen‘, das sie lösen.“
Diese Forschung wurde zum Teil von der Harvard Information Science Initiative und dem Heart for Utilized AI der College of Chicago Sales space College of Enterprise finanziert.