Ein Unternehmen, das ein großes Sprachmodell (LLM) zum Zusammenfassen von Verkaufsberichten oder zur Triage von Kundenanfragen verwenden möchte, kann zwischen Hunderten einzigartiger LLMs mit Dutzenden Modellvarianten wählen, die jeweils eine leicht unterschiedliche Leistung aufweisen.

Um die Auswahl einzugrenzen, verlassen sich Unternehmen häufig auf LLM-Rating-Plattformen, die Benutzerfeedback zu Modellinteraktionen sammeln, um die neuesten LLMs basierend auf ihrer Leistung bei bestimmten Aufgaben zu bewerten.

Aber MIT-Forscher haben herausgefunden, dass eine Handvoll Benutzerinteraktionen die Ergebnisse verzerren können, was dazu führen kann, dass jemand fälschlicherweise glaubt, ein LLM sei die ideale Wahl für einen bestimmten Anwendungsfall. Ihre Studie zeigt, dass das Entfernen eines winzigen Bruchteils der Crowdsourcing-Daten dazu führen kann, dass die Modelle an erster Stelle stehen.

Sie haben eine schnelle Methode entwickelt, um Rating-Plattformen zu testen und festzustellen, ob sie für dieses Downside anfällig sind. Die Bewertungstechnik identifiziert die einzelnen Stimmen, die am stärksten für die Verzerrung der Ergebnisse verantwortlich sind, sodass Benutzer diese einflussreichen Stimmen überprüfen können.

Die Forscher sagen, dass diese Arbeit die Notwendigkeit strengerer Strategien zur Bewertung von Modellrankings unterstreicht. Obwohl sie sich in dieser Studie nicht auf die Schadensbegrenzung konzentrierten, lieferten sie Vorschläge, die die Robustheit dieser Plattformen verbessern könnten, wie etwa das Einholen detaillierterer Rückmeldungen zur Erstellung der Rankings.

Die Studie warnt auch Nutzer, die sich bei Entscheidungen über LLMs, die weitreichende und kostspielige Auswirkungen auf ein Unternehmen oder eine Organisation haben könnten, möglicherweise auf Rankings verlassen.

„Wir waren überrascht, dass diese Rating-Plattformen so empfindlich auf dieses Downside reagierten. Wenn sich herausstellt, dass der am höchsten bewertete LLM nur von zwei oder drei Teilen des Benutzerfeedbacks von Zehntausenden abhängt, kann man nicht davon ausgehen, dass der am besten bewertete LLM bei seiner Einführung alle anderen LLMs durchweg übertreffen wird“, sagt Tamara Broderick, außerordentliche Professorin am Division of Electrical Engineering and Pc Science (EECS) des MIT; ein Mitglied des Laboratory for Data and Resolution Techniques (LIDS) und des Institute for Knowledge, Techniques, and Society; eine Tochtergesellschaft des Pc Science and Synthetic Intelligence Laboratory (CSAIL); und leitender Autor dieser Studie.

Sie ist dabei Papier von den Hauptautoren und EECS-Absolventen Jenny Huang und Yunyi Shen sowie Dennis Wei, einem leitenden Wissenschaftler bei IBM Analysis. Die Studie wird auf der Worldwide Convention on Studying Representations vorgestellt.

Daten werden gelöscht

Obwohl es viele Arten von LLM-Rating-Plattformen gibt, werden die Benutzer bei den beliebtesten Varianten aufgefordert, eine Anfrage an zwei Modelle zu stellen und auszuwählen, welches LLM die bessere Antwort bietet.

Die Plattformen aggregieren die Ergebnisse dieser Matchups, um Rankings zu erstellen, die zeigen, welcher LLM bei bestimmten Aufgaben wie Codierung oder visuellem Verständnis am besten abgeschnitten hat.

Durch die Auswahl eines LLM mit der höchsten Leistung erwartet ein Benutzer wahrscheinlich, dass sich die Spitzenplatzierung dieses Modells verallgemeinert, was bedeutet, dass es andere Modelle bei ihrer ähnlichen, aber nicht identischen Anwendung mit einem Satz neuer Daten übertreffen sollte.

Die MIT-Forscher untersuchten zuvor die Generalisierung in Bereichen wie Statistik und Wirtschaft. Diese Arbeit deckte bestimmte Fälle auf, in denen das Weglassen eines kleinen Prozentsatzes der Daten die Ergebnisse eines Modells verändern kann, was darauf hindeutet, dass die Schlussfolgerungen dieser Studien möglicherweise nicht über ihren engen Rahmen hinaus gültig sind.

Die Forscher wollten herausfinden, ob die gleiche Analyse auf LLM-Rating-Plattformen angewendet werden kann.

„Letztendlich möchte ein Benutzer wissen, ob er sich für den besten LLM entscheidet. Wenn nur wenige Eingabeaufforderungen dieses Rating bestimmen, deutet das darauf hin, dass das Rating möglicherweise nicht das Allerbeste ist“, sagt Broderick.

Es wäre jedoch unmöglich, das Phänomen des Datenverlusts manuell zu testen. So hatte ein von ihnen ausgewertetes Rating mehr als 57.000 Stimmen. Das Testen eines Datenrückgangs von 0,1 Prozent bedeutet, dass jede Teilmenge von 57 Stimmen aus den 57.000 entfernt wird (es sind mehr als 10).194 Teilmengen) und anschließende Neuberechnung der Rangfolge.

Stattdessen entwickelten die Forscher auf der Grundlage ihrer früheren Arbeiten eine effiziente Näherungsmethode und passten sie an LLM-Rankingsysteme an.

„Obwohl wir eine Theorie haben, die beweist, dass die Näherung unter bestimmten Annahmen funktioniert, muss der Benutzer darauf nicht vertrauen. Unsere Methode teilt dem Benutzer am Ende die problematischen Datenpunkte mit, sodass er diese Datenpunkte einfach löschen, die Analyse erneut ausführen und prüfen kann, ob sich die Rangfolge ändert“, sagt sie.

Überraschend empfindlich

Als die Forscher ihre Technik auf beliebte Rating-Plattformen anwendeten, waren sie überrascht, wie wenige Datenpunkte sie löschen mussten, um signifikante Veränderungen in den High-LLMs zu bewirken. In einem Fall führte die Entfernung von nur zwei von mehr als 57.000 Stimmen, was 0,0035 Prozent entspricht, dazu, welches Modell an erster Stelle steht.

Eine andere Rating-Plattform, die Experten-Annotatoren und qualitativ hochwertigere Eingabeaufforderungen verwendet, struggle robuster. Hier wurden durch die Streichung von 83 von 2.575 Bewertungen (rund 3 Prozent) die Spitzenmodelle umgedreht.

Ihre Untersuchung ergab, dass viele einflussreiche Stimmen möglicherweise auf Benutzerfehler zurückzuführen waren. In einigen Fällen schien es eine klare Antwort darauf zu geben, welches LLM besser abschnitt, aber der Benutzer entschied sich stattdessen für das andere Modell, sagt Broderick.

„Wir können nie wissen, was der Benutzer zu diesem Zeitpunkt im Kopf hatte, aber vielleicht hat er falsch geklickt oder nicht aufgepasst, oder er wusste ehrlich gesagt nicht, welches besser ist. Der große Vorteil dabei ist, dass Sie nicht möchten, dass Lärm, Benutzerfehler oder Ausreißer bestimmen, welches LLM am besten bewertet ist“, fügt sie hinzu.

Die Forscher gehen davon aus, dass das Sammeln zusätzlicher Rückmeldungen von Benutzern, wie z. B. das Vertrauensniveau bei jeder Abstimmung, umfassendere Informationen liefern würde, die zur Entschärfung dieses Issues beitragen könnten. Rating-Plattformen könnten auch menschliche Mediatoren einsetzen, um Crowdsourcing-Antworten zu bewerten.

Die Forscher wollen die Verallgemeinerung in anderen Kontexten weiter erforschen und gleichzeitig bessere Approximationsmethoden entwickeln, die mehr Beispiele für Nichtrobustheit erfassen können.

„Die Arbeit von Broderick und ihren Studenten zeigt, wie man valide Schätzungen des Einflusses spezifischer Daten auf nachgelagerte Prozesse erhalten kann, obwohl erschöpfende Berechnungen angesichts der Größe moderner Modelle und Datensätze für maschinelles Lernen unlösbar sind“, sagt Jessica Hullman, Ginni Rometty-Professorin für Informatik an der Northwestern College, die nicht an dieser Arbeit beteiligt struggle. „Die jüngste Arbeit bietet einen Einblick in die starken Datenabhängigkeiten bei routinemäßig angewendeten – aber auch sehr fragilen – Methoden zur Aggregation menschlicher Präferenzen und deren Verwendung zur Aktualisierung eines Modells. Zu sehen, wie wenige Präferenzen das Verhalten eines fein abgestimmten Modells wirklich verändern könnten, könnte zu durchdachteren Methoden zur Erfassung dieser Daten führen.“

Diese Forschung wird zum Teil vom Workplace of Naval Analysis, dem MIT-IBM Watson AI Lab, der Nationwide Science Basis, Amazon und einem CSAIL Seed Award finanziert.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert