Während wir aus der Kindheit reifen, werden unser Wortschatz – sowohl die Artwork und Weise, wie wir es verwenden – und unsere Erfahrungen werden reicher, sodass wir mit Spezifität und Absicht mit anderen denken, mit anderen interagieren. Dementsprechend entwickeln sich unsere Wortauswahl, um sich an unseren persönlichen Werten, Ethik, kulturellen Normen und Ansichten auszurichten. Im Laufe der Zeit entwickeln die meisten von uns einen internen „Leitfaden“, der es uns ermöglicht, einen Kontext hinter Konversation zu lernen. Es lenkt uns auch häufig davon ab, Informationen und Gefühle zu teilen, die schädlich oder unangemessen sind oder sein könnten. Wie sich herausstellt, können große Sprachmodelle (LLMs), die in umfangreichen, öffentlichen Datensätzen geschult sind und daher häufig Vorurteile und giftige Sprache aufweisen – eine ähnliche Kapazität, um ihre eigene Sprache zu moderieren.

Eine neue Methode von MIT, dem MIT-IBM Watson AI Lab und IBM Analysis, das als selbstdisziplinierte autoregressive Probenahme (SASA) bezeichnet wird, ermöglicht es LLMs, ihre eigenen Ausgaben zu entgiften, ohne die Flüssigkeit zu beeinträchtigen.

Im Gegensatz zu anderen entgiftenden Methoden lernt dieser Dekodierungsalgorithmus eine Grenze zwischen toxischen/ungiften Unterteilen innerhalb der internen Darstellung des LLM, ohne die Parameter des Modells, die Notwendigkeit einer Umschulung oder ein externes Belohnungsmodell zu ändern. Während der Inferenz bewertet der Algorithmus den Toxizitätswert der teilweise erzeugten Phrase: Token (Wörter), die bereits erzeugt und akzeptiert wurden, zusammen mit jedem potenziellen neuen Token, der für die Nähe zur Klassifikatorgrenze vernünftigerweise ausgewählt werden kann. Als nächstes wählt es eine Wortoption aus, die den Ausdruck in den ungiftigen Raum stellt und letztendlich eine schnelle und effiziente Möglichkeit bietet, weniger toxische Sprache zu erzeugen.

„Wir wollten einen Weg mit jedem vorhandenen Sprachmodell (das) während des Generationsprozesses herausfinden, die Dekodierung kann einigen menschlichen Werten unterliegen. Das Beispiel hier ist die Toxizität“, sagt der führende Autor der Studie, Ching-yun „Irene“ KO PhD ’24, ein ehemaliger Absolventen des MIT-IBM Watson Ai Labor und einen aktuellen Forschungswissenschaftler in New York.

Zu den Mitautoren von KO gehören Luca Daniel, Professorin am MIT-Abteilung für Elektrotechnik und Informatik (EECS), Mitglied des MIT-IBM Watson AI Lab, und KO’s Graduate Advisor; und mehrere Mitglieder des MIT-IBM Watson AI Lab und/oder IBM Analysis-Pin-Yu Chen, Payel Das, Youssef Moueh, Soham Dan, Georgios Kollias, Subhajit Chaudhury und Tejaswini Pedapati. Die Arbeiten werden auf der Internationalen Konferenz über Lernrepräsentationen vorgestellt.

Finden der „Leitplanken“

Die Schulungsressourcen hinter LLMs umfassen quick immer Inhalte, die aus öffentlichen Räumen wie dem Web und anderen leicht verfügbaren Datensätzen gesammelt wurden. Daher sind Fluchwörter und Mobbing/unzählige Sprache eine Komponente, obwohl einige davon im Kontext literarischer Werke liegen. Daraus folgt, dass LLMs von Natur aus zum Erzeugen von gefährlichen und/oder voreingenommenen Inhalten produzieren können, die oft unangenehme Worte oder hasserfüllte Sprache enthält, selbst aus harmlosen Aufforderungen. Darüber hinaus wurde festgestellt, dass sie die Sprache lernen und verstärken können, die für viele Anwendungen und nachgeschaltete Aufgaben nicht bevorzugt oder sogar nachteilig ist, was zu Strategien zur Minderung oder Korrektur führt.

Es gibt viele Möglichkeiten, um eine faire und wertgemäße, robuste Sprachgenerierung zu erreichen. Einige Methoden verwenden die LLM -Umschulung mit einem kostspieligen Datensatz, der kostspielig ist, Zeit und kann die Leistung des LLM ändern. Andere verwenden dekodierende externe Belohnungsmodelle wie Stichproben oder Strahlsuche, deren Ausführung länger dauert und mehr Speicher benötigt. Im Fall von SASA, KO, Daniel und dem IBM-Forschungsteam entwickelten eine Methode, die die autoregressive Natur von LLMs nutzt, und die Verwendung einer decodierbasierten Strategie während der Inferenz des LLM steuert die Era nach und nach die Era-ein Token zu einem Zeitpunkt-weg von unvollziehbaren oder unerwünschten Ergebnissen und zu einer besseren Sprache.

Die Forschungsgruppe erreichte dies, indem er einen linearen Klassifikator erstellte, der auf dem gelernten Unterraum aus der Einbettung des LLM tätig ist. Wenn LLMs trainiert werden, werden Wörter mit ähnlichen Bedeutungen im Vektorraum und weiter von unterschiedlichen Wörtern entfernt. Die Forscher stellten die Hypothese auf, dass die Einbettung eines LLM daher auch Kontextinformationen erfassen würde, die zur Entgiftung verwendet werden könnten. Die Forscher verwendeten Datensätze, die Sätze einer Eingabeaufforderung (erste Hälfte eines Satzes oder Gedankens), eine Antwort (die Fertigstellung dieses Satzes) und eine durch Menschen aufeinander abgestimmte Annotation enthielten, wie giftige oder ungiftige, bevorzugte oder nicht bevorzugte Annotation, mit kontinuierlichen Etiketten von 0-1, was die zunehmende Toxizität bezeichnet. Anschließend wurde ein Bayes-optimaler Klassifizierer angewendet, um eine Linie zwischen den binären Unterteilen innerhalb der Satzeinbettungen zu lernen und bildlich zu zeichnen, die durch constructive Werte (ungiftiger Raum) und negativer Zahlen (toxischer Raum) dargestellt werden.

Das SASA-System bewirkt dann, indem sie die Stichprobenwahrscheinlichkeiten des neuesten potenziellen Tokens nach dem Wert des IT und der Entfernung der erzeugten Phrase zum Klassifizierer neu abweist, mit dem Ziel, nahe an der ursprünglichen Abtastverteilung zu bleiben.

Um zu veranschaulichen, dass ein Benutzer in einem Satz ein potenzielles Token Nr. 12 generiert, wird der LLM nach einem vernünftigen Wort über den vollständigen Wortschatz nachsehen, basierend auf den 11 vorhandenen Wörtern, und mit Prime-Ok, Prime-P, filtert und produziert es rund 10 Token, aus denen er auswählen kann. SASA bewertet dann jeden dieser Token im teilweise abgeschlossenen Satz für seine Nähe zum Klassifikator (dh den Wert von Token 1-11 plus jedes potenzielle Token 12). Token, die Sätze im positiven Raum produzieren, werden gefördert, während diejenigen im negativen Raum bestraft werden. Je weiter vom Klassifikator entfernt, desto stärker ist der Einfluss.

„Das Ziel ist es, den autoregressiven Stichprobenprozess zu ändern, indem die Wahrscheinlichkeit guter Token neu gewichtet wird. Wenn das nächste Token angesichts des Kontextes wahrscheinlich giftig ist, werden wir die Probenahmwahrscheinlichkeit für diejenigen reduzieren, die anfälligen Tokens-Token sind“, sagt KO. Die Forscher entschieden sich dafür, es so zu tun, „weil die Dinge, die wir sagen, ob es gutartig ist oder nicht, dem Kontext unterliegt.“

Die Toxizität für die Wertschreibung nach unten tampiert

Die Forscher bewerteten ihre Methode gegen mehrere Grundinterventionen mit drei LLMs mit zunehmender Größe. Alle waren Transformatoren und autoregressive basierte: GPT2-Massive, Lama2-7b und Lama 3.1-8B-Instruct mit 762 Millionen, 7 Milliarden bzw. 8 Milliarden Parametern. Für jede Eingabeaufforderung wurde die LLM beauftragt, den Satz/die Phrase 25 -mal zu vervollständigen, und PerspectiveApi erzielte sie von 0 auf 1, wobei mehr als 0,5 giftig waren. Das Workforce untersuchte zwei Metriken: den durchschnittlichen maximalen Toxizitätswert über die 25 Generationen für alle Eingabeaufforderungen und die toxische Geschwindigkeit, die die Wahrscheinlichkeit warfare, mindestens einen toxischen Satz über 25 Generationen zu erzeugen. Eine verringerte Flüssigkeit (und daher erhöhte Verwirrung) wurden ebenfalls analysiert. Die SASA wurde getestet, um die Datensätze mit RealtoxicityPrompts (RPTs), Fett- und Attaq zu vervollständigen, die natürlich vorkommende englische Satzaufforderungen enthielten.

Die Forscher erhöhten die Komplexität ihrer Versuche zur Entgiftung durch SASA, beginnend mit ungiftigen Aufforderungen aus dem RPT -Datensatz, die nach schädlichen Satzabschlüssen suchten. Dann eskalierten sie es zu anspruchsvolleren Eingabeaufforderungen von RPT, die eher zu den Ergebnissen produzierten, und auch die SASA auf das Anweisungsmodell, um zu beurteilen, ob ihre Technik unerwünschte OUPUS weiter reduzieren könnte. Sie verwendeten auch die Fett- und Attaq -Benchmarks, um die allgemeine Anwendbarkeit von SASA bei der Entgiftung zu untersuchen. Mit dem kühnen Datensatz suchten die Forscher in den Sprachgenerationen weiter nach geschlechtsspezifischer Verzerrung und versuchten, eine ausgewogene toxische Charge zwischen den Geschlechtern zu erreichen. Zuletzt betrachtete das Workforce Laufzeit, Speicherverbrauch und wie SASA mit der Wortfilterung kombiniert werden konnte, um eine gesunde und/oder hilfreiche Sprachgenerierung zu erreichen.

„Wenn wir darüber nachdenken, wie Menschen in der Welt denken und reagieren, sehen wir schlechte Dinge. Daher geht es nicht darum, dass das Sprachmodell nur die guten Dinge sehen kann. Es geht darum, das vollständige Spektrum zu verstehen – sowohl intestine als auch schlecht“, „sagt Ko,“ und die Aufrechterhaltung unserer Werte, wenn wir sprechen und handeln „.

Insgesamt erreichte SASA eine signifikante Reduktion der toxischen Spracherzeugung und erzielte RAD, eine modernste externe Belohnungsmodelltechnik. Es wurde jedoch allgemein beobachtet, dass eine stärkere Entgiftung mit einer Abnahme der Flüssigkeit einherging. Vor der Intervention erzeugten die LLMs toxische Reaktionen für weibliche markierte Aufforderungen als männlich. SASA warfare jedoch auch in der Lage, schädliche Reaktionen signifikant zu senken, was sie besser ausgleichte. In ähnlicher Weise hat die Wortfilterung auf der SASA die Toxizitätsniveaus deutlich senkt, aber es behinderte auch die Fähigkeit des LLM, kohärent zu reagieren.

Ein großer Aspekt dieser Arbeit ist, dass es sich um ein intestine definiertes, eingeschränktes Optimierungsproblem handelt, sagt KO, was bedeutet, dass das Gleichgewicht zwischen offener Sprache, die natürlich klingt, und der Notwendigkeit, unerwünschte Sprache zu reduzieren, erreicht und abgestimmt werden kann.

Darüber hinaus könnte SASA in Zukunft für mehrere Attribute intestine funktionieren: „Für Menschen haben wir mehrere menschliche Werte. Wir möchten keine giftigen Dinge sagen, aber wir möchten auch ehrlich, hilfsbereit und loyal sein. Wenn Sie ein Modell für all diese Werte fein abteilen würden, würde es mehr Berechnungsressourcen und natürlich zusätzliches Coaching erfordern.“ Aufgrund der leichten Artwork von SASA könnte es unter diesen Umständen leicht angewendet werden: „Wenn Sie mit mehreren Werten arbeiten möchten, prüft es einfach die Place der Era in mehreren Unterteilen. Es fügt nur die Rechenaufwand und die Parameter mit dem Rand hinzu, was zu einer positiveren, fairen und prinzipiellaneicheren Sprache führt.

Diese Arbeit wurde teilweise vom MIT-IBM Watson AI Lab und der Nationwide Science Basis unterstützt.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert