
Mittlerweile haben ChatGPT, Claude und andere große Sprachmodelle so viel menschliches Wissen angesammelt, dass sie weit von einfachen Antwortgeneratoren entfernt sind; Sie können auch abstrakte Konzepte ausdrücken, etwa bestimmte Töne, Persönlichkeiten, Vorurteile und Stimmungen. Allerdings ist anhand des darin enthaltenen Wissens zunächst einmal nicht klar, wie diese Modelle abstrakte Konzepte darstellen.
Jetzt hat ein Workforce des MIT und der College of California San Diego eine Methode entwickelt, um zu testen, ob ein großes Sprachmodell (LLM) versteckte Vorurteile, Persönlichkeiten, Stimmungen oder andere abstrakte Konzepte enthält. Ihre Methode kann sich auf Verbindungen innerhalb eines Modells konzentrieren, die für ein interessierendes Konzept kodieren. Darüber hinaus kann die Methode diese Verbindungen dann manipulieren oder „steuern“, um das Konzept in jeder Antwort, zu der ein Modell aufgefordert wird, zu stärken oder zu schwächen.
Das Workforce bewies, dass seine Methode schnell mehr als 500 allgemeine Konzepte in einigen der größten heute verwendeten LLMs ausfindig machen und steuern kann. Die Forscher könnten sich beispielsweise auf die Darstellungen eines Modells für Persönlichkeiten wie „Social Influencer“ und „Verschwörungstheoretiker“ sowie Haltungen wie „Angst vor der Ehe“ und „Boston-Fan“ konzentrieren. Sie könnten diese Darstellungen dann optimieren, um die Konzepte in allen Antworten, die ein Modell generiert, zu verbessern oder zu minimieren.
Im Fall des „Verschwörungstheoretiker“-Konzepts gelang es dem Workforce, eine Darstellung dieses Konzepts in einem der größten heute verfügbaren Imaginative and prescient-Sprachmodelle zu identifizieren. Als sie die Darstellung verbesserten und das Modell dann dazu aufforderten, die Ursprünge des berühmten „Blue Marble“-Bildes der Erde von Apollo 17 zu erklären, generierte das Modell eine Antwort mit dem Ton und der Perspektive eines Verschwörungstheoretikers.
Das Workforce erkennt an, dass die Extraktion bestimmter Konzepte Risiken birgt, die es auch verdeutlicht (und vor denen es warnt). Insgesamt sehen sie den neuen Ansatz jedoch als eine Möglichkeit, versteckte Konzepte und potenzielle Schwachstellen in LLMs aufzudecken, die dann nach oben oder unten gedreht werden könnten, um die Sicherheit eines Modells zu verbessern oder seine Leistung zu steigern.
„Was das wirklich über LLMs aussagt, ist, dass sie diese Konzepte in sich tragen, sie aber nicht alle aktiv dargelegt werden“, sagt Adityanarayanan „Adit“ Radhakrishnan, Assistenzprofessor für Mathematik am MIT. „Mit unserer Methode gibt es Möglichkeiten, diese verschiedenen Konzepte zu extrahieren und sie auf eine Weise zu aktivieren, auf die Sie durch Eingabeaufforderungen keine Antworten finden können.“
Ihre Ergebnisse veröffentlichte das Workforce heute in einer Studie erscheint im Tagebuch Wissenschaft. Zu den Co-Autoren der Studie gehören Radhakrishnan, Daniel Beaglehole und Mikhail Belkin von der UC San Diego sowie Enric Boix-Adserà von der College of Pennsylvania.
Ein Fisch in einer Blackbox
Da die Nutzung von ChatGPT von OpenAI, Gemini von Google, Claude von Anthropic und anderen Assistenten der künstlichen Intelligenz explosionsartig zugenommen hat, versuchen Wissenschaftler zu verstehen, wie Modelle bestimmte abstrakte Konzepte wie „Halluzination“ und „Täuschung“ darstellen. Im Kontext eines LLM ist eine Halluzination eine Reaktion, die falsch ist oder irreführende Informationen enthält, die das Modell „halluziniert“ oder fälschlicherweise als Tatsache konstruiert hat.
Um herauszufinden, ob ein Konzept wie „Halluzination“ in einem LLM kodiert ist, haben Wissenschaftler häufig den Ansatz des „unüberwachten Lernens“ gewählt – eine Artwork maschinelles Lernen, bei dem Algorithmen unbeschriftete Darstellungen weitgehend durchforsten, um Muster zu finden, die sich auf ein Konzept wie „Halluzination“ beziehen könnten. Aber für Radhakrishnan kann ein solcher Ansatz zu weit gefasst und rechenintensiv sein.
„Es ist, als würde man mit einem großen Netz fischen und versuchen, eine Fischart zu fangen. Man wird eine Menge Fische bekommen, die man durchsuchen muss, um den richtigen zu finden“, sagt er. „Stattdessen fangen wir mit Ködern für die richtigen Fischarten an.“
Zuvor hatten er und seine Kollegen die Anfänge eines gezielteren Ansatzes mit einem prädiktiven Modellierungsalgorithmus entwickelt, der als rekursive Merkmalsmaschine (RFM) bekannt ist. Ein RFM soll Merkmale oder Muster in Daten direkt identifizieren, indem es einen mathematischen Mechanismus nutzt, den neuronale Netze – eine breite Kategorie von KI-Modellen, zu denen auch LLMs gehören – implizit zum Erlernen von Merkmalen nutzen.
Da es sich bei dem Algorithmus um einen effektiven und effizienten Ansatz zur Erfassung von Merkmalen im Allgemeinen handelt, fragte sich das Workforce, ob es ihn nutzen könnte, um Darstellungen von Konzepten in LLMs auszurotten, die bei weitem die am weitesten verbreitete und vielleicht am wenigsten verstandene Artwork neuronaler Netzwerke sind.
„Wir wollten unsere Characteristic-Studying-Algorithmen auf LLMs anwenden, um gezielt Darstellungen von Konzepten in diesen großen und komplexen Modellen zu entdecken“, sagt Radhakrishnan.
Konvergenz zu einem Konzept
Der neue Ansatz des Groups identifiziert jedes interessante Konzept innerhalb eines LLM und „steuert“ oder leitet die Reaktion eines Modells auf der Grundlage dieses Konzepts. Die Forscher suchten nach 512 Konzepten innerhalb von fünf Klassen: Ängste (z. B. vor der Ehe, vor Insekten und sogar vor Knöpfen); Experten (Social Influencer, Mediävist); Stimmungen (prahlerisch, distanziert amüsiert); eine Präferenz für Standorte (Boston, Kuala Lumpur); und Personas (Ada Lovelace, Neil deGrasse Tyson).
Anschließend suchten die Forscher nach Darstellungen jedes Konzepts in mehreren der heutigen großen Sprach- und Visionsmodelle. Dazu trainierten sie RFMs, numerische Muster in einem LLM zu erkennen, die ein bestimmtes Konzept von Interesse darstellen könnten.
Ein Standardmodell für große Sprachen ist im Großen und Ganzen a neuronales Netzwerk Dazu ist eine Eingabeaufforderung in natürlicher Sprache erforderlich, z. B. „Warum ist der Himmel blau?“ und unterteilt die Eingabeaufforderung in einzelne Wörter, von denen jedes mathematisch als Liste oder Vektor von Zahlen kodiert ist. Das Modell führt diese Vektoren durch eine Reihe von Rechenschichten und erstellt Matrizen mit vielen Zahlen, die in jeder Schicht verwendet werden, um andere Wörter zu identifizieren, die am wahrscheinlichsten zur Beantwortung der ursprünglichen Eingabeaufforderung verwendet werden. Schließlich konvergieren die Schichten zu einer Reihe von Zahlen, die in Type einer natürlichen Sprachantwort wieder in Textual content dekodiert werden.
Der Ansatz des Groups trainiert RFMs darin, numerische Muster in einem LLM zu erkennen, die mit einem bestimmten Konzept verbunden sein könnten. Um beispielsweise zu sehen, ob ein LLM eine Darstellung eines „Verschwörungstheoretikers“ enthält, würden die Forscher zunächst den Algorithmus trainieren, um Muster zwischen LLM-Darstellungen von 100 Aufforderungen zu erkennen, die eindeutig mit Verschwörungen in Zusammenhang stehen, und 100 anderen Aufforderungen, bei denen dies nicht der Fall ist. Auf diese Weise würde der Algorithmus Muster lernen, die mit dem verschwörungstheoretischen Konzept verbunden sind. Anschließend können die Forscher die Aktivität des verschwörungstheoretischen Konzepts mathematisch modulieren, indem sie LLM-Darstellungen mit diesen identifizierten Mustern stören.
Die Methode kann angewendet werden, um in einem LLM nach beliebigen allgemeinen Konzepten zu suchen und diese zu manipulieren. Unter vielen Beispielen identifizierten die Forscher Darstellungen und manipulierten einen LLM, um Antworten im Ton und in der Perspektive eines „Verschwörungstheoretikers“ zu geben. Sie identifizierten und erweiterten auch das Konzept der „Anti-Verweigerung“ und zeigten, dass ein Modell normalerweise so programmiert wäre, dass es bestimmte Aufforderungen ablehnte, stattdessen aber antwortete und beispielsweise Anweisungen gab, wie man eine Financial institution ausraubt.
Laut Radhakrishnan kann der Ansatz genutzt werden, um Schwachstellen in LLMs schnell zu finden und zu minimieren. Es kann auch verwendet werden, um bestimmte Eigenschaften, Persönlichkeiten, Stimmungen oder Vorlieben hervorzuheben, beispielsweise durch die Betonung des Konzepts der „Kürze“ oder „Begründung“ in jeder Antwort, die ein LLM generiert. Das Workforce hat den zugrunde liegenden Code der Methode öffentlich zugänglich gemacht.
„LLMs enthalten eindeutig viele dieser abstrakten Konzepte in irgendeiner Darstellung“, sagt Radhakrishnan. „Es gibt Möglichkeiten, wie wir, wenn wir diese Darstellungen intestine genug verstehen, hochspezialisierte LLMs erstellen können, die zwar sicher zu verwenden, aber bei bestimmten Aufgaben wirklich effektiv sind.“
Diese Arbeit wurde teilweise von der Nationwide Science Basis, der Simons Basis, dem TILOS-Institut und dem US Workplace of Naval Analysis unterstützt.
