
Die meisten Sprachen nutzen Wortposition und Satzstruktur, um Bedeutung zu extrahieren. Beispielsweise ist „Die Katze saß auf der Kiste“ nicht dasselbe wie „Die Kiste stand auf der Katze.“ Im Laufe eines langen Textes, etwa eines Finanzdokuments oder eines Romans, entwickelt sich die Syntax dieser Wörter wahrscheinlich weiter.
Ebenso könnte eine Particular person Variablen in einem Codeabschnitt verfolgen oder Anweisungen befolgen, die bedingte Aktionen beinhalten. Dies sind Beispiele für Zustandsänderungen und sequentielles Denken, bei denen wir erwarten, dass hochmoderne Systeme der künstlichen Intelligenz hervorragende Leistungen erbringen. Der bestehende, hochmoderne Aufmerksamkeitsmechanismus innerhalb von Transformatoren – die primäre Architektur, die in großen Sprachmodellen (LLMs) zur Bestimmung der Bedeutung von Wörtern verwendet wird – weist jedoch theoretische und empirische Einschränkungen auf, wenn es um solche Fähigkeiten geht.
Ein Aufmerksamkeitsmechanismus ermöglicht es einem LLM, auf frühere Teile einer Abfrage oder eines Dokuments zurückzublicken und anhand seines Trainings zu bestimmen, welche Particulars und Wörter am wichtigsten sind; Dieser Mechanismus allein versteht jedoch die Wortreihenfolge nicht. Es „sieht“ alle eingegebenen Wörter, auch Token genannt, gleichzeitig und verarbeitet sie in der Reihenfolge, in der sie angezeigt werden. Daher haben Forscher Techniken zur Kodierung von Positionsinformationen entwickelt. Dies ist von entscheidender Bedeutung für stark strukturierte Domänen wie die Sprache. Die vorherrschende Methode zur Positionskodierung, die so genannte Rotary Place Encoding (RoPE), berücksichtigt jedoch nur den relativen Abstand zwischen Token in einer Sequenz und ist unabhängig von den Eingabedaten. Das bedeutet, dass beispielsweise Wörter, die vier Positionen voneinander entfernt sind, wie „Katze“ und „Field“ im obigen Beispiel, alle dieselbe feste mathematische Drehung erhalten, die für diesen relativen Abstand spezifisch ist.
Nun hat eine vom MIT und dem MIT-IBM Watson AI Lab geleitete Forschung eine Codierungstechnik namens „PaTH Consideration“ hervorgebracht, die Positionsinformationen adaptiv und kontextbewusst macht und nicht statisch, wie bei RoPE.
„Transformatoren ermöglichen eine genaue und skalierbare Modellierung vieler Bereiche, weisen jedoch diese Einschränkungen gegenüber der Zustandsverfolgung auf, einer Klasse von Phänomenen, von denen angenommen wird, dass sie den wichtigen Fähigkeiten zugrunde liegen, die wir in unseren KI-Systemen wünschen. Die wichtige Frage lautet additionally: Wie können wir die Skalierbarkeit und Effizienz von Transformatoren aufrechterhalten und gleichzeitig die Zustandsverfolgung ermöglichen?“ sagt der leitende Autor des Papiers, Yoon Kim, außerordentlicher Professor am Division of Electrical Engineering and Laptop Science (EECS), Mitglied des Laptop Science and Synthetic Intelligence Laboratory (CSAIL) und Forscher am MIT-IBM Watson AI Lab.
Ein neues Papier zu dieser Arbeit wurde Anfang dieses Monats auf der Convention on Neural Info Processing Methods (NeurIPS) vorgestellt. Zu Kims Co-Autoren gehören der Hauptautor Songlin Yang, ein EECS-Doktorand und ehemaliger Praktikant des MIT-IBM Watson AI Lab Summer season Program; Kaiyue Wen von der Stanford College; Liliang Ren von Microsoft; und Yikang Shen, Shawn Tan, Mayank Mishra und Rameswar Panda von IBM Analysis und dem MIT-IBM Watson AI Lab.
Weg zum Verständnis
Anstatt jedem Wort eine feste Rotation basierend auf dem relativen Abstand zwischen Token zuzuweisen, wie es RoPE tut, ist PaTH Consideration flexibel und behandelt die dazwischen liegenden Wörter als einen Pfad, der aus kleinen, datenabhängigen Transformationen besteht. Jede Transformation, die auf einer mathematischen Operation namens Householder-Reflexion basiert, wirkt wie ein kleiner Spiegel, der sich abhängig vom Inhalt jedes übergebenen Tokens anpasst. Jeder Schritt in einer Sequenz kann Einfluss darauf haben, wie das Modell Informationen später interpretiert. Durch den kumulativen Effekt kann das System modellieren, wie sich die Bedeutung entlang des Pfads zwischen Wörtern ändert, und nicht nur, wie weit sie voneinander entfernt sind. Dieser Ansatz ermöglicht es Transformatoren, zu verfolgen, wie sich Entitäten und Beziehungen im Laufe der Zeit ändern, und vermittelt so ein Gefühl des „Positionsgedächtnisses“. Stellen Sie sich das so vor, als würden Sie einen Weg gehen, während Sie Ihre Umgebung und deren Auswirkungen auf Sie erleben. Darüber hinaus entwickelte das Crew auch einen hardwareeffizienten Algorithmus zur effizienteren Berechnung der Aufmerksamkeitswerte zwischen jedem Token-Paar, sodass die kumulative mathematische Transformation von PaTH Consideration komprimiert und in kleinere Berechnungen zerlegt wird, sodass sie mit der schnellen Verarbeitung auf GPUs kompatibel ist.
Anschließend untersuchten die MIT-IBM-Forscher die Leistung von PaTH Consideration bei synthetischen und realen Aufgaben, einschließlich Argumentation, Langkontext-Benchmarks und vollständigem LLM-Coaching, um zu sehen, ob es die Fähigkeit eines Modells, Informationen im Laufe der Zeit zu verfolgen, verbessert. Das Crew testete seine Fähigkeit, dem letzten „Schreib“-Befehl trotz vieler ablenkender Schritte und mehrstufiger Erinnerungstests zu folgen, Aufgaben, die für Customary-Positionskodierungsmethoden wie RoPE schwierig sind. Die Forscher trainierten auch mittelgroße LLMs und verglichen sie mit anderen Methoden. PaTH Consideration verbesserte die Ratlosigkeit und übertraf andere Methoden bei Argumentations-Benchmarks, auf die es nicht trainiert wurde. Sie bewerteten auch den Abruf, die Argumentation und die Stabilität bei Eingaben von Zehntausenden von Token. PaTH Consideration hat sich durchweg als inhaltsbewusst erwiesen.
„Wir haben festgestellt, dass unser neuer Ansatz sowohl bei Diagnoseaufgaben, die darauf abzielen, die Grenzen von Transformatoren zu testen, als auch bei Sprachmodellierungsaufgaben in der realen Welt in der Lage conflict, bestehende Aufmerksamkeitsmechanismen zu übertreffen und gleichzeitig ihre Effizienz beizubehalten“, sagt Kim. Außerdem: „Ich wäre gespannt, ob diese Arten von datenabhängigen Positionskodierungen wie PATH die Leistung von Transformatoren in strukturierten Bereichen wie der Biologie, bei der (Analyse) von Proteinen oder DNA verbessern.“
Größer und effizienter denken
Anschließend untersuchten die Forscher, wie sich der PaTH-Aufmerksamkeitsmechanismus verhalten würde, wenn er die menschliche Kognition ähnlicher nachahmen würde, bei der wir alte oder weniger relevante Informationen bei der Entscheidungsfindung ignorieren. Dazu kombinierten sie PaTH Consideration mit einem anderen Positionskodierungsschema namens Forgetting Transformer (FoX), das es Modellen ermöglicht, selektiv zu „vergessen“. Das resultierende PaTH-FoX-System bietet eine Möglichkeit, Informationen auf datenabhängige Weise zu gewichten und so starke Ergebnisse in den Bereichen Argumentation, Langkontextverständnis und Sprachmodellierungs-Benchmarks zu erzielen. Auf diese Weise erweitert PaTH Consideration die Ausdruckskraft von Transformatorarchitekturen.
Kim sagt, Forschung wie diese sei Teil einer umfassenderen Anstrengung, das „nächste große Ding“ in der KI zu entwickeln. Er erklärt, dass ein wesentlicher Treiber sowohl der Deep-Studying- als auch der generativen KI-Revolution die Schaffung von „allgemeinen Bausteinen, die auf weite Bereiche angewendet werden können“, wie etwa „Faltungsschichten, RNN-Schichten (Recurrent Neural Community)“ und neuerdings auch Transformatoren, sei. Mit Blick auf die Zukunft stellt Kim fest, dass Überlegungen wie Genauigkeit, Ausdruckskraft, Flexibilität und {Hardware}-Skalierbarkeit von entscheidender Bedeutung waren und sein werden. Wie er es ausdrückt, „besteht das Kernanliegen der modernen Architekturforschung darin, diese neuen Grundelemente zu entwickeln, die die Ausdruckskraft beibehalten oder verbessern und gleichzeitig skalierbar sind.“
Diese Arbeit wurde teilweise vom MIT-IBM Watson AI Lab und dem AI2050-Programm bei Schmidt Sciences unterstützt.
