Wie Transformer denken: Der Informationsfluss, der Sprachmodelle zum Funktionieren bringt

Bild vom Herausgeber

# Einführung

Dank große Sprachmodelle (LLMs) verfügen wir heutzutage über beeindruckende, unglaublich nützliche Anwendungen wie Zwillinge, ChatGPTUnd Claudeum nur einige zu nennen. Allerdings wissen nur wenige Menschen, dass die zugrunde liegende Architektur hinter einem LLM als a bezeichnet wird Transformator. Diese Architektur ist sorgfältig darauf ausgelegt, auf eine ganz besondere und etwas besondere Weise zu „denken“ – additionally Daten zu verarbeiten, die die menschliche Sprache beschreiben. Sind Sie daran interessiert, ein umfassendes Verständnis darüber zu erlangen, was im Inneren dieser sogenannten Transformatoren passiert?

Dieser Artikel beschreibt in einem sanften, verständlichen und eher untechnischen Ton, wie Transformatormodelle, die hinter LLMs sitzen, Eingabeinformationen wie Benutzeraufforderungen analysieren und wie sie Wort für Wort (oder, etwas technischer gesagt, Token für Token) kohärenten, aussagekräftigen und relevanten Ausgabetext generieren.

# Erste Schritte: Sprache für Maschinen verständlich machen

Das erste Schlüsselkonzept, das es zu begreifen gilt, ist Folgendes KI-Modelle verstehen die menschliche Sprache nicht wirklich; Sie verstehen nur Zahlen und operieren mit ihnen, und Transformatoren hinter LLMs bilden da keine Ausnahme. Daher ist es notwendig, die menschliche Sprache – additionally den Textual content – in eine Kind umzuwandeln, die der Transformator vollständig verstehen kann, bevor er ihn tiefgreifend verarbeiten kann.

Anders ausgedrückt: Die ersten Schritte vor dem Eintritt in den Kern und die innersten Schichten des Transformators konzentrieren sich in erster Linie darauf, diesen Rohtext in eine numerische Darstellung umzuwandeln, die die wichtigsten Eigenschaften und Merkmale des Originaltexts unter der Haube beibehält. Sehen wir uns diese drei Schritte an.

Sprache für Maschinen verständlich machen (zum Vergrößern anklicken)

// Tokenisierung

Der Tokenizer ist der erste Akteur, der die Szene betritt. Er arbeitet mit dem Transformatormodell zusammen und ist dafür verantwortlich, den Rohtext in kleine Stücke, sogenannte Token, zu zerlegen. Abhängig vom verwendeten Tokenizer können diese Token in den meisten Fällen Wörtern entsprechen, manchmal können Token jedoch auch Teile von Wörtern oder Satzzeichen sein. Darüber hinaus verfügt jedes Token in einer Sprache über eine eindeutige numerische Kennung. Dies ist der Fall, wenn Textual content nicht mehr zu Textual content, sondern zu Zahlen wird: alles auf Token-Ebene, wie in diesem Beispiel gezeigt, in dem ein einfacher Tokenizer einen Textual content mit fünf Wörtern in fünf Token-Bezeichner umwandelt, eine professional Wort:

Tokenisierung von Textual content in Token-Identifikatoren

// Token-Einbettungen

Als nächstes wird jede Token-ID in einen ( d )-dimensionalen Vektor umgewandelt, der eine Liste von Zahlen der Größe ( d ) ist. Diese vollständige Darstellung eines Tokens als Einbettung ist wie eine Beschreibung der Gesamtbedeutung dieses Tokens, sei es ein Wort, ein Teil davon oder ein Satzzeichen. Der Zauber liegt darin, dass Token mit ähnlichen Bedeutungskonzepten verbunden sind Königin Und Kaiserinwerden ähnliche Einbettungsvektoren haben.

// Positionskodierung

Bisher enthielt eine Token-Einbettung Informationen in Kind einer Zahlensammlung, diese Informationen beziehen sich jedoch immer noch isoliert auf einen einzelnen Token. Bei einem „Stück Sprache“ wie einer Textsequenz ist es jedoch nicht nur wichtig, die darin enthaltenen Wörter oder Token zu kennen, sondern auch deren Place im Textual content, zu dem sie gehören. Bei der Positionskodierung handelt es sich um einen Prozess, der mithilfe mathematischer Funktionen in jedes Token einige zusätzliche Informationen über seine Place in der ursprünglichen Textsequenz einbettet.

# Die Transformation durch den Kern des Transformer-Modells

Nachdem nun die numerische Darstellung jedes Tokens Informationen über seine Place in der Textsequenz enthält, ist es an der Zeit, die erste Ebene des Hauptteils des Transformatormodells zu betreten. Der Transformator ist eine sehr tiefe Architektur mit vielen gestapelten Komponenten, die im gesamten System repliziert werden. Es gibt zwei Arten von Transformatorschichten – die Encoderschicht und die Decoderschicht –, aber der Einfachheit halber werden wir in diesem Artikel keine differenzierte Unterscheidung zwischen ihnen vornehmen. Beachten Sie zunächst, dass es in einem Transformator zwei Arten von Schichten gibt, auch wenn beide viele Gemeinsamkeiten haben.

Die Transformation durch den Kern des Transformatormodells (zum Vergrößern anklicken)

// Mehrköpfige Aufmerksamkeit

Dies ist der erste große Teilprozess, der innerhalb einer Transformatorschicht stattfindet, und möglicherweise das wirkungsvollste und markanteste Merkmal von Transformatormodellen im Vergleich zu anderen Arten von KI-Systemen. Die mehrköpfige Aufmerksamkeit ist ein Mechanismus, der es einem Token ermöglicht, die anderen Token in der Sequenz zu beobachten oder „auf sie zu achten“. Es sammelt und integriert nützliche Kontextinformationen in seine eigene Token-Darstellung, insbesondere sprachliche Aspekte wie grammatikalische Beziehungen, langfristige Abhängigkeiten zwischen Wörtern, die im Textual content nicht unbedingt nebeneinander liegen, oder semantische Ähnlichkeiten. Zusammenfassend lässt sich sagen, dass dank dieses Mechanismus verschiedene Aspekte der Relevanz und Beziehungen zwischen Teilen des Originaltextes erfolgreich erfasst werden. Nachdem eine Token-Darstellung diese Komponente durchlaufen hat, erhält sie am Ende eine reichhaltigere, kontextbewusstere Darstellung über sich selbst und den Textual content, zu dem sie gehört.

Einige Transformer-Architekturen, die für bestimmte Aufgaben wie die Übersetzung von Textual content von einer Sprache in eine andere entwickelt wurden, analysieren über diesen Mechanismus auch mögliche Abhängigkeiten zwischen Token und betrachten dabei sowohl den Eingabetext als auch den bisher generierten Ausgabetext (übersetzt), wie unten gezeigt:

Mehrköpfige Aufmerksamkeit bei Übersetzungstransformatoren

// Feed-Ahead-Subschicht für neuronale Netze

Vereinfacht ausgedrückt besteht die zweite gemeinsame Stufe innerhalb jeder replizierten Schicht des Transformators nach dem Durchlaufen der Aufmerksamkeit aus einer Reihe verketteter neuronaler Netzwerkschichten, die unsere angereicherten Token-Darstellungen weiter verarbeiten und dabei helfen, zusätzliche Muster zu erlernen. Dieser Prozess gleicht einer weiteren Schärfung dieser Darstellungen sowie der Identifizierung und Verstärkung relevanter Merkmale und Muster. Letztendlich sind diese Schichten der Mechanismus, mit dem nach und nach ein allgemeines, zunehmend abstraktes Verständnis des gesamten verarbeiteten Textes erlernt wird.

Der Prozess des Durchlaufens mehrköpfiger Aufmerksamkeits- und Feed-Ahead-Unterschichten wird in dieser Reihenfolge mehrmals wiederholt: so oft wie die Anzahl der replizierten Transformatorschichten, die wir haben.

// Endziel: Das nächste Wort vorhersagen

Nach mehrmaliger abwechselnder Wiederholung der beiden vorherigen Schritte hätten die symbolischen Darstellungen, die aus dem ursprünglichen Textual content stammten, es dem Modell ermöglichen sollen, ein sehr tiefes Verständnis zu erlangen und komplexe und subtile Zusammenhänge zu erkennen. An diesem Punkt erreichen wir die letzte Komponente des Transformatorstapels: eine spezielle Schicht, die die endgültige Darstellung in eine Wahrscheinlichkeit für jedes mögliche Token im Vokabular umwandelt. Das heißt, wir berechnen – basierend auf allen dabei gewonnenen Informationen – eine Wahrscheinlichkeit dafür, dass jedes Wort in der Zielsprache das nächste Wort ist, das das Transformatormodell (oder das LLM) ausgeben sollte. Das Modell wählt schließlich das Token oder Wort mit der höchsten Wahrscheinlichkeit als nächstes aus, das es als Teil der Ausgabe für den Endbenutzer generiert. Der gesamte Prozess wiederholt sich für jedes Wort, das als Teil der Modellantwort generiert werden soll.

# Zusammenfassung

Dieser Artikel bietet einen sanften und konzeptionellen Rundgang durch die Reise textbasierter Informationen, wenn sie durch die charakteristische Modellarchitektur hinter LLMs fließen: den Transformator. Nachdem Sie dies gelesen haben, haben Sie hoffentlich ein besseres Verständnis dafür gewonnen, was in Modellen wie denen hinter ChatGPT vor sich geht.

Iván Palomares Carrascosa ist ein führender Autor, Redner und Berater in den Bereichen KI, maschinelles Lernen, Deep Studying und LLMs. Er schult und leitet andere darin, KI in der realen Welt zu nutzen.

Wie Transformer denken: Der Informationsfluss, der Sprachmodelle zum Funktionieren bringt

# Einführung