Transformatoren haben die Artwork und Weise verändert, wie künstliche Intelligenz funktioniert, insbesondere beim Verständnis von Sprache und Lernen aus Daten. Im Kern dieser Modelle sind Tensoren (Eine verallgemeinerte Artwork von mathematischen Matrizen, die die Verarbeitung von Informationen helfen). Wenn sich die Daten durch die verschiedenen Teile eines Transformators bewegt, unterliegen diese Tensoren unterschiedlichen Transformationen, die dem Modell helfen, Dinge wie Sätze oder Bilder zu verstehen. Wenn Sie lernen, wie Tensoren innerhalb von Transformatoren arbeiten, können Sie verstehen, wie die intelligenten KI -Systeme von heute tatsächlich funktionieren und denken.

Was dieser Artikel abdeckt und was es nicht tut

In diesem Artikel geht es um:

  • Der Tensorenfluss von Eingabe zu Ausgang innerhalb eines Transformatormodells.
  • Gewährleistung der dimensionalen Kohärenz während des gesamten Rechenprozesses.
  • Die Schritt-für-Schritt-Transformationen, die Tensoren in verschiedenen Transformatorschichten unterziehen.

In diesem Artikel geht es nicht um:

  • Eine allgemeine Einführung in Transformers oder tiefes Lernen.
  • Detaillierte Architektur von Transformatormodellen.
  • Trainingsprozess oder Hyper-Parameter-Abstimmung von Transformatoren.

Wie Tensoren innerhalb von Transformatoren wirken

Ein Transformator besteht aus zwei Hauptkomponenten:

  • Encoder: Verarbeitet Eingabedaten und erfasst kontextbezogene Beziehungen, um sinnvolle Darstellungen zu erstellen.
  • Decoder: Verwendet diese Darstellungen, um eine kohärente Ausgabe zu erzeugen und jedes Factor nacheinander vorherzusagen.

Tensoren sind die grundlegenden Datenstrukturen, die diese Komponenten durchlaufen und mehrere Transformationen erleiden, die eine dimensionale Kohärenz und den richtigen Informationsfluss gewährleisten.

Bild aus Forschungsarbeit: Transformator Customary Erziktion

Eingangsbettschicht

Vor dem Eingeben des Transformators werden Roheingangs -Token (Wörter, Unterwörter oder Zeichen) durch die in dichte Vektordarstellungen konvertiert Schicht einbetten. Diese Ebene fungiert als Suchtabelle, die jeden Tokenvektor ordnet und semantische Beziehungen zu anderen Wörtern aufnimmt.

Bild des Autors: Tensoren, die durch die Einbettungsschicht gehen

Für eine Cost von fünf Sätzen mit jeweils eine Sequenzlänge von 12 Token und eine Einbettungsdimension von 768 lautet die Tensorform:

  • Tensorform: (batch_size, seq_len, embedding_dim) → (5, 12, 768)

Nach dem Einbettung, Positionscodierung wird hinzugefügt, damit sichergestellt wird, dass die Auftragsinformationen erhalten bleiben, ohne die Tensorform zu ändern.

Modifiziertes Bild aus Forschungsarbeit: State of affairs des Workflows

Multi-Head-Aufmerksamkeitsmechanismus

Eine der kritischsten Komponenten des Transformators ist die MAHA-Mechanismus mit mehreren Kopf. Es arbeitet auf drei Matrizen, die von Eingabemaschinen abgeleitet wurden:

  • Abfrage (q)
  • Schlüssel (okay)
  • Wert (v)

Diese Matrizen werden unter Verwendung von matrizen lernbaren Gewicht erzeugt:

  • WQ, WK, WV von Kind (embedding_dim, d_model) (z.B, (768, 512)).
  • Die resultierenden Q-, Okay-, V -Matrizen haben Abmessungen
    (batch_size, seq_len, d_model).
Bild vom Autor: Tabelle mit den Formen/Dimensionen von Einbettung, Q, Okay, V Tensoren

Aufteilen von Q, Okay, V in mehrere Köpfe

Für eine effektive Parallelisierung und ein verbessertes Lernen spaltet MHA Q, Okay und V in mehrere Köpfe auf. Angenommen, wir haben 8 Aufmerksamkeitsköpfe:

  • Jeder Kopf arbeitet auf einem Unterraum von d_model / head_count.
Bild des Autors: Multihead -Aufmerksamkeit
  • Die umgeformten Tensorabmessungen sind (batch_size, seq_len, head_count, d_model / head_count).
  • Beispiel: (5, 12, 8, 64) → umgeordnet zu (5, 8, 12, 64) Um sicherzustellen, dass jeder Kopf eine separate Sequenzscheibe erhält.
Bild des Autors: Umformung der Tensoren
  • So erhält jeder Kopf seinen Anteil an Qi, Ki, vi
Bild des Autors: Jeder Qi, Ki, VI an einen anderen Kopf gesendet

Aufmerksamkeitsberechnung

Jeder Kopf berechnet die Aufmerksamkeit mit der Formel:

Sobald die Aufmerksamkeit für alle Köpfe berechnet wurde, werden die Ausgänge verkettet und durch eine lineare Transformation geleitet, wodurch die anfängliche Tensorform wiederhergestellt wird.

Bild des Autors: Verkettung der Ausgabe aller Köpfe
Modifiziertes Bild aus Forschungsarbeit: State of affairs des Workflows

Restverbindung und Normalisierung

Nach dem Multi-Head-Aufmerksamkeitsmechanismus a Restverbindung wird hinzugefügt, gefolgt von Schichtnormalisierung:

  • Restverbindung: Output = Embedding Tensor + Multi-Head Consideration Output
  • Normalisierung: (Output − μ) / σ Coaching stabilisieren
  • Tensorform bleibt übrig (batch_size, seq_len, embedding_dim)
Bild vom Autor: Restverbindung

Feed-Ahead-Netzwerk (FFN)

Im Decoder, Maskierte Aufmerksamkeit mit mehreren Kopf stellt sicher, dass jedes Token nur an frühere Token teilnimmt und die Leckagen zukünftiger Informationen verhindert.

Modifiziertes Bild aus Forschungsarbeit: Maskierte Multi -Head -Aufmerksamkeit

Dies wird unter Verwendung einer niedrigeren dreieckigen Kind erreicht (seq_len, seq_len) mit -inf Werte im oberen Dreieck. Das Anwenden dieser Maske stellt sicher, dass die Softmax -Funktion zukünftige Positionen aufnimmt.

Bild vom Autor: Masks -Matrix

Übereinstimmung in der Dekodierung

Da der Decoder den Eingangssatz nicht vollständig versteht, wird er verwendet Übereinstimmung Vorhersagen verfeinern. Hier:

  • Der Decoder generiert Abfragen (QD) von seiner Eingabe ((batch_size, target_seq_len, embedding_dim)).
  • Der Encoderausgang dient als Schlüssel (Ke) und Werte (Ve).
  • Der Decoder berechnet die Aufmerksamkeit zwischen Qd Und Keextrahieren relevanter Kontext aus der Ausgabe des Encoders.
Modifiziertes Bild aus dem Forschungsarbeit: Cross Head Achtung

Abschluss

Transformatoren verwenden Tensoren um ihnen zu helfen zu lernen und kluge Entscheidungen zu treffen. Wenn sich die Daten durch das Netzwerk bewegt, gehen diese Tensoren unterschiedliche Schritte durch-wie in Zahlen, die das Modell verstehen kann (einbetten), sich auf wichtige Teile (Aufmerksamkeit) konzentrieren, ausgewogen bleiben (Normalisierung) und durch Schichten weitergegeben werden, die Muster lernen (Feed-Ahead). Diese Änderungen halten die Daten die ganze Zeit in der richtigen Kind. Wenn wir verstehen, wie sich Tensoren bewegen und verändern, können wir eine bessere Vorstellung davon bekommen, wie KI -Modelle Arbeiten und wie sie eine menschliche Sprache verstehen und schaffen können.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert