Transformatoren haben die Artwork und Weise verändert, wie künstliche Intelligenz funktioniert, insbesondere beim Verständnis von Sprache und Lernen aus Daten. Im Kern dieser Modelle sind Tensoren (Eine verallgemeinerte Artwork von mathematischen Matrizen, die die Verarbeitung von Informationen helfen). Wenn sich die Daten durch die verschiedenen Teile eines Transformators bewegt, unterliegen diese Tensoren unterschiedlichen Transformationen, die dem Modell helfen, Dinge wie Sätze oder Bilder zu verstehen. Wenn Sie lernen, wie Tensoren innerhalb von Transformatoren arbeiten, können Sie verstehen, wie die intelligenten KI -Systeme von heute tatsächlich funktionieren und denken.
Was dieser Artikel abdeckt und was es nicht tut
✅ In diesem Artikel geht es um:
- Der Tensorenfluss von Eingabe zu Ausgang innerhalb eines Transformatormodells.
- Gewährleistung der dimensionalen Kohärenz während des gesamten Rechenprozesses.
- Die Schritt-für-Schritt-Transformationen, die Tensoren in verschiedenen Transformatorschichten unterziehen.
❌ In diesem Artikel geht es nicht um:
- Eine allgemeine Einführung in Transformers oder tiefes Lernen.
- Detaillierte Architektur von Transformatormodellen.
- Trainingsprozess oder Hyper-Parameter-Abstimmung von Transformatoren.
Wie Tensoren innerhalb von Transformatoren wirken
Ein Transformator besteht aus zwei Hauptkomponenten:
- Encoder: Verarbeitet Eingabedaten und erfasst kontextbezogene Beziehungen, um sinnvolle Darstellungen zu erstellen.
- Decoder: Verwendet diese Darstellungen, um eine kohärente Ausgabe zu erzeugen und jedes Factor nacheinander vorherzusagen.
Tensoren sind die grundlegenden Datenstrukturen, die diese Komponenten durchlaufen und mehrere Transformationen erleiden, die eine dimensionale Kohärenz und den richtigen Informationsfluss gewährleisten.

Eingangsbettschicht
Vor dem Eingeben des Transformators werden Roheingangs -Token (Wörter, Unterwörter oder Zeichen) durch die in dichte Vektordarstellungen konvertiert Schicht einbetten. Diese Ebene fungiert als Suchtabelle, die jeden Tokenvektor ordnet und semantische Beziehungen zu anderen Wörtern aufnimmt.

Für eine Cost von fünf Sätzen mit jeweils eine Sequenzlänge von 12 Token und eine Einbettungsdimension von 768 lautet die Tensorform:
- Tensorform:
(batch_size, seq_len, embedding_dim) → (5, 12, 768)
Nach dem Einbettung, Positionscodierung wird hinzugefügt, damit sichergestellt wird, dass die Auftragsinformationen erhalten bleiben, ohne die Tensorform zu ändern.

Multi-Head-Aufmerksamkeitsmechanismus
Eine der kritischsten Komponenten des Transformators ist die MAHA-Mechanismus mit mehreren Kopf. Es arbeitet auf drei Matrizen, die von Eingabemaschinen abgeleitet wurden:
- Abfrage (q)
- Schlüssel (okay)
- Wert (v)
Diese Matrizen werden unter Verwendung von matrizen lernbaren Gewicht erzeugt:
- WQ, WK, WV von Kind
(embedding_dim, d_model)
(z.B,(768, 512)
). - Die resultierenden Q-, Okay-, V -Matrizen haben Abmessungen
(batch_size, seq_len, d_model)
.

Aufteilen von Q, Okay, V in mehrere Köpfe
Für eine effektive Parallelisierung und ein verbessertes Lernen spaltet MHA Q, Okay und V in mehrere Köpfe auf. Angenommen, wir haben 8 Aufmerksamkeitsköpfe:
- Jeder Kopf arbeitet auf einem Unterraum von
d_model / head_count
.

- Die umgeformten Tensorabmessungen sind
(batch_size, seq_len, head_count, d_model / head_count)
. - Beispiel:
(5, 12, 8, 64)
→ umgeordnet zu(5, 8, 12, 64)
Um sicherzustellen, dass jeder Kopf eine separate Sequenzscheibe erhält.

- So erhält jeder Kopf seinen Anteil an Qi, Ki, vi

Aufmerksamkeitsberechnung
Jeder Kopf berechnet die Aufmerksamkeit mit der Formel:

Sobald die Aufmerksamkeit für alle Köpfe berechnet wurde, werden die Ausgänge verkettet und durch eine lineare Transformation geleitet, wodurch die anfängliche Tensorform wiederhergestellt wird.


Restverbindung und Normalisierung
Nach dem Multi-Head-Aufmerksamkeitsmechanismus a Restverbindung wird hinzugefügt, gefolgt von Schichtnormalisierung:
- Restverbindung:
Output = Embedding Tensor + Multi-Head Consideration Output
- Normalisierung:
(Output − μ) / σ
Coaching stabilisieren - Tensorform bleibt übrig
(batch_size, seq_len, embedding_dim)

Feed-Ahead-Netzwerk (FFN)
Im Decoder, Maskierte Aufmerksamkeit mit mehreren Kopf stellt sicher, dass jedes Token nur an frühere Token teilnimmt und die Leckagen zukünftiger Informationen verhindert.

Dies wird unter Verwendung einer niedrigeren dreieckigen Kind erreicht (seq_len, seq_len)
mit -inf
Werte im oberen Dreieck. Das Anwenden dieser Maske stellt sicher, dass die Softmax -Funktion zukünftige Positionen aufnimmt.

Übereinstimmung in der Dekodierung
Da der Decoder den Eingangssatz nicht vollständig versteht, wird er verwendet Übereinstimmung Vorhersagen verfeinern. Hier:
- Der Decoder generiert Abfragen (QD) von seiner Eingabe (
(batch_size, target_seq_len, embedding_dim)
). - Der Encoderausgang dient als Schlüssel (Ke) und Werte (Ve).
- Der Decoder berechnet die Aufmerksamkeit zwischen Qd Und Keextrahieren relevanter Kontext aus der Ausgabe des Encoders.

Abschluss
Transformatoren verwenden Tensoren um ihnen zu helfen zu lernen und kluge Entscheidungen zu treffen. Wenn sich die Daten durch das Netzwerk bewegt, gehen diese Tensoren unterschiedliche Schritte durch-wie in Zahlen, die das Modell verstehen kann (einbetten), sich auf wichtige Teile (Aufmerksamkeit) konzentrieren, ausgewogen bleiben (Normalisierung) und durch Schichten weitergegeben werden, die Muster lernen (Feed-Ahead). Diese Änderungen halten die Daten die ganze Zeit in der richtigen Kind. Wenn wir verstehen, wie sich Tensoren bewegen und verändern, können wir eine bessere Vorstellung davon bekommen, wie KI -Modelle Arbeiten und wie sie eine menschliche Sprache verstehen und schaffen können.