Cross Consideration ist ein grundlegendes Werkzeug bei der Erstellung von KI-Modellen, die mehrere Datenformen gleichzeitig verstehen können. Denken Sie an Sprachmodelle, die Bilder verstehen können, wie sie in ChatGPt verwendet werden, oder an Modelle, die Movies basierend auf Textual content generieren, wie Sora.
Diese Zusammenfassung geht auf alle kritischen mathematischen Operationen innerhalb der Queraufmerksamkeit ein und ermöglicht es Ihnen, ihre inneren Abläufe auf einer grundlegenden Ebene zu verstehen.
Bei der Modellierung mit verschiedenen Datentypen wird Queraufmerksamkeit verwendet, wobei jeder Datentyp die Eingabe unterschiedlich formatieren kann. Für Daten in natürlicher Sprache würde man wahrscheinlich eine Wort-in-Vektor-Einbettung in Kombination mit einer Positionskodierung verwenden, um einen Vektor zu berechnen, der jedes Wort darstellt.
Für visuelle Daten könnte man das Bild durch einen Encoder leiten, der speziell dafür entwickelt wurde, das Bild in einer Vektordarstellung zusammenzufassen.