Deep Studying und das Gehirn

Einblicke in multimodale Transformatoren aus der Neurowissenschaft

Vom Autor mit Dall-E 3 erstelltes Bild.

Wie lassen sich neuere multimodale Transformer-Netzwerke wie CLIP (Radford et al. 2021) und LLaVA (Liu et al. 2023) mit dem Gehirn vergleichen? Gibt es Ähnlichkeiten zwischen der Aufmerksamkeit in diesen Netzwerken und dem Gehirn? In diesem Artikel betrachte ich diese Transformer-Architekturen mit Blick auf die Ähnlichkeiten und Unterschiede zum Säugetiergehirn.

Was mir auffiel, conflict, dass Imaginative and prescient Transformers, CLIP und LLaVA eine Verarbeitungsart durchführen, die der präattentiven visuellen Verarbeitung im Gehirn analog ist. Diese Verarbeitung erfolgt in den anfänglichen Feedforward-visuellen Reaktionen auf einen Reiz vor der Wiederholung. Obwohl mit Feedforward viel erreicht werden kann, haben Studien gezeigt, dass die Feedforward-pre-attentive Verarbeitung im Gehirn Schwierigkeiten hat mit:

  1. Unterscheiden der Identität oder der Eigenschaften ähnlicher Objekttypen, insbesondere wenn die Objekte nahe beieinander oder unordentlich liegen oder wenn die Objekte unnatürlich oder künstlich sind (VanRullen 2007).
  2. Komplexere Aufgaben wie Zähl-, Labyrinth- oder Kurvenverfolgungsaufgaben.
  3. Wahrnehmung von Objekten, die schwieriger zu erkennen sind, beispielsweise wenn die Grenzen der Objekte schwer zu erkennen sind.

Im Gegensatz zur Feedforward-Verarbeitung fällt beim Gehirn insbesondere die Vielfalt der Interaktionen der Bereiche auf, auf die ich im nächsten Abschnitt näher eingehen werde.

In den meisten aktuellen Deep-Studying-Architekturen wird die Aktivität nur in eine Richtung weitergeleitet. So kann beispielsweise ein Bild als Eingabe in ein Netzwerk eingegeben und dann von Schicht zu Schicht weitergeleitet werden, bis eine Klassifizierung als Ausgabe erreicht wird.

Abbildung 1: Ein vereinfachtes Diagramm, das einige der Feedforward- und Suggestions-Verbindungen im Makakenhirn zeigt. Die früheren (oder niedrigeren) Bereiche sind weißer, während die späteren (oder höheren) Bereiche blauer sind. Bild vom Autor.

Das Gehirn ist viel interessanter als diese Feedforward-Modelle. Im visuellen System breitet sich ein Reiz zunächst in einer Feedforward-Manier von den unteren zu den oberen visuellen Bereichen aus, und dann üben die oberen Bereiche Einfluss auf die unteren Bereiche aus, wie in Abbildung 1 dargestellt.

Ein Teil dieses Feedbacks ist die bewusste Prime-down-Aufmerksamkeit, die es uns ermöglicht, Objekten und Merkmalen von Interesse mehr Ressourcen zuzuweisen und Reize zu unterscheiden, die entweder komplex oder mehrdeutig sind. Ein anderer Teil dieses Feedbacks erfolgt automatisch und ermöglicht es höherstufigen Bereichen, die niedrigerstufigen Bereiche mit Informationen zu versorgen, die nur durch Feedforward-Methoden nicht bekannt wären.

Man geht davon aus, dass bewusste Prime-down-Aufmerksamkeit das Bewusstsein für visuelle Reize unterstützt. Ohne bewussten Zugriff auf Bereiche auf niedrigerer Ebene, die Grenzen und Kanten kodieren, hätten wir keine so räumlich präzise Wahrnehmung von Grenzen. Aufgaben wie das mentale Nachzeichnen einer Kurve oder das Lösen eines Labyrinths wären unmöglich.

Ein Beispiel für automatisches unbewusstes Suggestions ist die Kodierung der Grenzzugehörigkeit, die bei etwa der Hälfte der orientierungsselektiven Neuronen im visuellen Bereich V2 zu beobachten ist (Zhou et al. 2000, Williford und von der Heydt 2013). Diese Neuronen kodieren lokale Informationen in etwa 40 ms und integrieren bereits 10 ms nach dieser ersten Reaktion den globalen Kontext, um Verdeckungen aufzulösen – sie behalten die Data darüber, welche Objekte Grenzen bilden, indem sie ihre Hintergründe verdecken.

Ein weiteres Beispiel für dieses unbewusste Suggestions wurde von Poort et al. (2012) anhand von Bildern wie in Abbildung 2 gezeigt. Im frühen visuellen Kortex V1 des Makaken neigen Neuronen dazu, zunächst (innerhalb von 50–75 ms nach der Reizdarbietung) nur die lokalen Merkmale innerhalb ihrer rezeptiven Felder zu kodieren (z. B. grünes Quadrat). Nach etwa 75 ms erhalten sie jedoch Suggestions aus den höherstufigen Bereichen und neigen dazu, stärker zu reagieren, wenn diese Textur zu einer Figur gehört, wie diese texturdefinierte Figur oben. Dies geschieht sogar, wenn die Aufmerksamkeit von der Figur abgelenkt wird. Wenn der Affe jedoch auf die Figur achtet, reagieren die Neuronen im Durchschnitt sogar noch stärker.

Abbildung 2: Nur durch die Textur definierte Formen wie die oben gezeigten können in einer reinen „Feedforward“-Weise schwer zu erkennen sein. Die Interaktion zwischen Bereichen auf niedrigerem und höherem Niveau ermöglicht es uns, solche schwierigen Formen wahrzunehmen (Poort et al. 2012). Bild vom Autor.

Diese bidirektionale Interaktion kann man sich so vorstellen, dass jedes Neuron ständig alle verfügbaren prädiktiven Signale gierig nutzt. Sogar Bereiche auf höherer Ebene können prädiktiv sein, insbesondere wenn visuelle Grenzen nicht mit signifikanten Kontrastkanten erster Ordnung übereinstimmen.

Angesichts all der Diskussionen über Aufmerksamkeit bei der Einführung von Transformatoren (Vaswani et al. 2017) und der Möglichkeit, Sätze Wort für Wort zu generieren, könnte man zu der Annahme verleitet werden, dass Transformatoren rekurrent sind. Allerdings werden zwischen den Schritten des Transformators keine internen Zustände beibehalten, sondern nur die vorherige Ausgabe wird als Eingabe bereitgestellt. Die Rekurrenz ist additionally begrenzt und weist nicht die im Gehirn allgegenwärtige Bidirektionalität auf. Transformatoren verfügen über mehrköpfige Aufmerksamkeit, was so ist, als ob man sich auf eine feste Anzahl von Dingen gleichzeitig konzentrieren könnte (8 im Originalartikel). Daher können Bildtransformatoren mit einigen Modifikationen als analog zur voraufmerksamen Feedforward-Verarbeitung angesehen werden.

Abbildung 3: CLIP trainiert einen Bild- und Textencoder mit Bildunterschriftenpaare. Ich₁ und T₁ sind die Kodierungen von Bild 1 und der dazugehörigen Bildunterschrift. Ein kontrastiver Lernverlust wird verwendet, um die ICHᵢ und Tj ähnlicher, wenn ich=J und noch unähnlicher, wenn ichJ. Gewichte werden von Grund auf trainiert. Abbildung reproduziert mit Genehmigung von Radford et al. (2021).

Radford und Kollegen von OpenAI stellten CLIP in ihrem 2021 erschienenen Paper „Studying Transferable Visible Fashions from Pure Language Supervision“ vor. Die Idee hinter CLIP ist einfach und wird in Abbildung 3 dargestellt. Es nimmt eine Reihe von Bild- und Bildunterschriftenpaaren aus dem Web und speist das Bild in einen Bildencoder und den Textual content in einen Textencoder ein. Anschließend verwendet es einen Verlust, der die Kodierung des Bildes und die Kodierung des Textes näher zusammenbringt, wenn sie sich im selben Paar befinden, andernfalls vergrößert der Verlust den Abstand der Kodierungen. Das ist es, was CLIP Ihnen bietet: die Möglichkeit, die Ähnlichkeit zwischen Textual content und Bildern zu vergleichen. Dadurch kann es für die Zero-Shot-Klassifizierung verwendet werden, wie in Abbildung 4 dargestellt. CLIP selbst generiert keine Textbeschreibungen aus Bildern.

Der Bild- und der Textencoder sind unabhängig voneinander, d. h. es gibt keine Möglichkeit für eine aufgabengesteuerte Modulation, die Bildcodierung zu beeinflussen. Das heißt, der Bildencoder muss alles codieren, was für die Aufgabe möglicherweise related sein könnte. Normalerweise ist die Auflösung des Eingabebildes gering, was dazu beiträgt, eine Explosion der Rechen- und Speicheranforderungen zu verhindern.

Abbildung 4: CLIP kann für die Zero-Shot-Klassifizierung verwendet werden. Für jede der N Klassen wird Textual content erstellt, der dann in Token kodiert wird T1 …TN. Anschließend wird das Bild kodiert und die Ähnlichkeit mit den generierten Textkodierungen gemessen. Die ähnlichste Textkodierung ist die gewählte Klasse. Abbildung mit freundlicher Genehmigung von Radford et al. (2021).
Abbildung 5: LLaVA-Architektur. Xgegen: Bild, Xq: Anweisung/Frage, Hgegen: Bildtoken, Hq: Anweisungstoken, Xa: Antwort, jeweils ein Token generiert. Bild vom Autor, basierend auf Abbildung 1 von Liu et al. (2023).

Massive Language and Imaginative and prescient Assistant (LLaVA) (Liu et al. 2023) ist eine große Sprach- und Bildarchitektur, die CLIP erweitert und darauf aufbaut, um die Fähigkeit hinzuzufügen, Bilder zu beschreiben und Fragen dazu zu beantworten. Diese Artwork von Architektur interessiert mich, weil sie Aufgaben wie die in den Neurowissenschaften und der Psychologie verwendeten bewältigen kann.

LLaVA verwendet das von CLIP trainierte Imaginative and prescient-Transformer-Modell ViT-L/14 für die Bildkodierung (Abbildung 5). Das erste Dokument verwendet eine einzelne lineare Projektionsmatrix W, um die Kodierungen in Token umzuwandeln. Die aus den Bildern Hᵥ und den Textanweisungen Hq berechneten Token werden als Eingabe bereitgestellt. LLaVA kann dann die Sprachantwort Xₐ Token für Token generieren und die bisherige Antwort als Eingabe an die nächste Iteration anhängen.

Ich werde nicht näher darauf eingehen, wie LLaVA trainiert wird, aber es ist interessant, wie sie ChatGPT verwenden, um die Beschriftung (Xc) in Abbildung 5 zu erweitern, um Anweisungen (Hq) und Antworten (zum Trainieren von Xₐ) zu einem Bild und zur Verwendung von Begrenzungsrahmeninformationen zu bilden.

In Model 1.5 von LLaVA (Liu et al. 2024) wurden unter anderem folgende Verbesserungen vorgenommen:

  • Die lineare Projektionsmatrix W wird durch ein mehrschichtiges Perzeptron ersetzt
  • Die Bildauflösung wird durch die Verwendung eines Bildcodierers erhöht, der Bilder mit einer Größe von 336 x 336 Pixeln aufnimmt und die Bilder in Raster aufteilt, die separat codiert werden

Aufgabengesteuerte Aufmerksamkeit im Gehirn kann Ressourcen dynamisch dem Objekt, dem Ort oder den Merkmalen von Interesse zuweisen, wodurch die Verarbeitung von Informationen ermöglicht wird, die sonst durch Unordnung oder andere Objekte überwältigt würden. In LLaVA ist der Bildencoder unabhängig von den Textanweisungen. Um erfolgreich zu sein, muss er daher sicherstellen, dass alle potenziell nützlichen Informationen in den Bildtoken (Hᵥ) gespeichert sind.

LLaVA und CLIP fehlt die Bidirektionalität und Rekurrenz mit internen Zuständen, was ihre Verarbeitung einschränkt. Dies gilt insbesondere für die Bildverarbeitung, da die Bildverarbeitung unabhängig von den Textanweisungen erfolgt. Die meisten Convolutional Neural Networks haben ebenfalls diese Einschränkungen. Dies führt mich zu meiner Vermutung:

Vermutung: Die meisten Faltungs-, Bildtransformator- und multimodalen Transformatornetzwerke sind auf eine Verarbeitung beschränkt, die der voraufmerksamen Feedforward-Bildverarbeitung im Gehirn analog ist.

Dies ist weniger Kritik als vielmehr eine Erkenntnis, die aufschlussreich sein kann. Feedforward-Verarbeitung kann viel und ist schnell. Sie ist jedoch nicht so dynamisch, was die Nutzung der Ressourcen angeht, was in überfüllten Szenen zu Informationsengpässen führen kann, und kann nicht genügend Informationen für komplexe Aufgaben kodieren, ohne dass die Größe der Kodierungen explodiert. Die Erstellung von Modellen, die feedforward arbeiten, ist ein wichtiger Schritt, da es schwierig ist, Rekurrenz und bidirektionale Verarbeitung hinzuzufügen.

Einige Netzwerke sind nicht auf voraufmerksame Feedforward-Netzwerke beschränkt, aber derzeit hinken die meisten Architekturen denen von Transformatoren hinterher. Dazu gehören Lengthy-Brief-Time period-Reminiscence-Modelle (LSTMs) und neuerdings die Mamba-Architektur, die gegenüber Transformatoren mehrere Vorteile bietet (Gu und Dao 2024). Erweiterte LSTMs (Beck et al. 2024, Alkin et al. 2024) wurden kürzlich vorgeschlagen, die helfen, die Lücke zwischen Transformatoren und LSTMs zu schließen. Diffusionsmodelle haben auch eine begrenzte Artwork von Rekurrenz, die das Bild als Zustand zwischen Iterationen verwendet.

B. Alkin, M. Beck, Okay. Pöppel, S. Hochreiter und J. Brandstetter, Imaginative and prescient-LSTM: xLSTM als generisches Imaginative and prescient-Spine (2024), http://arxiv.org/abs/2406.04303.

M. Beck, Okay. Pöppel, M. Spanring, A. Auer, O. Prudnikova, M. Kopp, G. Klambauer, J. Brandstetter und S. Hochreiter, xLSTM: Erweitertes Langzeit-Kurzzeitgedächtnis (2024), http://arxiv.org/abs/2405.04517

A. Gu und T. Dao. Mamba: Lineare Sequenzmodellierung mit selektiven Zustandsräumen (2024) http://arxiv.org/abs/2312.00752

H. Liu, C. Li, Y. Li und YJ Lee“Verbesserte Baselines mit visueller Anweisungsoptimierung (2024) Proc. von IEEE/CVF CVPR.

H. Liu, C. Li, Q. Wu und YJ Lee, Visuelles Unterrichts-Tuning (2023), https://doi.org/10.48550/arXiv.2304.08485

J. Poort, F. Raudies, A. Wannig, VAF Lamme, H. Neumann und PR Roelfsema. Die Rolle der Aufmerksamkeit bei der Figur-Grund-Segregation in den Bereichen V1 und V4 des visuellen Kortex (2012) Neuron

A. Radford, JW Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin und J. Clark. Übertragbare visuelle Modelle durch natürliche Sprachüberwachung erlernen (2021) ICML

R. VanRullen, Die Leistung des Feedforward-Sweeps (2007) Fortschritte in der kognitiven Psychologie

A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, AN Gomez, Ł. Kaiser und I. Polosukhin, Aufmerksamkeit ist alles, was Sie brauchen (2017) NeurIPs

JR Williford und R. von der Heydt, Grenzeigentumskodierung (2013) Scholarpedia

H. Zhou, HS Friedman und R. von der Heydt. „Kodierung der Grenzbesitzverhältnisse im visuellen Kortex von Affen (2000) Das Journal der Neurowissenschaften

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert