Meta veröffentlicht TRIBE v2: Ein Gehirnkodierungsmodell, das fMRT-Reaktionen über Video-, Audio- und Textreize hinweg vorhersagt

Die Neurowissenschaften sind seit langem ein Feld des Teilens und Herrschens. Forscher ordnen typischerweise bestimmte kognitive Funktionen isolierten Gehirnregionen zu – etwa Bewegung dem Bereich V5 oder Gesichtern dem Gyrus fusiformis –, indem sie Modelle verwenden, die auf enge experimentelle Paradigmen zugeschnitten sind. Obwohl dies zu tiefgreifenden Erkenntnissen geführt hat, ist die resultierende Landschaft fragmentiert und es fehlt ein einheitlicher Rahmen, um zu erklären, wie das menschliche Gehirn multisensorische Informationen integriert.

Das FAIR-Workforce von Meta hat sich vorgestellt TRIBE v2ein trimodales Gründungsmodell, das diese Lücke schließen soll. Durch die Ausrichtung der latenten Darstellungen modernster KI-Architekturen auf die menschliche Gehirnaktivität prognostiziert TRIBE v2 hochauflösende fMRT-Reaktionen unter verschiedenen naturalistischen und experimentellen Bedingungen.

https://ai.meta.com/analysis/publications/a-foundation-model-of-vision-audition-and-lingual-for-in-silico-neuroscience/

TRIBE v2 lernt das „Sehen“ oder „Hören“ nicht von Grund auf. Stattdessen nutzt es die Repräsentationsausrichtung zwischen tiefen neuronalen Netzwerken und dem Gehirn von Primaten. Die Architektur besteht aus drei eingefrorenen Fundamentmodellen, die als dienen Characteristic-Extraktoren, ein zeitlicher Transformator, und a fachspezifischer Vorhersageblock.

Das Modell verarbeitet Reize über drei spezialisierte Encoder:

Textual content: Kontextualisierte Einbettungen werden daraus extrahiert LLaMA 3.2-3B. Für jedes Wort stellt das Modell die vorhergehenden 1.024 Wörter voran, um einen zeitlichen Kontext bereitzustellen, der dann einem 2-Hz-Raster zugeordnet wird.
Video: Das Modell verwendet V-JEPA2-Big um 64-Body-Segmente zu verarbeiten, die sich über die vorangegangenen 4 Sekunden für jedes Zeitintervall erstrecken.
Audio: Der Ton wird durch verarbeitet Wav2Vec-BERT 2.0wobei die Darstellungen auf 2 Hz neu abgetastet wurden, um sie an die Reizfrequenz anzupassen $(f_{stim})$ .

2. Zeitliche Aggregation

Die resultierenden Einbettungen werden in eine gemeinsame Dimension komprimiert $(D=384)$ und zu einer multimodalen Zeitreihe mit einer Modelldimension von verkettet $D_{Modell} = 3 instances 384 = 1152$ . Diese Sequenz wird in a eingespeist Transformator-Encoder (8 Schichten, 8 Aufmerksamkeitsköpfe), die über ein 100-Sekunden-Fenster Informationen austauschen.

3. Subjektspezifische Vorhersage

Um die Gehirnaktivität vorherzusagen, werden die Transformer-Ausgänge auf die fMRT-Frequenz von 1 Hz dezimiert $(f_{fMRI})$ und ging durch a Betreffblock. Dieser Block projiziert die latenten Darstellungen auf 20.484 kortikale Eckpunkte $(fsaverage5 Oberfläche)$ und 8.802 subkortikale Voxel.

Daten- und Skalierungsgesetze

Eine wesentliche Hürde bei der Gehirnkodierung ist die Datenknappheit. TRIBE v2 geht dieses Drawback an, indem es „tiefe“ Datensätze für das Coaching verwendet – wobei einige Probanden viele Stunden lang aufgezeichnet werden – und „breite“ Datensätze für die Auswertung.

Ausbildung: Das Modell wurde anhand von 451,6 Stunden fMRT-Daten von 25 Probanden in vier naturalistischen Studien (Filme, Podcasts und Stummfilme) trainiert.
Auswertung: Es wurde in einer größeren Sammlung von insgesamt 1.117,7 Stunden von 720 Probanden ausgewertet.

Das Forschungsteam beobachtete einen logarithmisch linearen Anstieg der Codierungsgenauigkeit mit zunehmender Trainingsdatenmenge, ohne Anzeichen eines Plateaus. Dies deutet darauf hin, dass mit der Erweiterung der Neuroimaging-Repositories die Vorhersagekraft von Modellen wie TRIBE v2 weiter zunehmen wird.

Ergebnisse: Übertreffen der Grundlinien

TRIBE v2 übertrifft herkömmliche Systeme deutlich Endliche Impulsantwort (FIR) Modelle, der langjährige Goldstandard für die voxelweise Kodierung^{^{^{^.}}}

Zero-Shot und Gruppenleistung

Eine der auffälligsten Fähigkeiten des Modells ist Zero-Shot-Verallgemeinerung zu neuen Themen. Mithilfe einer Ebene „unsichtbarer Probanden“ kann TRIBE v2 die gruppendurchschnittliche Reaktion einer neuen Kohorte genauer vorhersagen als die tatsächliche Aufzeichnung vieler einzelner Probanden innerhalb dieser Kohorte. Im hochauflösenden 7T-Datensatz des Human Connectome Challenge (HCP) erreichte TRIBE v2 eine Gruppenkorrelation $(R_{Gruppe})$ nahe 0,4, eine zweifache Verbesserung gegenüber der Gruppenvorhersagefähigkeit des mittleren Probanden.

Feinabstimmung

Wenn einem neuen Teilnehmer eine kleine Datenmenge (höchstens eine Stunde) zur Verfügung gestellt wird, führt die Feinabstimmung von TRIBE v2 für nur eine Epoche zu einer zwei- bis vierfachen Verbesserung gegenüber linearen Modellen, die von Grund auf trainiert wurden^.

In-Silico-Experimente

Das Forschungsteam argumentiert, dass TRIBE v2 nützlich sein könnte Pilotierung oder Vorscreening von Neuroimaging-Studien. Durch die Durchführung virtueller Experimente auf dem Individuelles Mind Charting (IBC) Datensatz, Das Modell hat klassische funktionale Wahrzeichen wiederhergestellt:

Imaginative and prescient: Der fusiforme Gesichtsbereich wurde genau lokalisiert (FFA) und parahippocampaler Ortsbereich (PPA).
Sprache: Der temporo-parietale Übergang wurde erfolgreich wiederhergestellt (TPJ) zur emotionalen Verarbeitung und Brocas Gegend für die Syntax.

Darüber hinaus bewerben Unabhängige Komponentenanalyse (ICA) Die letzte Ebene des Modells ergab, dass TRIBE v2 auf natürliche Weise fünf bekannte Funktionsnetzwerke lernt: primäres Gehör, Sprache, Bewegung, Standardmodus und visuell^.

Schlüssel zum Mitnehmen

Eine leistungsstarke trimodale Architektur: TRIBE v2 ist ein Basismodell, das integriert Video, Audio und Sprache durch den Einsatz modernster Encoder wie LLaMA 3.2 für Textual content, V-JEPA2 für Video und Wav2Vec-BERT für Audio.
Logarithmisch-lineare Skalierungsgesetze: Ähnlich wie die großen Sprachmodelle, die wir jeden Tag verwenden, folgt TRIBE v2 a logarithmisch-lineares Skalierungsgesetz; Seine Fähigkeit, die Gehirnaktivität genau vorherzusagen, nimmt stetig zu, je mehr fMRT-Daten zugeführt werden, und ein Leistungsplateau ist derzeit nicht in Sicht.
Überlegene Zero-Shot-Generalisierung: Das Modell kann die Gehirnreaktionen von vorhersagen unsichtbare Themen unter neuen Versuchsbedingungen ohne zusätzliche Schulung. Bemerkenswert ist, dass seine Zero-Shot-Vorhersagen bei der Schätzung gruppengemittelter Gehirnreaktionen oft genauer sind als die Aufzeichnungen einzelner menschlicher Probanden selbst.
Der Beginn der In-Silico-Neurowissenschaft: TRIBE v2 ermöglicht „In-silico“-Experimente und ermöglicht es Forschern, virtuelle neurowissenschaftliche Checks auf einem Pc durchzuführen. Es replizierte erfolgreich jahrzehntelange empirische Forschung, indem es spezielle Bereiche wie die identifizierte fusiformer Gesichtsbereich (FFA) Und Brocas Gegend rein durch digitale Simulation.
Neue biologische Interpretierbarkeit: Auch wenn es sich um eine Deep-Studying-„Blackbox“ handelt, organisierten sich die internen Darstellungen des Modells natürlich in fünf bekannte funktionale Netzwerke: primäres Gehör, Sprache, Bewegung, Standardmodus und visuell.

Schauen Sie sich das an Code, Gewichte Und Demo. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 120.000+ ML SubReddit und Abonnieren Unser E-newsletter. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.

Michal Sutter ist ein Information-Science-Experte mit einem Grasp of Science in Information Science von der Universität Padua. Mit einer soliden Grundlage in statistischer Analyse, maschinellem Lernen und Datentechnik ist Michal hervorragend darin, komplexe Datensätze in umsetzbare Erkenntnisse umzuwandeln.

Meta veröffentlicht TRIBE v2: Ein Gehirnkodierungsmodell, das fMRT-Reaktionen über Video-, Audio- und Textreize hinweg vorhersagt

2. Zeitliche Aggregation

3. Subjektspezifische Vorhersage

Daten- und Skalierungsgesetze

Ergebnisse: Übertreffen der Grundlinien

Zero-Shot und Gruppenleistung

Feinabstimmung

In-Silico-Experimente

Schlüssel zum Mitnehmen

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Meta veröffentlicht TRIBE v2: Ein Gehirnkodierungsmodell, das fMRT-Reaktionen über Video-, Audio- und Textreize hinweg vorhersagt

Erste Schritte mit Smolagents: Erstellen Sie Ihren ersten Code-Agenten in 15 Minuten

Geräusche sehen | MIT-Nachrichten

Jenseits der Codegenerierung: KI für den vollständigen Information Science-Workflow

About

Categories

Tags

Recent Post

Meta veröffentlicht TRIBE v2: Ein Gehirnkodierungsmodell, das fMRT-Reaktionen über Video-, Audio- und Textreize hinweg vorhersagt

Erste Schritte mit Smolagents: Erstellen Sie Ihren ersten Code-Agenten in 15 Minuten

Die Architektur: Multimodale Integration

2. Zeitliche Aggregation

3. Subjektspezifische Vorhersage

Daten- und Skalierungsgesetze

Ergebnisse: Übertreffen der Grundlinien

Zero-Shot und Gruppenleistung

Feinabstimmung

In-Silico-Experimente

Schlüssel zum Mitnehmen

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt