Vom Set Transformer zum Perceiver Sampler | von Mengliu Zhao | Okt. 2024

Von admin Oktober 9, 2024 #Mengliu, #Okt, #Perceiver, #Sampler, #Set, #Transformer, #Vom, #Von, #Zhao, #zum

Über den Imaginative and prescient-Encoder des multimodalen LLM Flamingo

Es ist schwierig, multimodales LLM zu entwerfen.

Die hochmodernen multimodalen LLMs basieren in erster Linie auf bestehenden LLM-Architekturen, wobei Modifikationen speziell auf unterschiedliche Eingabequellen abzielen, und hier liegt die Schwierigkeit. Das Neueste Nvidia-Papier unterteilt die häufig verwendeten multimodalen Architekturen in zwei Kategorien:

Decoderbasiert;
kreuzaufmerksamkeitsbasiert.

Einer meiner vorheriger mittlerer Artikelwird besprochen das neueste Papier von Metaverwenden Decoder-basierte Architekturdas ein Eingabebild mithilfe eines VAE-Encoders in einen latenten Vektor umwandelt, um das Downside zu beheben, dass der Bildraum kontinuierlich ist und sich vom diskreten Textraum unterscheidet.

Allerdings ist das Downside mit auf Aufmerksamkeit basierende Architektur ist anders. Beispielsweise im multimodalen LLM-Modell FlamingoDas entscheidende Downside besteht darin, die Imaginative and prescient-Einbettung von einem generischen Imaginative and prescient-Modell mit unterschiedlichen zeitlichen und räumlichen Dimensionen in die Queraufmerksamkeitsschicht umzuwandeln, um sie an die Spracheingabedimension anzupassen.

In diesem Beitrag werde ich mich eingehend mit dem einzigartigen Design von Flamingo und dem Imaginative and prescient-Encoder, dem Perceiver Resampler, befassen, um zu erklären, wie dieses Downside gelöst wurde. Darüber hinaus werde ich den Ursprung des Perceiver Resamplers untersuchen – den Induced Set Consideration Block von Transformator einstellenwas noch mehr inspirierte Das Perceiver-Modell von DeepMind zum Lernen latenter Einbettungen fester Länge aus generischen Eingabedaten.

Vom Set Transformer zum Perceiver Sampler | von Mengliu Zhao | Okt. 2024

Über den Imaginative and prescient-Encoder des multimodalen LLM Flamingo

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Google DeepMind stellt AlphaGenome vor: Ein einheitliches Sequence-to-Perform-Modell, das Hybridtransformatoren und U-Nets zur Entschlüsselung des menschlichen Genoms verwendet

7 unter dem Radar liegende Python-Bibliotheken für skalierbares Function-Engineering

Ich habe meine Maus aufgegeben: Wie ich meinen Laptop mit Handgesten steuere (in 60 Zeilen Python)

Maschinelles Lernen in der Produktion? Was das wirklich bedeutet

About

Categories

Tags

Recent Post

Google DeepMind stellt AlphaGenome vor: Ein einheitliches Sequence-to-Perform-Modell, das Hybridtransformatoren und U-Nets zur Entschlüsselung des menschlichen Genoms verwendet

7 unter dem Radar liegende Python-Bibliotheken für skalierbares Function-Engineering

Über den Imaginative and prescient-Encoder des multimodalen LLM Flamingo

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt