Es ist schwierig, multimodales LLM zu entwerfen.
Die hochmodernen multimodalen LLMs basieren in erster Linie auf bestehenden LLM-Architekturen, wobei Modifikationen speziell auf unterschiedliche Eingabequellen abzielen, und hier liegt die Schwierigkeit. Das Neueste Nvidia-Papier unterteilt die häufig verwendeten multimodalen Architekturen in zwei Kategorien:
- Decoderbasiert;
- kreuzaufmerksamkeitsbasiert.
Einer meiner vorheriger mittlerer Artikelwird besprochen das neueste Papier von Metaverwenden Decoder-basierte Architekturdas ein Eingabebild mithilfe eines VAE-Encoders in einen latenten Vektor umwandelt, um das Downside zu beheben, dass der Bildraum kontinuierlich ist und sich vom diskreten Textraum unterscheidet.
Allerdings ist das Downside mit auf Aufmerksamkeit basierende Architektur ist anders. Beispielsweise im multimodalen LLM-Modell FlamingoDas entscheidende Downside besteht darin, die Imaginative and prescient-Einbettung von einem generischen Imaginative and prescient-Modell mit unterschiedlichen zeitlichen und räumlichen Dimensionen in die Queraufmerksamkeitsschicht umzuwandeln, um sie an die Spracheingabedimension anzupassen.
In diesem Beitrag werde ich mich eingehend mit dem einzigartigen Design von Flamingo und dem Imaginative and prescient-Encoder, dem Perceiver Resampler, befassen, um zu erklären, wie dieses Downside gelöst wurde. Darüber hinaus werde ich den Ursprung des Perceiver Resamplers untersuchen – den Induced Set Consideration Block von Transformator einstellenwas noch mehr inspirierte Das Perceiver-Modell von DeepMind zum Lernen latenter Einbettungen fester Länge aus generischen Eingabedaten.