Die Videogenerierung aus dem Textual content hat einen langen Weg zurückgelegt, aber es trifft immer noch eine Wand, wenn es darum geht, längere, multiszene Geschichten zu produzieren. Während Diffusionsmodelle mögen SoraAnwesend Veound Filmgengen haben die Messlatte in visueller Qualität erhöht, sie sind in der Regel auf Clips über 20 Sekunden lang beschränkt. Die wahre Herausforderung? Kontext. Wenn Sie ein einminütiges, storysorientiertes Video aus einem Textabsatz erzeugen, müssen Modelle Hunderttausende von Token verarbeiten und gleichzeitig die narrative und visuelle Kohärenz beibehalten. Hier tritt diese neue Forschung von Nvidia, Stanford, UC Berkeley und anderen ein, um eine Technik namens Take a look at-Time Coaching (TTT) einzubringen, um die aktuellen Einschränkungen überschreiten.
Was ist das Downside mit langen Movies?
Transformatoren, insbesondere die in der Videogeneration verwendeten, verlassen sich darauf Selbstanhaltungsmechanismen. Diese skalieren aufgrund ihrer quadratischen Rechenkosten mit der Sequenzlänge schlecht. Der Versuch, eine vollständige Minute hochauflösender Movies mit dynamischen Szenen und konsistenten Charakteren zu generieren, bedeutet, dass über 300.000 Token von Informationen ein Jonglieren ist. Das macht das Modell über lange Strecken ineffizient und oft inkohärent.
Einige Groups haben versucht, dies durch wiederkehrende neuronale Netzwerke zu umgehen ((Rnns) Wie Mamba oder Deltanet, die eine lineare Kontextbearbeitung bieten. Diese Modelle komprimieren den Kontext jedoch in einen versteckten Zustand mit fester Größe, was die Ausdrucksfähigkeit einschränkt. Es ist, als würde man versuchen, einen ganzen Movie in eine Postkarte zu drücken, einige Particulars werden einfach nicht passen.
Wie löst TTT (Take a look at-Time-Coaching) das Downside?
Dieses Papier stammt aus der Idee, den verborgenen Zustand von RNNs ausdrucksvoller zu machen, indem er es in ein trainierbares neuronales Netzwerk selbst verwandelt. Insbesondere schlagen die Autoren vor, TTT-Schichten, im Wesentlichen kleine, zweischichtige MLPs, die sich bei der Verarbeitung von Eingangssequenzen an die Fliege anpassen. Diese Ebenen werden während der Inferenzzeit mit einem selbstbewerteten Verlust aktualisiert, der ihnen hilft, aus dem sich entwickelnden Kontext des Movies dynamisch zu lernen.
Stellen Sie sich ein Modell vor, das sich mitten im Flug anpasst: Wenn sich das Video entfaltet, passt sich sein internes Gedächtnis an, um die Charaktere, Bewegungen und Handlungen besser zu verstehen. Das ist es, was TTT ermöglicht.
Beispiele für einminütige Movies mit Testzeittraining
Hinzufügen von TTT-Schichten zu einem vorgebildeten Transformator
Durch das Hinzufügen von TTT-Schichten in einen vorgeborenen Transformator können ein Minute Movies mit starker zeitlicher Konsistenz und Bewegungsglättung erzeugt werden.
Immediate: “Jerry schnappt sich einen Käsekeil und Rennen um sein Mausloch mit Tom in der Verfolgung. Er schlüpft gerade noch rechtzeitig hinein und lässt Tom in die Wand stürzen. Protected und gemütlich genießt Jerry seinen Preis an einem winzigen Tisch und knabbert glücklich, während die Szene zu schwarz verblasst.“
Baseline -Vergleiche
TTT-MLP übertrifft alle anderen Basislinien in zeitlicher Konsistenz, Bewegungsglättigkeit und allgemeine Ästhetik, gemessen an der ELO-Werte für die menschliche Bewertung.
Immediate: “Tom isst glücklich einen Apfelkuchen am Küchentisch. Jerry sieht sehnsüchtig aus und wünscht, er hätte etwas. Jerry geht vor der Haustür des Hauses und klingelt die Türklingel. Während Tom kommt, um die Tür zu öffnen, rennt Jerry um den Rücken in die Küche. Jerry stiehlt Toms Apfelkuchen. Jerry rennt zu seinem Mausloch mit dem Kuchen, während Tom ihn jagt. Gerade als Tom Jerry fangen will, schafft er es durch das Mausloch und Tom schlägt in die Wand.“
Einschränkungen
Die erzeugten einminütigen Movies zeigen ein klares Potenzial als Proof of Idea, enthalten jedoch bemerkenswerte Artefakte.
Wie funktioniert es?
Das System beginnt mit einem vorgebildeten Diffusionstransformatormodell, Cogvideo-X 5b, das zuvor nur 3-Sekunden-Clips erzeugen konnte. Die Forscher fügten TTT -Schichten in das Modell ein und trainierten sie (zusammen mit lokalen Aufmerksamkeitsblöcken), um längere Sequenzen zu verarbeiten.
Um die Kosten zu verwalten, beschränkte sich die Selbstbekämpfung auf kurze 3-Sekunden-Segmente, während die TTT-Schichten die globale Erzählung in diesen Segmenten übernahmen. Die Architektur umfasst auch Gating -Mechanismen, um sicherzustellen, dass TTT -Schichten die Leistung während des frühen Trainings nicht beeinträchtigen.
Sie verbessern das Coaching weiter, indem sie Sequenzen bidirektional verarbeiten und Movies in kommentierten Szenen unterteilt. Beispielsweise wurde ein Storyboard-Format verwendet, um jedes 3-Sekunden-Phase ausführlich, Hintergründe, Charakterpositionen, Kamerawinkel und Aktionen zu beschreiben.
Der Datensatz: Tom & Jerry mit einer Wendung
Um die Forschung in einem konsistenten, intestine verstandenen visuellen Bereich zu erden, kuratierte das Staff einen Datensatz von über 7 Stunden klassischen Tom- und Jerry-Cartoons. Diese wurden in Szenen unterteilt und in 3-Sekunden-Segmente fein kommentiert. Indem die Forscher sich auf Cartoon -Daten konzentrierten, vermieden sie die Komplexität des Photorealismus und wurden über die Erzählkohärenz und die Bewegungsdynamik ausgerichtet.
Menschliche Annotatoren schrieben beschreibende Absätze für jedes Phase, um sicherzustellen, dass das Modell eine reichhaltige, strukturierte Eingabe hatte, daraus zu lernen. Dies ermöglichte auch ein mehrstufiges Coaching-erstmals in 3-Sekunden-Clips und nach und nach auf längeren Sequenzen bis zu 63 Sekunden.
Leistung: Funktioniert es tatsächlich?
Ja, und so beeindruckend. Als das TTT-MLP-Modell gegen führende Baselines wie Mamba 2, Gated Deltanet und Sliding-Window-Aufmerksamkeit in einer menschlichen Bewertung über 100 Movies übertrifft.
Die in Betracht gezogene Bewertung:
- Textausrichtung: Wie intestine das Video der Eingabeaufforderung folgt
- Bewegung Natürlichkeit: Realismus in Charakterbewegung
- Ästhetik: Beleuchtung, Farbe und visuelle Anziehungskraft
- Zeitliche Konsistenz: Visuelle Kohärenz über Szenen hinweg
TTT-MLP hat in Bewegung und Szenenkonsistenz besonders übertroffen und die logische Kontinuität über dynamische Aktionen hinweg aufrechterhalten-etwas, mit dem andere Modelle zu kämpfen hatten.
Artefakte und Einschränkungen
Trotz der vielversprechenden Ergebnisse gibt es immer noch Artefakte. Die Beleuchtung kann inkonsistent verändern oder Bewegung kann schwebend aussehen (z. B. unnatürlich schweben Käse). Diese Probleme sind wahrscheinlich mit den Einschränkungen des Basismodells Cogvideo-X verbunden. Ein weiterer Engpass ist Effizienz. Während TTT-MLP erheblich schneller ist als vollständige Selbstbekämpfungsmodelle (2,5-fache Beschleunigung), ist es immer noch langsamer als schlanke RNN-Ansätze wie Gated Deltanet. Trotzdem muss TTT nur fein abgestimmt sein-nicht von Grund auf neu trainiert-es für viele Anwendungsfälle praktischer macht.
Was lässt diesen Ansatz auffallen
- Ausdrucksgedächtnis: TTT verwandelt den versteckten Zustand von RNNs in ein trainierbares Netzwerk, was es weitaus ausdrucksvoller macht als eine Matrix mit fester Größe.
- Anpassungsfähigkeit: TTT -Schichten lernen und passen Sie sie während der Inferenz an, sodass sie in Echtzeit auf das entfaltende Video reagieren können.
- Skalierbarkeit: Mit genügend Ressourcen skaliert diese Methode längere und komplexere Videogeschichten.
- Praktische Feinabstimmung: Forscher fein nur die TTT-Schichten und -Tore, die immer wieder leichte und effizientes Coaching ausbilden.
Zukünftige Anweisungen
Das Staff weist auf verschiedene Expansionsmöglichkeiten hin:
- Optimierung des TTT -Kernels für eine schnellere Folgerung
- Experimentieren mit größeren oder verschiedenen Rückgratemodellen
- Erforschen noch komplexere Handlungsstränge und Domänen
- Verwendung von transformatorbasierten versteckten Zuständen anstelle von MLPs für noch mehr Ausdruckskraft
TTT Video Era gegen Mocha gegen Goku gegen Omnihuman1 gegen Dreamactor-M1
Die unten angegebene Tabelle erläutert den Unterschied zwischen diesem Modell und anderen Modellen für Trendungsvideogenerierung:
Modell | Kernfokus | Eingabetyp | Schlüsselmerkmale | Wie es sich von TTT unterscheidet |
---|---|---|---|---|
TTT (Testzeittraining) | Langform-Videogenerierung mit dynamischer Anpassung | Textual content Storyboard |
– passt während der Inferenz an |
Für lange Movies entworfen; Aktualisiert den internen Zustand während der Era für die narrative Konsistenz |
Mokka | Sprechende Charaktergenerierung | Textual content + Sprache |
– Keine Tastoint oder Referenzbilder |
Konzentriert |
Goku | Hochwertige Video- und Bildgenerierung | Textual content, Bild |
– korrigierte Flusstransformatoren |
Optimiert für Qualität und Trainingsgeschwindigkeit; Nicht für langes Erzählen von Langform ausgelegt |
Omnihuman1 | Realistische menschliche Animation | Bild + Audio + Textual content |
– Mehrere Konditionierungssignale |
Schafft lebensechte Menschen; Modell modelliert keine langen Sequenzen oder dynamischen Szenenübergänge |
Dreamactor-M1 | Bild-zu-Animation (Gesicht/Körper) | Bild + Fahrvideo |
– Ganzheitliche Bewegung Nachahmung |
Animiert statische Bilder; Verwendet keine Textual content- oder Handlungs-Szene-für-Szene-Story-Era |
Lesen Sie auch:
Endnote
Das Take a look at-Time-Coaching bietet ein faszinierendes neues Objektiv für die Bekämpfung der langen Kontext-Videogeneration. Indem es das Modell während der Inferenz lernen und anpassen lässt, überbrückt es eine entscheidende Lücke im Geschichtenerzählen, eine Domäne, in der Kontinuität, Emotionen und Tempo genauso wichtig sind wie die visuelle Treue.
Ob Sie ein Forscher bei sind Generative Aiein kreativer Technologe oder ein Produktführer, das neugierig auf die nächsten A-generierten Medien kommt. Diese Arbeit ist ein Wegweiser, der auf die Zukunft der dynamischen, kohärenten Videosynthese aus Textual content hinweist.
Melden Sie sich an, um weiter zu lesen und Experten-Kuratinhalte zu genießen.