Wie würde ein hinter den Kulissen ein Video betrachten, das von einem künstlichen Intelligenzmodell generiert wird? Sie denken vielleicht, dass der Prozess der Cease-Movement-Animation ähnlich ist, bei der viele Bilder zusammengestellt und zusammengefügt werden, aber das ist nicht ganz der Fall für „Diffusionsmodelle“ wie Openals Sora und Google’s VEO 2.

Anstatt einen Video-Body-by-Body-Rahmen (oder „autoregressiv“) zu produzieren, verarbeiten diese Systeme die gesamte Sequenz gleichzeitig. Der resultierende Clip ist oft fotorealistisch, aber der Prozess ist langsam und lässt keine Änderungen im Laufe der Fliege zu.

Wissenschaftler des Labors für Informatik und künstliche Intelligenz von MIT (CSAIL) und Adobe Analysis haben nun einen hybriden Ansatz entwickelt, der als „Causvid“ bezeichnet wird, um Movies in Sekunden zu erstellen. Ähnlich wie bei einem schlagfertigen Schüler, das von einem versierten Lehrer lernt, trainiert ein Vollsequenzdiffusionsmodell ein autoregressives System, um den nächsten Body schnell vorherzusagen und gleichzeitig hohe Qualität und Konsistenz zu gewährleisten. Das Schülermodell von CausVid kann dann Clips aus einer einfachen Textaufforderung erzeugen, ein Foto in eine sich bewegende Szene verwandeln, ein Video erweitern oder seine Kreationen mit neuen Eingaben in der Mitte der Era verändern.

Dieses dynamische Instrument ermöglicht eine schnelle, interaktive Erstellung von Inhalten und schnitt einen 50-Schritt-Prozess in nur wenige Aktionen ein. Es kann viele fantasievolle und künstlerische Szenen herstellen, wie ein Papierflugzeug, das sich in einen Schwan verwandelt, Wollmammuts, die sich durch Schnee wagen, oder ein Type, das in eine Pfütze springt. Benutzer können auch eine erste Eingabeaufforderung erstellen, z. B. „einen Mann überqueren, der die Straße überquert“, und dann Comply with-up-Eingaben zu erstellen, um der Szene neue Elemente hinzuzufügen, wie „er schreibt in seinem Notizbuch, wenn er zum gegenüberliegenden Bürgersteig kommt“.

Kurze computergenerierte Animation eines Charakters in einem alten Tiefseetauchanzug, der auf einem Blatt spaziert

Ein von Causvid produziertes Video zeigt seine Fähigkeit, reibungslose, qualitativ hochwertige Inhalte zu erstellen.

AI-generierte Animation mit freundlicher Genehmigung der Forscher.

Die CSAIL -Forscher sagen, dass das Modell für verschiedene Videobearbeitungsaufgaben verwendet werden könnte, z. B. den Zuschauern dabei, einen Livestream in einer anderen Sprache zu verstehen, indem ein Video generiert wird, das mit einer Audioübersetzung synchronisiert wird. Es könnte auch dazu beitragen, neue Inhalte in einem Videospiel zu rendern oder schnell Trainingssimulationen zu erstellen, um Roboter neue Aufgaben zu vermitteln.

Tianwei Yin SM ’25, PhD ’25, ein kürzlich Scholar in Elektrotechnik und Informatik und CSAIL -Associate, führt die Stärke des Modells auf seinen gemischten Ansatz zurück.

„Causvid kombiniert ein vorgebildetes diffusionsbasiertes Modell mit autoregressiver Architektur, das typischerweise in Modellen der Textgenerierung zu finden ist“ Papier über das Werkzeug. „Dieses Lehrermodell mit KI-angetriebenem Lehrer kann sich zukünftige Schritte vorstellen, um ein Rahmen-für-Body-System zu schulen, um Rendering-Fehler zu vermeiden.“

Yins Co-Lead-Autor Qiang Zhang ist Forschungswissenschaftler bei XAI und ehemaliger CSAIL-Gastforscher. Sie arbeiteten an dem Projekt mit Adobe -Forschungswissenschaftlern Richard Zhang, Eli Shechtman und Xun Huang sowie zwei CSAIL -Principal -Ermittlern: MIT -Professoren Invoice Freeman und Frédo Durand.

Ursache (VID) und Effekt

Viele autoregressive Modelle können ein anfangs glattes Video erstellen, aber die Qualität neigt dazu, später in der Sequenz abzusetzen. Ein Clip einer Individual, die läuft, magazine anfangs lebensecht erscheint, aber ihre Beine fangen in unnatürliche Richtungen an, was auf Body-to-Body-Inkonsistenzen hinweist (auch als „Fehlerakkumulation“ bezeichnet).

Die fehleranfällige Videogenerierung warfare bei früheren kausalen Ansätzen häufig, die lernten, die Frames einzeln für sich selbst vorherzusagen. Causvid verwendet stattdessen ein hochleistungsfähiges Diffusionsmodell, um ein einfacheres System sein allgemeines Video-Experience beizubringen, sodass es reibungslose Visuals erstellen kann, aber viel schneller.

Video -Miniaturansicht

Video abspielen

CausVid ermöglicht eine schnelle, interaktive Videoerstellung und schneiden einen 50-Stufen-Prozess in nur wenige Aktionen ein.
Video mit freundlicher Genehmigung der Forscher.

Causvid zeigte seine Videoerstellung, als die Forscher ihre Fähigkeit testeten, hochauflösende, 10 Sekunden lange Movies zu erstellen. Es übertraf die Basislinien wie “OpenSora“ Und „Boingen„Bis zu 100 Mal schneller als seine Konkurrenz und produziert die stabilsten und hochwertigen Clips.

Dann testeten Yin und seine Kollegen die Fähigkeit von Causvid, stabile 30-Sekunden-Movies zu veröffentlichen, in denen auch vergleichbare Modelle für Qualität und Konsistenz übertroffen wurden. Diese Ergebnisse zeigen, dass Causvid letztendlich stabile, stundenlange Movies oder sogar eine unbestimmte Dauer erzeugen kann.

Eine nachfolgende Studie ergab, dass Benutzer die von Causvids Schülermodell erzeugten Movies gegenüber ihrem diffusionsbasierten Lehrer bevorzugten.

„Die Geschwindigkeit des autoregressiven Modells macht wirklich einen Unterschied“, sagt Yin. „Seine Movies sehen genauso intestine aus wie die Lehrer, aber mit weniger Zeit für die Herstellung ist der Kompromiss, dass seine Grafiken weniger vielfältig sind.“

CausVid warfare auch hervorragend, wenn er mit einem Textual content-zu-Video-Datensatz auf über 900 Eingabeaufforderungen getestet wurde, wobei die oberste Gesamtpunktzahl von 84,27 erhalten wurde. Es zeigte die besten Metriken in Kategorien wie Bildgebungsqualität und realistischen menschlichen Handlungen, die hochmoderne Videogenerierungsmodelle wie “in den Schatten stellten.Vchitect“ Und „Gen-3.

Während ein effizienter Schritt nach vorne in der AI -Videogenerierung ist, kann Causvid möglicherweise bald noch schneller – vielleicht sofort – mit einer kleineren kausalen Architektur entwerfen. Yin sagt, wenn das Modell auf domänenspezifischen Datensätzen trainiert wird, wird es wahrscheinlich höherwertige Clips für Robotik und Spiele erstellen.

Experten sagen, dass dieses Hybridsystem ein vielversprechendes Improve von Diffusionsmodellen ist, die derzeit durch Verarbeitungsgeschwindigkeiten festgefahren sind. „(Diffusionsmodelle) sind viel langsamer als LLMs (Großsprachenmodelle) oder generative Bildmodelle“, sagt der Assistenzprofessor von Carnegie Mellon College, Jun-Yan Zhu, der nicht an der Zeitung beteiligt warfare. „Diese neue Arbeit ändert sich, die die Videogenerierung viel effizienter machen. Dies bedeutet eine bessere Streaming -Geschwindigkeit, mehr interaktivere Anwendungen und geringere CO2 -Fußabdrücke.“

Die Arbeit des Groups wurde zum Teil vom Amazon Science Hub, dem Gwangju -Institut für Wissenschaft und Technologie, Adobe, Google, dem US Air Drive Analysis Laboratory und dem US Air Drive künstliche Intelligenzbeschleuniger unterstützt. CausVid wird im Juni auf der Konferenz über Pc Imaginative and prescient und Mustererkennung vorgestellt.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert