Top 5 Open-Source-Modelle zur VideogenerierungTop 5 Open-Source-Modelle zur Videogenerierung
Bild vom Autor

# Lichter, Kamera…

Mit der Einführung von Veo Und SoraDie Videogenerierung hat einen neuen Höchststand erreicht. Entwickler experimentieren ausgiebig und Groups integrieren diese Instruments in ihre Advertising and marketing-Workflows. Es gibt jedoch einen Nachteil: Die meisten geschlossenen Systeme sammeln Ihre Daten und verwenden sichtbare oder unsichtbare Wasserzeichen, die die Ausgaben als von der KI generiert kennzeichnen. Wenn Sie Wert auf Datenschutz, Kontrolle und Arbeitsabläufe auf dem Gerät legen, sind Open-Supply-Modelle die beste Choice, und mehrere konkurrieren mittlerweile mit den Ergebnissen von Veo.

In diesem Artikel stellen wir die fünf besten Videogenerierungsmodelle vor und stellen Ihnen technisches Wissen sowie ein Demovideo zur Verfügung, das Ihnen bei der Beurteilung ihrer Videogenerierungsfunktionen hilft. Jedes Modell ist auf verfügbar Umarmendes Gesicht und kann lokal über ausgeführt werden ComfyUI oder Ihre bevorzugten Desktop-KI-Anwendungen.

# 1. Wan 2.2 A14B

Wan 2.2 rüstet sein Diffusions-Spine mit einer Combination-of-Consultants (MoE)-Architektur auf, die die Rauschunterdrückung über Zeitschritte hinweg auf spezialisierte Experten aufteilt und so die effektive Kapazität ohne Recheneinbußen erhöht. Das Workforce kuratierte außerdem ästhetische Bezeichnungen (z. B. Beleuchtung, Komposition, Kontrast, Farbton), um „filmische“ Appears to be like besser kontrollierbar zu machen. Im Vergleich zu Wan 2.1 skalierte das Coaching erheblich (+65,6 % Bilder, +83,2 % Movies) und verbesserte Bewegung, Semantik und Ästhetik.

Wan 2.2 meldet Spitzenleistungen sowohl bei offenen als auch bei geschlossenen Systemen. Sie können die Textual content-zu-Video- und Bild-zu-Video-A14B-Repositories auf Hugging Face erkunden: Wan-AI/Wan2.2-T2V-A14B Und Wan-AI/Wan2.2-I2V-A14B

# 2. Hunyuan-Video

HunyuanVideo ist ein offenes Video-Basis-Modell mit 13B Parametern, das in einem räumlich-zeitlichen latenten Raum über einen kausalen 3D-Variations-Autoencoder (VAE) trainiert wird. Sein Transformator verwendet ein „Twin-Stream-zu-Single-Stream“-Design: Textual content- und Video-Tokens werden zunächst unabhängig voneinander mit voller Aufmerksamkeit verarbeitet und dann zusammengeführt, während ein multimodaler LLM nur mit Decoder als Textual content-Encoder dient, um die Befehlsverfolgung und Detailerfassung zu verbessern.

Das Open-Supply-Ökosystem umfasst Code, Gewichte, Single- und Multi-GPU-Inferenz (xDiT), FP8-Gewichte, Diffusoren und ComfyUI-Integrationen, a Gradio Demo und der Penguin Video Benchmark.

# 3. Mochi 1

Mochi 1 ist ein 10B Uneven Diffusion Transformer (AsymmDiT), der von Grund auf trainiert und unter Apache 2.0 veröffentlicht wurde. Es ist mit einem asymmetrischen VAE gekoppelt, das Movies 8×8 räumlich und 6x zeitlich in ein 12-Kanal-Latent komprimiert und dabei der visuellen Kapazität Vorrang vor Textual content einräumt, während ein einzelner T5-XXL-Encoder verwendet wird.

In vorläufigen Bewertungen positioniert das Genmo-Workforce Mochi 1 als hochmodernes offenes Modell mit Excessive-Constancy-Bewegung und starker sofortiger Adhärenz, mit dem Ziel, die Lücke zu geschlossenen Systemen zu schließen.

# 4. LTX-Video

LTX-Video ist ein DiT-basierter (Diffusion Transformer) Bild-zu-Video-Generator, der auf Geschwindigkeit ausgelegt ist: Er produziert Movies mit 30 fps bei 1216 x 704 schneller als in Echtzeit und basiert auf einem großen, vielfältigen Datensatz, um Bewegung und visuelle Qualität in Einklang zu bringen.

Das Sortiment umfasst mehrere Varianten: 13B dev, 13B destillierte, 2B destillierte und FP8 quantisierte Builds sowie räumliche und zeitliche Upscaler und gebrauchsfertige ComfyUI-Workflows. Wenn Sie für schnelle Iterationen und scharfe Bewegungen aus einem einzelnen Bild oder einer kurzen Konditionierungssequenz optimieren, ist LTX eine überzeugende Wahl.

# 5. CogVideoX-5B

CogVideoX-5B ist der Bruder mit der höheren Wiedergabetreue der 2B-Basislinie, wurde in bfloat16 trainiert und empfohlen, in bfloat16 zu laufen. Es generiert 6-Sekunden-Clips mit 8 Bildern professional Sekunde und einer festen Auflösung von 720 x 480 und unterstützt englische Ansagen mit bis zu 226 Token.

Die des Modells Dokumentation zeigt den erwarteten Video Random Entry Reminiscence (VRAM) für Einzel- und Multi-GPU-Inferenz, typische Laufzeiten (z. B. etwa 90 Sekunden für 50 Schritte auf einem einzelnen H100) und wie sich Diffuser-Optimierungen wie CPU-Offload und VAE-Kacheln/Slicing auf Speicher und Geschwindigkeit auswirken.


https://www.youtube.com/watch?v=S2b7QGv-lo

# Auswahl eines Videogenerierungsmodells

Hier sind einige wichtige Erkenntnisse, die Ihnen bei der Auswahl des richtigen Videogenerierungsmodells für Ihre Anforderungen helfen.

  • Wenn Sie ein kinofreundliches Aussehen und 720p/24 auf einem einzigen 4090 wünschen: Wan 2.2 (A14B für Kernaufgaben; der 5B Hybrid TI2V für effizientes 720p/24)
  • Wenn Sie eine große, universelle T2V/I2V-Grundlage mit starker Bewegung und einer vollständigen Open-Supply-Software program (OSS)-Toolchain benötigen: HunyuanVideo (13B, xDiT-Parallelität, FP8-Gewichte, Diffusoren/ComfyUI)
  • Wenn Sie eine freizügige, hackbare State-of-the-Artwork-Vorschau (SOTA) mit moderner Bewegung und einer klaren Forschungs-Roadmap wünschen: Mochi 1 (10B AsymmDiT + AsymmVAE, Apache 2.0)
  • Wenn Ihnen Echtzeit-I2V und Bearbeitbarkeit mit Upscalern und ComfyUI-Workflows wichtig sind: LTX-Video (30 fps bei 1216 x 704, mehrere 13B/2B- und FP8-Varianten)
  • Wenn Sie effiziente 6s 720×480 T2V, solide Diffusor-Unterstützung und Quantisierung bis hin zu kleinem VRAM benötigen: CogVideoX-5B

Abid Ali Awan (@1abidaliawan) ist ein zertifizierter Datenwissenschaftler, der gerne Modelle für maschinelles Lernen erstellt. Derzeit konzentriert er sich auf die Erstellung von Inhalten und das Schreiben technischer Blogs zu maschinellem Lernen und Datenwissenschaftstechnologien. Abid verfügt über einen Grasp-Abschluss in Technologiemanagement und einen Bachelor-Abschluss in Telekommunikationstechnik. Seine Imaginative and prescient ist es, ein KI-Produkt mithilfe eines graphischen neuronalen Netzwerks für Schüler mit psychischen Erkrankungen zu entwickeln.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert