OmniVoice Studio – So verwenden Sie es
01 / 08

Was ist OmniVoice Studio?

OmniVoice Studio ist ein Open-Supply-Desktopanwendung zum Klonen von Stimmen, zum Überspielen von Movies, zum Diktieren in Echtzeit und zum Erfassen von Sprechertagebüchern. Alles läuft lokal auf Ihrem Rechner. Keine API-Schlüssel, kein Cloud-Konto, kein Abonnement erforderlich.

  • 646 Sprachen wird für TTS über die Customary-OmniVoice-Engine unterstützt
  • 99 Sprachen zur Transkription über WhisperX
  • Verfügbar am macOS, Home windows und Linux
  • GPU ist non-compulsory – die vollständige Pipeline läuft auf der CPU
  • Kostenlos für den persönlichen, Bildungs- und Forschungsgebrauch (FSL-1.1-ALv2)

OmniVoice Studio – So verwenden Sie es
02 / 08

Systemanforderungen

Eine GPU ist non-compulsory. Ohne einen läuft TTS ungefähr 3× langsamer auf der CPU. Mit ≤8 GB VRAM verlagert TTS während der Transkription automatisch die CPU – keine Konfiguration erforderlich.

Komponente Minimal Empfohlen
Betriebssystem Win 10 / macOS 12+ / Ubuntu 20.04+ Jedes moderne 64-Bit-Betriebssystem
RAM 8 GB 16 GB+
VRAM 4 GB (automatische Entladung) 8 GB+ (RTX 3060+)
Scheibe 10 GB kostenlos 20 GB+ SSD
Python 3.10+ 3.11–3.12
GPU Elective CUDA / MPS / ROCm

OmniVoice Studio – So verwenden Sie es
03 / 08

Set up

Das Projekt empfiehlt die Ausführung aus dem Quellcode. Installieren Sie zunächst drei Voraussetzungen: ffmpeg, Brötchen (JS-Laufzeit) und UV (Python-Paketmanager).

git clone https://github.com/debpalash/OmniVoice-Studio.git
cd OmniVoice-Studio
uv sync
bun set up
bun dev

Frontend wird unter http://localhost:5173 | geladen API läuft auf Port 8000.
Modellgewichte werden bei der ersten Era automatisch heruntergeladen.

Vorgefertigte Installationsprogramme verfügbar: macOS DMG, Home windows MSI, Linux AppImage und .deb – siehe die Seite „Releases“ auf GitHub.

OmniVoice Studio – So verwenden Sie es
04 / 08

Stimmklonen

Verwendungsmöglichkeiten für das Klonen von Stimmen Zero-Shot-Lernen – Es klont eine Stimme aus einem Clip, der so kurz ist wie 3 Sekundenohne vorheriges Coaching dieser Stimme. Die standardmäßige OmniVoice-Engine konditioniert ein diffusionsbasiertes TTS-Modell für das Referenzaudio.

  • Gehe zum Sprachklon Registerkarte in der Benutzeroberfläche
  • Laden Sie ein hoch oder zeichnen Sie es auf 3-Sekunden-Audioclip der Zielstimme
  • Geben Sie Ihren Textual content ein und wählen Sie eine Zielsprache aus (646 verfügbar)
  • Klicken Erzeugen — Die Ausgabe wird in Ihrer Projektbibliothek gespeichert

Sprachgalerie: Durchsuchen Sie YouTube, durchsuchen Sie Kategorien und laden Sie Referenzclips direkt in der App herunter, um Ihre Sprachbibliothek aufzubauen.

OmniVoice Studio – So verwenden Sie es
05 / 08

Videosynchronisierung

Die vollständige Dubbing-Pipeline wird lokal ausgeführt: transkribieren → übersetzen → synthetisieren → muxen. Demucs isoliert den Gesang, sodass der ursprüngliche Hintergrundton beim endgültigen Export erhalten bleibt.

  • Gehe zum Dub Tab – Fügen Sie eine YouTube-URL ein oder laden Sie eine lokale Datei hoch
  • WhisperX transkribiert Sprache mit Ausrichtung auf Wortebene
  • Wählen Sie eine Zielsprache; Die Übersetzung läuft automatisch ab
  • Die TTS-Engine spricht das Transkript erneut aus. Demucs bewahrt Hintergrundaudio
  • Exportieren Sie das Finale MP4 mit eingemischtem synchronisiertem Ton

Batch-Warteschlange: Legen Sie bis zu 50 Movies ab und gehen Sie weg. Jeder Job verfügt über einen eigenen Fortschrittsbalken, der die gesamte Pipeline verfolgt.

OmniVoice Studio – So verwenden Sie es
06 / 08

Diktat und Sprecheraufzeichnung

Diktat Funktioniert systemweit aus jeder Anwendung heraus. Diarisierung Identifiziert einzelne Sprecher in einer Audiodatei mit mehreren Sprechern mithilfe von Pyannote + WhisperX.

  • Drücken ⌘+⇧+Leertaste (macOS), um das schwebende Diktat-Widget zu öffnen
  • Sprachströme über WebSocket und automatisches Einfügen in das aktive Eingabefeld
  • Laden Sie eine Datei mit mehreren Sprechern hoch Diarisierung Tab
  • Pyannote identifiziert Wer hat was gesagt?; Jeder Sprecher erhält ein automatisch extrahiertes Sprachprofil
  • Weisen Sie professional Sprecher eine TTS-Stimme für die Synchronisation professional Sprecher zu

Umarmungsgesicht-Token erforderlich für Pyannote-Diarisierung. Siehe docs/setup/huggingface-token.md im Repo.

OmniVoice Studio – So verwenden Sie es
07 / 08

TTS-Motoren

Sechs TTS-Motoren sind eingebaut. Umschalten über Einstellungen → TTS Engine oder die Umgebungsvariable:
OMNIVOICE_TTS_BACKEND=cosyvoice

Motor Sprachen Klon Plattform
OmniVoice (Customary) 600+ CUDA / MPS / CPU
CosyVoice 3 9 + 18 Dialekte CUDA / MPS / CPU
MLX-Audio Multi Variiert Nur Apple Silicon
VoxCPM2 30 CUDA / MPS / CPU
MOSS-TTS-Nano 20 CUDA / CPU
KätzchenTTS Englisch Nur CPU

Benutzerdefinierte Engine: Unterklasse TTSBackend in backend/companies/tts_backend.py und fügen Sie es zu _REGISTRY hinzu. ~50 Zeilen Python.

OmniVoice Studio – So verwenden Sie es
08 / 08

MCP-Server und Ressourcen

OmniVoice Studio verfügt über eine integrierte Funktion MCP-Serverwodurch Sprach- und Synchronisierungsfunktionen jedem MCP-kompatiblen Consumer – ​​Claude, Cursor oder Ihren eigenen Instruments – zur Verfügung gestellt werden, ohne die Desktop-Benutzeroberfläche öffnen zu müssen.

  • Der MCP-Server startet neben dem FastAPI-Backend Brötchen-Entwickler
  • Richten Sie Ihren MCP-Consumer auf den lokalen Server, um auf alle Endpunkte zuzugreifen
  • AudioSeal (Meta) bettet zur KI-Herkunft ein unsichtbares neuronales Wasserzeichen in alle generierten Audiodaten ein
  • GitHub: github.com/debpalash/OmniVoice-Studio
  • Dokumente installieren: docs/set up/ (MacOS / Home windows / Linux / Docker)
  • Fehlerbehebung: docs/set up/troubleshooting.md
  • Zwietracht: discord.gg/bzQavDfVV9

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert