OmniVoice Studio – So verwenden Sie es
01 / 08
Was ist OmniVoice Studio?
OmniVoice Studio ist ein Open-Supply-Desktopanwendung zum Klonen von Stimmen, zum Überspielen von Movies, zum Diktieren in Echtzeit und zum Erfassen von Sprechertagebüchern. Alles läuft lokal auf Ihrem Rechner. Keine API-Schlüssel, kein Cloud-Konto, kein Abonnement erforderlich.
- 646 Sprachen wird für TTS über die Customary-OmniVoice-Engine unterstützt
- 99 Sprachen zur Transkription über WhisperX
- Verfügbar am macOS, Home windows und Linux
- GPU ist non-compulsory – die vollständige Pipeline läuft auf der CPU
- Kostenlos für den persönlichen, Bildungs- und Forschungsgebrauch (FSL-1.1-ALv2)
OmniVoice Studio – So verwenden Sie es
02 / 08
Systemanforderungen
Eine GPU ist non-compulsory. Ohne einen läuft TTS ungefähr 3× langsamer auf der CPU. Mit ≤8 GB VRAM verlagert TTS während der Transkription automatisch die CPU – keine Konfiguration erforderlich.
| Komponente | Minimal | Empfohlen |
|---|---|---|
| Betriebssystem | Win 10 / macOS 12+ / Ubuntu 20.04+ | Jedes moderne 64-Bit-Betriebssystem |
| RAM | 8 GB | 16 GB+ |
| VRAM | 4 GB (automatische Entladung) | 8 GB+ (RTX 3060+) |
| Scheibe | 10 GB kostenlos | 20 GB+ SSD |
| Python | 3.10+ | 3.11–3.12 |
| GPU | Elective | CUDA / MPS / ROCm |
OmniVoice Studio – So verwenden Sie es
03 / 08
Set up
Das Projekt empfiehlt die Ausführung aus dem Quellcode. Installieren Sie zunächst drei Voraussetzungen: ffmpeg, Brötchen (JS-Laufzeit) und UV (Python-Paketmanager).
git clone https://github.com/debpalash/OmniVoice-Studio.git
cd OmniVoice-Studio
uv sync
bun set up
bun dev
Frontend wird unter http://localhost:5173 | geladen API läuft auf Port 8000.
Modellgewichte werden bei der ersten Era automatisch heruntergeladen.
Vorgefertigte Installationsprogramme verfügbar: macOS DMG, Home windows MSI, Linux AppImage und .deb – siehe die Seite „Releases“ auf GitHub.
OmniVoice Studio – So verwenden Sie es
04 / 08
Stimmklonen
Verwendungsmöglichkeiten für das Klonen von Stimmen Zero-Shot-Lernen – Es klont eine Stimme aus einem Clip, der so kurz ist wie 3 Sekundenohne vorheriges Coaching dieser Stimme. Die standardmäßige OmniVoice-Engine konditioniert ein diffusionsbasiertes TTS-Modell für das Referenzaudio.
- Gehe zum Sprachklon Registerkarte in der Benutzeroberfläche
- Laden Sie ein hoch oder zeichnen Sie es auf 3-Sekunden-Audioclip der Zielstimme
- Geben Sie Ihren Textual content ein und wählen Sie eine Zielsprache aus (646 verfügbar)
- Klicken Erzeugen — Die Ausgabe wird in Ihrer Projektbibliothek gespeichert
Sprachgalerie: Durchsuchen Sie YouTube, durchsuchen Sie Kategorien und laden Sie Referenzclips direkt in der App herunter, um Ihre Sprachbibliothek aufzubauen.
OmniVoice Studio – So verwenden Sie es
05 / 08
Videosynchronisierung
Die vollständige Dubbing-Pipeline wird lokal ausgeführt: transkribieren → übersetzen → synthetisieren → muxen. Demucs isoliert den Gesang, sodass der ursprüngliche Hintergrundton beim endgültigen Export erhalten bleibt.
- Gehe zum Dub Tab – Fügen Sie eine YouTube-URL ein oder laden Sie eine lokale Datei hoch
- WhisperX transkribiert Sprache mit Ausrichtung auf Wortebene
- Wählen Sie eine Zielsprache; Die Übersetzung läuft automatisch ab
- Die TTS-Engine spricht das Transkript erneut aus. Demucs bewahrt Hintergrundaudio
- Exportieren Sie das Finale MP4 mit eingemischtem synchronisiertem Ton
Batch-Warteschlange: Legen Sie bis zu 50 Movies ab und gehen Sie weg. Jeder Job verfügt über einen eigenen Fortschrittsbalken, der die gesamte Pipeline verfolgt.
OmniVoice Studio – So verwenden Sie es
06 / 08
Diktat und Sprecheraufzeichnung
Diktat Funktioniert systemweit aus jeder Anwendung heraus. Diarisierung Identifiziert einzelne Sprecher in einer Audiodatei mit mehreren Sprechern mithilfe von Pyannote + WhisperX.
- Drücken ⌘+⇧+Leertaste (macOS), um das schwebende Diktat-Widget zu öffnen
- Sprachströme über WebSocket und automatisches Einfügen in das aktive Eingabefeld
- Laden Sie eine Datei mit mehreren Sprechern hoch Diarisierung Tab
- Pyannote identifiziert Wer hat was gesagt?; Jeder Sprecher erhält ein automatisch extrahiertes Sprachprofil
- Weisen Sie professional Sprecher eine TTS-Stimme für die Synchronisation professional Sprecher zu
Umarmungsgesicht-Token erforderlich für Pyannote-Diarisierung. Siehe docs/setup/huggingface-token.md im Repo.
OmniVoice Studio – So verwenden Sie es
07 / 08
TTS-Motoren
Sechs TTS-Motoren sind eingebaut. Umschalten über Einstellungen → TTS Engine oder die Umgebungsvariable:OMNIVOICE_TTS_BACKEND=cosyvoice
| Motor | Sprachen | Klon | Plattform |
|---|---|---|---|
| OmniVoice (Customary) | 600+ | ✓ | CUDA / MPS / CPU |
| CosyVoice 3 | 9 + 18 Dialekte | ✓ | CUDA / MPS / CPU |
| MLX-Audio | Multi | Variiert | Nur Apple Silicon |
| VoxCPM2 | 30 | ✓ | CUDA / MPS / CPU |
| MOSS-TTS-Nano | 20 | ✓ | CUDA / CPU |
| KätzchenTTS | Englisch | ✗ | Nur CPU |
Benutzerdefinierte Engine: Unterklasse TTSBackend in backend/companies/tts_backend.py und fügen Sie es zu _REGISTRY hinzu. ~50 Zeilen Python.
OmniVoice Studio – So verwenden Sie es
08 / 08
MCP-Server und Ressourcen
OmniVoice Studio verfügt über eine integrierte Funktion MCP-Serverwodurch Sprach- und Synchronisierungsfunktionen jedem MCP-kompatiblen Consumer – Claude, Cursor oder Ihren eigenen Instruments – zur Verfügung gestellt werden, ohne die Desktop-Benutzeroberfläche öffnen zu müssen.
- Der MCP-Server startet neben dem FastAPI-Backend Brötchen-Entwickler
- Richten Sie Ihren MCP-Consumer auf den lokalen Server, um auf alle Endpunkte zuzugreifen
- AudioSeal (Meta) bettet zur KI-Herkunft ein unsichtbares neuronales Wasserzeichen in alle generierten Audiodaten ein
- GitHub: github.com/debpalash/OmniVoice-Studio
- Dokumente installieren: docs/set up/ (MacOS / Home windows / Linux / Docker)
- Fehlerbehebung: docs/set up/troubleshooting.md
- Zwietracht: discord.gg/bzQavDfVV9
