Lernen Sie OmniVoice Studio kennen: eine lokale Open-Supply-Various zu ElevenLabs

OmniVoice Studio – So verwenden Sie es
01 / 08

Was ist OmniVoice Studio?

OmniVoice Studio ist ein Open-Supply-Desktopanwendung zum Klonen von Stimmen, zum Überspielen von Movies, zum Diktieren in Echtzeit und zum Erfassen von Sprechertagebüchern. Alles läuft lokal auf Ihrem Rechner. Keine API-Schlüssel, kein Cloud-Konto, kein Abonnement erforderlich.

646 Sprachen wird für TTS über die Customary-OmniVoice-Engine unterstützt
99 Sprachen zur Transkription über WhisperX
Verfügbar am macOS, Home windows und Linux
GPU ist non-compulsory – die vollständige Pipeline läuft auf der CPU
Kostenlos für den persönlichen, Bildungs- und Forschungsgebrauch (FSL-1.1-ALv2)

OmniVoice Studio – So verwenden Sie es
02 / 08

Systemanforderungen

Eine GPU ist non-compulsory. Ohne einen läuft TTS ungefähr 3× langsamer auf der CPU. Mit ≤8 GB VRAM verlagert TTS während der Transkription automatisch die CPU – keine Konfiguration erforderlich.

Komponente	Minimal	Empfohlen
Betriebssystem	Win 10 / macOS 12+ / Ubuntu 20.04+	Jedes moderne 64-Bit-Betriebssystem
RAM	8 GB	16 GB+
VRAM	4 GB (automatische Entladung)	8 GB+ (RTX 3060+)
Scheibe	10 GB kostenlos	20 GB+ SSD
Python	3.10+	3.11–3.12
GPU	Elective	CUDA / MPS / ROCm

OmniVoice Studio – So verwenden Sie es
03 / 08

Set up

Das Projekt empfiehlt die Ausführung aus dem Quellcode. Installieren Sie zunächst drei Voraussetzungen: ffmpeg, Brötchen (JS-Laufzeit) und UV (Python-Paketmanager).

git clone https://github.com/debpalash/OmniVoice-Studio.git cd OmniVoice-Studio uv sync bun set up bun dev

Frontend wird unter http://localhost:5173 | geladen API läuft auf Port 8000.
Modellgewichte werden bei der ersten Era automatisch heruntergeladen.

Vorgefertigte Installationsprogramme verfügbar: macOS DMG, Home windows MSI, Linux AppImage und .deb – siehe die Seite „Releases“ auf GitHub.

OmniVoice Studio – So verwenden Sie es
04 / 08

Stimmklonen

Verwendungsmöglichkeiten für das Klonen von Stimmen Zero-Shot-Lernen – Es klont eine Stimme aus einem Clip, der so kurz ist wie 3 Sekundenohne vorheriges Coaching dieser Stimme. Die standardmäßige OmniVoice-Engine konditioniert ein diffusionsbasiertes TTS-Modell für das Referenzaudio.

Gehe zum Sprachklon Registerkarte in der Benutzeroberfläche
Laden Sie ein hoch oder zeichnen Sie es auf 3-Sekunden-Audioclip der Zielstimme
Geben Sie Ihren Textual content ein und wählen Sie eine Zielsprache aus (646 verfügbar)
Klicken Erzeugen — Die Ausgabe wird in Ihrer Projektbibliothek gespeichert

Sprachgalerie: Durchsuchen Sie YouTube, durchsuchen Sie Kategorien und laden Sie Referenzclips direkt in der App herunter, um Ihre Sprachbibliothek aufzubauen.

OmniVoice Studio – So verwenden Sie es
05 / 08

Videosynchronisierung

Die vollständige Dubbing-Pipeline wird lokal ausgeführt: transkribieren → übersetzen → synthetisieren → muxen. Demucs isoliert den Gesang, sodass der ursprüngliche Hintergrundton beim endgültigen Export erhalten bleibt.

Gehe zum Dub Tab – Fügen Sie eine YouTube-URL ein oder laden Sie eine lokale Datei hoch
WhisperX transkribiert Sprache mit Ausrichtung auf Wortebene
Wählen Sie eine Zielsprache; Die Übersetzung läuft automatisch ab
Die TTS-Engine spricht das Transkript erneut aus. Demucs bewahrt Hintergrundaudio
Exportieren Sie das Finale MP4 mit eingemischtem synchronisiertem Ton

Batch-Warteschlange: Legen Sie bis zu 50 Movies ab und gehen Sie weg. Jeder Job verfügt über einen eigenen Fortschrittsbalken, der die gesamte Pipeline verfolgt.

OmniVoice Studio – So verwenden Sie es
06 / 08

Diktat und Sprecheraufzeichnung

Diktat Funktioniert systemweit aus jeder Anwendung heraus. Diarisierung Identifiziert einzelne Sprecher in einer Audiodatei mit mehreren Sprechern mithilfe von Pyannote + WhisperX.

Drücken ⌘+⇧+Leertaste (macOS), um das schwebende Diktat-Widget zu öffnen
Sprachströme über WebSocket und automatisches Einfügen in das aktive Eingabefeld
Laden Sie eine Datei mit mehreren Sprechern hoch Diarisierung Tab
Pyannote identifiziert Wer hat was gesagt?; Jeder Sprecher erhält ein automatisch extrahiertes Sprachprofil
Weisen Sie professional Sprecher eine TTS-Stimme für die Synchronisation professional Sprecher zu

Umarmungsgesicht-Token erforderlich für Pyannote-Diarisierung. Siehe docs/setup/huggingface-token.md im Repo.

OmniVoice Studio – So verwenden Sie es
07 / 08

TTS-Motoren

Sechs TTS-Motoren sind eingebaut. Umschalten über Einstellungen → TTS Engine oder die Umgebungsvariable:
OMNIVOICE_TTS_BACKEND=cosyvoice

Motor	Sprachen	Klon	Plattform
OmniVoice (Customary)	600+	✓	CUDA / MPS / CPU
CosyVoice 3	9 + 18 Dialekte	✓	CUDA / MPS / CPU
MLX-Audio	Multi	Variiert	Nur Apple Silicon
VoxCPM2	30	✓	CUDA / MPS / CPU
MOSS-TTS-Nano	20	✓	CUDA / CPU
KätzchenTTS	Englisch	✗	Nur CPU

Benutzerdefinierte Engine: Unterklasse TTSBackend in backend/companies/tts_backend.py und fügen Sie es zu _REGISTRY hinzu. ~50 Zeilen Python.

OmniVoice Studio – So verwenden Sie es
08 / 08

MCP-Server und Ressourcen

OmniVoice Studio verfügt über eine integrierte Funktion MCP-Serverwodurch Sprach- und Synchronisierungsfunktionen jedem MCP-kompatiblen Consumer – Claude, Cursor oder Ihren eigenen Instruments – zur Verfügung gestellt werden, ohne die Desktop-Benutzeroberfläche öffnen zu müssen.

Der MCP-Server startet neben dem FastAPI-Backend Brötchen-Entwickler
Richten Sie Ihren MCP-Consumer auf den lokalen Server, um auf alle Endpunkte zuzugreifen
AudioSeal (Meta) bettet zur KI-Herkunft ein unsichtbares neuronales Wasserzeichen in alle generierten Audiodaten ein

GitHub: github.com/debpalash/OmniVoice-Studio
Dokumente installieren: docs/set up/ (MacOS / Home windows / Linux / Docker)
Fehlerbehebung: docs/set up/troubleshooting.md
Zwietracht: discord.gg/bzQavDfVV9

Lernen Sie OmniVoice Studio kennen: eine lokale Open-Supply-Various zu ElevenLabs

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Liquid AI veröffentlicht LFM2.5-Encoder-230M und LFM2.5-Encoder-350M: Bidirektionale Encoder, die bei 8K-Kontext auf der CPU schnell bleiben

Die 20 wichtigsten Befehle für Entwickler

Die 5 besten KI-Instruments für die Datenanalyse, die Sie 2026 ausprobieren sollten

5 Architekturmuster für persistenten Speicher und Zustand in KI-Agenten

About

Categories

Tags

Recent Post

Liquid AI veröffentlicht LFM2.5-Encoder-230M und LFM2.5-Encoder-350M: Bidirektionale Encoder, die bei 8K-Kontext auf der CPU schnell bleiben

Die 20 wichtigsten Befehle für Entwickler

Lernen Sie OmniVoice Studio kennen: eine lokale Open-Supply-Various zu ElevenLabs

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt