Open Weight Text-to-Speach mit Voxtral TTS
Bild vom Herausgeber

# Einführung

Sprachgesteuerte Anwendungen gibt es überall, von virtuellen Assistenten bis hin zu Kundendienst-Chatbots. Doch für Entwickler bedeutete die Integration natürlich klingender Sprache in Apps oft, dass sie sich auf teure Cloud-APIs verlassen mussten oder sich mit unnatürlichen Roboterstimmen auseinandersetzen mussten.

Mistral-KI möchte das mit ändern Voxtral TTS. Es handelt sich um ein leistungsstarkes, offenes TTS-Modell (Textual content-to-Speech), das Sie auf Ihrer eigenen {Hardware} ausführen können. Dieses am 26. März 2026 veröffentlichte 4-Milliarden-Parameter-Modell generiert menschenähnliche Sprache in neun Sprachen und passt sich bereits ab drei Sekunden Referenzaudio an eine neue Stimme an.

In diesem Voxtral TTS-Tutorial erfahren Sie, wie das Modell funktioniert, was das Klonen von Stimmen und die Leistung mit geringer Latenz so besonders macht und wie Sie mit nur wenigen Zeilen Python-Code mit der Sprachgenerierung beginnen können.

# Was ist Voxtral TTS?

Voxtral TTS ist das erste TTS-Modell von Mistral AI. Im Gegensatz zu vielen kommerziellen Angeboten, die Sie an Cloud-APIs binden, wird Voxtral TTS mit offenen Gewichtungen veröffentlicht. Sie können das Modell herunterladen und vollständig auf Ihrer eigenen Infrastruktur ausführen. Dadurch haben Sie die volle Kontrolle über Ihre Daten, Kosten und Anpassungen.

Das Modell basiert auf der bestehenden Ministral 3B-Architektur von Mistral und ist somit klein genug, um auf Verbraucherhardware, einschließlich Laptops und Edge-Geräten, ausgeführt zu werden. Laut Mistral liefert Voxtral TTS „Grenzqualität„Leistung, die bei menschlichen Hörtests führenden proprietären Systemen entspricht oder diese übertrifft.

// Open Weight vs. Open Supply

Es ist wichtig zu verstehen, dass „Open Weight“ nicht dasselbe ist wie vollständig Open Supply. Mit Voxtral TTS haben Sie Zugriff auf die trainierten Modellgewichte, die Sie unter anderem für Forschung und persönliche Projekte nutzen können CC BY-NC 4.0-Lizenz. Für die kommerzielle Nutzung ist jedoch eine separate Lizenzvereinbarung oder die Nutzung der kostenpflichtigen API von Mistral erforderlich.

// Hauptmerkmale

Voxtral TTS bietet eine Reihe leistungsstarker Funktionen, die für reale Sprachanwendungen entwickelt wurden:

  • Es kann eine neue Stimme aus nur 3 Sekunden Referenzaudio klonen.
  • Bietet niedrige Latenz mit einer Modelllatenz von 70 ms und einer Zeit bis zum ersten Audio von ca. 100 ms.
  • Erreicht einen Echtzeitfaktor (RTF) von 9,7x, was bedeutet, dass 10 Sekunden Sprache in etwa 1,6 Sekunden generiert werden.
  • Unterstützt 9 Sprachen: Englisch, Französisch, Deutsch, Spanisch, Niederländisch, Portugiesisch, Italienisch, Hindi und Arabisch.
  • Hat 4 Milliarden Parameter.
  • Bietet offene Gewichtungen unter CC BY-NC 4.0 für die nichtkommerzielle Nutzung, mit einer API-Possibility für kommerzielle Projekte und beinhaltet native Unterstützung für Streaming-Inferenz mit geringer Latenz.

# Klonen einer Stimme aus drei Sekunden Audio

Eine der beeindruckendsten Fähigkeiten von Voxtral TTS ist das Zero-Shot-Voice-Cloning. Herkömmliche Systeme zum Klonen von Stimmen benötigen oft 30 Sekunden oder mehr Referenzaudio, um die Stimme einer Individual zu erfassen. Voxtral TTS funktioniert mit nur 3 Sekunden.

Wenn Sie eine kurze Sprachansage bereitstellen, analysiert das Modell die einzigartigen Eigenschaften des Sprechers – wie Akzent, Intonation, Rhythmus und sogar emotionalen Ton – und kann dann mit derselben Stimme eine neue Sprache generieren. Dies funktioniert in allen neun unterstützten Sprachen, sodass Sie einen mehrsprachigen Stimmklon erstellen können, der Englisch, Französisch oder Hindi spricht und dabei die ursprüngliche Stimmidentität beibehält.

// Wie Voxtral TTS im Vergleich zu ElevenLabs abschneidet

In blinden menschlichen Bewertungen, die von Muttersprachlern in allen neun Sprachen durchgeführt wurden, erreichte Voxtral TTS einen 68,4 % Gewinnrate vorbei ElevenLabs Flash v2.5. Das Modell schnitt außergewöhnlich intestine ab in:

Sprache Gewinnrate im Vergleich zu ElevenLabs Flash v2.5
Spanisch 87,8 %
Hindi 79,8 %
Portugiesisch 74,4 %
Arabisch 72,9 %
Deutsch 72,0 %
Englisch 60,8 %
Italienisch 57,1 %
Französisch 54,4 %
Niederländisch 49,4 %

Quelle: Hugging Face-Group-Weblog: Voxtral TTS vs. ElevenLabs

# Latenzleistung: Entwickelt für Gespräche in Echtzeit

Bei Sprachagenten und interaktiven Anwendungen kommt es auf Geschwindigkeit an. Schon eine Verzögerung von ein paar hundert Millisekunden kann dazu führen, dass sich ein Gespräch unangenehm oder unterbrochen anfühlt.

Voxtral TTS wurde speziell für Streaming-Inferenz mit geringer Latenz entwickelt. Laut der offiziellen Dokumentation von Mistral erreicht das Modell:

  • 70 ms Modelllatenz für eine typische Eingabe von 10 Sekunden Sprachbeispiel und 500 Zeichen Textual content.
  • ~100 ms Time-to-First-Audio (TTFA) – die Zeit vom Senden des Textes bis zum Hören des ersten Tons.
  • Eine RTF von 9,7x – was bedeutet, dass sie quick zehnmal schneller als in Echtzeit generiert werden kann.

Um das ins rechte Licht zu rücken: Ein 10-sekündiger Audioclip kann in etwas mehr als 1 Sekunde generiert werden. Dadurch eignet sich Voxtral TTS für Echtzeitanwendungen wie:

  • Konversations-KI-Agenten
  • Reside-Kundensupportsysteme
  • Echtzeit-Übersetzungstools
  • Sprachgesteuerte IoT-Geräte

Das Modell kann nativ bis zu zwei Minuten ununterbrochenen Ton erzeugen, ohne dass es zu Unterbrechungen kommt.

// Den Echtzeitfaktor verstehen

RTF misst, wie schnell ein Modell Audio im Vergleich zur tatsächlichen Dauer dieses Audios generiert. Ein RTF von 1,0 bedeutet, dass die Generierung genauso lange dauert wie die Audiolänge. Ein RTF von 9,7 bedeutet, dass die Generierung 9,7-mal schneller ist – die Produktion eines 10-Sekunden-Clips dauert nur etwa 1,03 Sekunden.

# So funktioniert Voxtral TTS

Ohne zu tief in die Mathematik einzusteigen, finden Sie hier einen allgemeinen Überblick über die Architektur des Modells.

Voxtral TTS verwendet einen Hybridansatz, der zwei Techniken kombiniert:

  • Semantische Token-Generierung. Das Modell generiert zunächst „semantische Token“, die die Bedeutung und Struktur dessen darstellen, was gesprochen werden muss. Dies ähnelt der Artwork und Weise, wie ein Sprachmodell Textual content-Tokens generiert.
  • Movement-Matching für akustische Token. Diese semantischen Token werden dann in akustische Token umgewandelt, die die tatsächlichen Schallwellen der Sprache darstellen.

Beide Arten von Token werden mit dem Voxtral Codec kodiert und dekodiert, einem benutzerdefinierten Sprach-Tokenisierer, der von Grund auf mit einem Hybrid-Vektorquantisierungsschema (VQ-FSQ) trainiert wurde.

Dieser zweistufige Prozess ermöglicht die Trennung des Modells Was sagen (Inhalt) von Wie es sagen (Stimmstil, Emotion, Akzent). Aus diesem Grund kann das Modell eine Stimme aus einem kurzen Pattern klonen; es lernt das „Wie“ aus dem Referenzaudio und wendet es auf einen beliebigen Textual content an.

Für einen tieferen technischen Einblick sehen Sie sich die vollständige Anleitung an Voxtral TTS-Artikel zu arXiv.

# Erste Schritte: Set up und Einrichtung

Sie können Voxtral TTS auf zwei Arten nutzen:

  • Über die API von Mistral – am einfachsten für schnelle Checks und kommerzielle Nutzung.
  • Selbstgehostet mit offenen Gewichten – volle Kontrolle, kostenlos für nichtkommerzielle Nutzung.

Voraussetzungen:

  • Grundlegende Vertrautheit mit Python und der Befehlszeile.
  • Python 3.10 oder höher.
  • Der pip Paketmanager.
  • Für Selbsthosting: eine NVIDIA-GPU (8 GB+ VRAM empfohlen) oder Apple Silicon Mac.

// Possibility 1: Verwendung der Mistral-API

Mistral bietet ein einfaches Python SDK. Installieren Sie zunächst den Mistral AI-Shopper:

Dann generieren Sie Sprache mit nur wenigen Zeilen:

from mistralai import Mistral

api_key = "your-api-key"  # Get from console.mistral.ai
consumer = Mistral(api_key=api_key)

response = consumer.audio.speech.create(
    mannequin="voxtral-tts-26-03",
    enter="Howdy, world! This can be a take a look at of Voxtral TTS.",
    voice="alloy",  # or a customized voice immediate
)

# Save the audio to a file
with open("output.wav", "wb") as f:
    f.write(response.audio)

Die API kostet 0,016 $ professional 1.000 Zeichen. Sie können das Modell auch kostenlos testen Mistral Studio.

// Possibility 2: Selbsthosting mit offenen Gewichten

Für das Selbsthosting können Sie die Modellgewichte unter herunterladen Umarmendes Gesicht. Das Modell wird unter einer CC BY-NC 4.0-Lizenz veröffentlicht. Eine beliebte, von der Group entwickelte Possibility ist die Verwendung der int4-Quantisierung für eine effiziente Inferenz. Der voxtral-int4 Durch die Umsetzung wird erreicht:

  • 4,6-fache Sprachgenerierung in Echtzeit.
  • 3,7 GB VRAM-Nutzung auf einer RTX 3090.
  • 54 % VRAM-Reduzierung im Vergleich zu voller Präzision.

# Stimmenklonen mit einer benutzerdefinierten Stimme: Ein praktisches Beispiel

Eine der leistungsstärksten Funktionen ist die Anpassung des Modells an jede Stimme. Hier ist ein vollständiges Beispiel für die Verwendung der Mistral-API:

from mistralai import Mistral

api_key = "your-api-key"
consumer = Mistral(api_key=api_key)

# Step 1: Load or file a reference audio file (3+ seconds)
reference_audio_path = "my_voice_sample.wav"

# Step 2: Open the audio file for add
with open(reference_audio_path, "rb") as f:
    audio_content = f.learn()

# Step 3: Generate speech utilizing the cloned voice
response = consumer.audio.speech.create(
    mannequin="voxtral-tts-26-03",
    enter="That is my voice, cloned from only a few seconds of audio.",
    voice=audio_content,  # Move the reference audio instantly
)

# Save the generated speech
with open("cloned_voice_output.wav", "wb") as f:
    f.write(response.audio)

Der Referenzton sollte klar, ohne Hintergrundgeräusche und mindestens 3 Sekunden lang sein. Je länger das Pattern (bis zu etwa 25 Sekunden) ist, desto besser ist die Sprachqualität.

# Anwendungsfälle

Hier sind praktische Szenarien, in denen sich Voxtral TTS auszeichnet:

  • Sprachassistenten und Chatbots. Durch die geringe Latenz (~100 ms TTFA) fühlen sich Gespräche natürlich und reaktionsschnell an. Im Gegensatz zu cloudbasierten APIs, die zusätzliche Netzwerkkosten verursachen, kann das selbst gehostete Voxtral TTS alles auf Ihren eigenen Servern speichern.
  • Mehrsprachiger Kundensupport. Mit Unterstützung für neun Hauptsprachen und sprachübergreifendem Voice-Cloning kann ein einziges Modell globale Kunden bedienen. Beispielsweise können Sie anhand einer kurzen Referenzaufforderung eine englische Sprache mit französischem Akzent generieren.
  • Inhaltslokalisierung. Übersetzen und synchronisieren Sie Movies, Podcasts oder E-Studying-Inhalte in mehrere Sprachen und bewahren Sie dabei die Sprachidentität des ursprünglichen Sprechers in allen Sprachen.
  • Barrierefreiheitstools. Erstellen Sie Screenreader und unterstützende Technologien mit natürlichen, ausdrucksstarken Stimmen, die Benutzer an ihre bevorzugte Stimme anpassen können.
  • Gaming und interaktive Medien. Generieren Sie dynamische Charakterdialoge in Echtzeit und passen Sie sich den Entscheidungen des Spielers an, ohne jede Zeile vorab aufzuzeichnen.

# Überlegungen zur Lizenzierung und Bereitstellung

// Offene Gewichte (CC BY-NC 4.0)

  • Zulässig: Forschung, persönliche Projekte, akademische Nutzung, interne Checks.
  • Nicht erlaubt: kommerzielle Produkte, umsatzgenerierende Dienstleistungen, Weiterverbreitung zu kommerziellen Zwecken.
  • Erfordert Zuordnung zu Mistral AI.

// Kommerzielle Nutzung

Für kommerzielle Anwendungen haben Sie zwei Möglichkeiten:

  • Nutzen Sie die API von Mistral – nutzungsbasierte Bezahlung für 0,016 $ professional 1.000 Zeichen.
  • Verhandeln Sie eine kommerzielle Lizenz – wenden Sie sich für eine Unternehmenslizenz an Mistral.

Wenn Sie eine unbegrenzte Skalierung ohne Kosten professional Anfrage benötigen, ist Selbsthosting mit einer kommerziellen Lizenz der kostengünstigste Weg für Anwendungsfälle mit hohem Volumen. Für geringes bis mittleres Volumen ist die API einfacher.

# Abschluss

Voxtral TTS macht Textual content-to-Speech auf Unternehmensniveau für jeden Entwickler zugänglich. Mit nur 3 Sekunden Audio für das Klonen von Stimmen, einer Latenz von 70 ms und einem 9,7-fachen Echtzeitfaktor ist es für die Echtzeit-Konversationsanwendungen konzipiert, die Benutzer heute erwarten.

Ganz gleich, ob Sie sich für die Einfachheit der Mistral-API oder die volle Kontrolle über die selbst gehostete Bereitstellung entscheiden, Voxtral TTS bietet Ihnen eine leistungsstarke Grundlage, um Ihren Projekten natürliche, ausdrucksstarke Sprache hinzuzufügen.

Nächste Schritte:

Shittu Olumid ist ein Software program-Ingenieur und technischer Autor, der sich leidenschaftlich dafür einsetzt, modernste Technologien zu nutzen, um fesselnde Erzählungen zu erschaffen, mit einem scharfen Blick fürs Element und einem Gespür für die Vereinfachung komplexer Konzepte. Sie können Shittu auch auf finden Twitter.



Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert