Elon Musks KI-Unternehmen xAI hat zwei eigenständige Audio-APIs eingeführt – eine Speech-to-Textual content (STT) API und eine Textual content-to-Speech (TTS) API – beide basieren auf derselben Infrastruktur, die Grok Voice auf mobilen Apps, Tesla-Fahrzeugen und dem Starlink-Kundensupport unterstützt. Die Veröffentlichung bringt xAI direkt in den umkämpften Markt für Sprach-APIs, der derzeit von ElevenLabs, Deepgram und AssemblyAI besetzt ist.

Was ist die Grok Speech-to-Textual content-API?

Speech-to-Textual content ist die Technologie, die gesprochene Audiodaten in geschriebenen Textual content umwandelt. Für Entwickler, die Instruments zur Besprechungstranskription, Sprachagenten, Callcenter-Analysen oder Barrierefreiheitsfunktionen entwickeln, ist eine STT-API ein zentraler Baustein. Anstatt dies von Grund auf neu zu entwickeln, rufen Entwickler einen Endpunkt auf, senden Audio und erhalten im Gegenzug ein strukturiertes Transkript.

Die Grok STT-API ist jetzt allgemein verfügbar und bietet Transkription in 25 Sprachen sowohl im Batch- als auch im Streaming-Modus. Der Batch-Modus ist für die Verarbeitung vorab aufgenommener Audiodateien konzipiert, während Streaming die Transkription in Echtzeit während der Audioaufnahme ermöglicht. Die Preise sind unkompliziert: Speech-to-Textual content kostet 0,10 $ professional Stunde für Batch und 0,20 $ professional Stunde für Streaming.

Die API umfasst Zeitstempel auf Wortebene, Sprechertagebücher und Mehrkanalunterstützung sowie eine intelligente inverse Textnormalisierung, die Zahlen, Datumsangaben, Währungen und mehr korrekt verarbeitet. Es akzeptiert auch 12 Audioformate — neun Containerformate (WAV, MP3, OGG, Opus, FLAC, AAC, MP4, M4A, MKV) und drei Rohformate (PCM, µ-law, A-law) mit einer maximalen Dateigröße von 500 MB professional Anfrage.

Sprechertagebuch ist der Prozess der Trennung von Audiosignalen nach einzelnen Sprechern – zur Beantwortung der Frage „Wer hat was gesagt?“. Dies ist entscheidend für Aufzeichnungen mit mehreren Sprechern wie Besprechungen, Interviews oder Kundenanrufen. Zeitstempel auf Wortebene Weisen Sie jedem Wort im Transkript genaue Begin- und Endzeiten zu und ermöglichen Sie so Anwendungsfälle wie die Generierung von Untertiteln, durchsuchbare Aufzeichnungen und rechtliche Dokumentation. Inverse Textnormalisierung Konvertiert gesprochene Formen wie „einhundertsiebenundsechzigtausendneunhundertdreiundachtzig Greenback und fünfzehn Cent“ in eine lesbare strukturierte Ausgabe: „167.983,15 $.“

Benchmark-Leistung

Das xAI-Forschungsteam stellt hohe Ansprüche an die Genauigkeit. Bei der Entitätserkennung bei Telefonanrufen – Namen, Kontonummern, Daten – gibt Grok STT eine Fehlerquote von 5,0 % an, verglichen mit ElevenLabs mit 12,0 %, Deepgram mit 13,5 % und AssemblyAI mit 21,3 %. Das ist eine beträchtliche Marge, wenn es in der Produktion bleibt. Bei der Video- und Podcast-Transkription lagen Grok und ElevenLabs mit einer Fehlerquote von 2,4 % gleichauf, während Deepgram und AssemblyAI mit 3,0 % bzw. 3,2 % zurückblieben. Das xAI-Staff meldet außerdem eine Wortfehlerrate von 6,9 % bei allgemeinen Audio-Benchmarks.

https://x.ai/information/grok-stt-and-tts-apis
https://x.ai/information/grok-stt-and-tts-apis

Was ist die Grok Textual content-to-Speech-API?

Textual content-to-Speech wandelt geschriebenen Textual content in gesprochenes Audio um. Entwickler nutzen TTS-APIs, um Sprachassistenten, Vorlesefunktionen, Podcast-Generierung, IVR-Systeme (Interactive Voice Response) und Barrierefreiheitstools zu betreiben.

Die Grok TTS API bietet eine schnelle, natürliche Sprachsynthese mit detaillierter Steuerung über Sprach-Tags und kostet 4,20 US-Greenback professional 1 Million Zeichen. Die API akzeptiert bis zu 15.000 Zeichen professional REST-Anfrage; Für längere Inhalte steht ein WebSocket-Streaming-Endpunkt zur Verfügung, der keine Textlängenbeschränkung hat und mit der Audioausgabe beginnt, bevor die vollständige Eingabe verarbeitet wurde. Die API unterstützt 20 Sprachen und fünf verschiedene Stimmen: Ara, Eve, Leo, Rex und Sal – wobei Eve als Normal festgelegt ist.

Über die Sprachauswahl hinaus können Entwickler Inline- und Wrapping-Sprach-Tags einfügen, um die Zustellung zu steuern. Dazu gehören Inline-Tags wie (snort), (sigh)Und (breath)und Wrapping-Tags wie <whisper>textual content</whisper> Und <emphasis>textual content</emphasis>Dadurch können Entwickler ansprechende, lebensechte Bereitstellungen ohne komplexes Markup erstellen. Diese Ausdruckskraft beseitigt eine der zentralen Einschränkungen traditioneller TTS-Systeme, die oft technisch korrekte, aber emotional flache Ergebnisse liefern.

Wichtige Erkenntnisse

  • xAI hat zwei eigenständige Audio-APIs eingeführt – Grok Speech-to-Textual content (STT) und Textual content-to-Speech (TTS) – basieren auf demselben Produktions-Stack und bedienen bereits Millionen von Benutzern über cellular Grok-Apps, Tesla-Fahrzeuge und den Starlink-Kundensupport.
  • Die Grok STT API bietet Echtzeit- und Batch-Transkription in 25 Sprachen mit Sprecherdiagnose, Zeitstempeln auf Wortebene, inverser Textnormalisierung und Unterstützung für 12 Audioformate – zum Preis von 0,10 $/Stunde für Batch und 0,20 $/Stunde für Streaming.
  • Benchmarks zur Entitätserkennung bei TelefonanrufenGrok STT meldet eine Fehlerquote von 5,0 % und übertrifft damit deutlich ElevenLabs (12,0 %), Deepgram (13,5 %) und AssemblyAI (21,3 %), mit besonders starker Leistung in medizinischen, rechtlichen und finanziellen Anwendungsfällen.
  • Die Grok TTS API unterstützt fünf ausdrucksstarke Stimmen (Ara, Eve, Leo, Rex, Sal) in 20 Sprachen, mit Inline- und Wrapping-Speech-Tags wie (snort), (sigh)Und <whisper> Gibt Entwicklern eine detaillierte Kontrolle über die Sprachausgabe – zum Preis von 4,20 US-Greenback professional 1 Million Zeichen.

Schauen Sie sich das an Technische Particulars hier. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 130.000+ ML SubReddit und Abonnieren Unser Publication. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.

Möchten Sie mit uns zusammenarbeiten, um Ihr GitHub-Repo ODER Ihre Hugging Face Web page ODER Produktveröffentlichung ODER Ihr Webinar usw. zu bewerben?Vernetzen Sie sich mit uns

Der Beitrag xAI führt eigenständige Grok Speech-to-Textual content- und Textual content-to-Speech-APIs ein, die sich an Enterprise-Voice-Entwickler richten erschien zuerst auf MarkTechPost.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert