Google hat es gerade angekündigt Gemini 3.5 Dwell-Übersetzung. Es ist ihr neuestes Audiomodell für die Dwell-Sprach-zu-Sprache-Übersetzung. Speech-to-Speech bedeutet, dass gesprochene Audiodaten eingehen und übersetzte gesprochene Audiodaten wieder ausgegeben werden. Das Modell erkennt automatisch über 70 Sprachen und generiert übersetzte Sprache. Es bewahrt die Intonation, das Tempo und die Tonhöhe des Sprechers in der Ausgabe. Flip-by-Flip-Systeme warten, bis ein Sprecher zu Ende spricht, bevor sie antworten. Gemini 3.5 Dwell Translate generiert stattdessen kontinuierlich Sprache. Es gleicht einen Kompromiss zwischen dem Warten auf den Kontext und der sofortigen Übersetzung aus. Mehr Kontext verbessert die Qualität. Durch die schnellere Ausgabe bleibt die Übersetzung mit dem Sprecher synchronisiert. Das Ergebnis bleibt während einer Sitzung einige Sekunden hinter dem Sprecher zurück.

Gemini 3.5 Dwell-Übersetzung

Gemini 3.5 Dwell Translate ist ein einzelnes Audiomodell (gemini-3.5-live-translate-preview), kein Chat-Assistent. Es verarbeitet Sprache, während die Audiodaten eingehen, und nicht erst nach einem vollständigen Satz. Es verarbeitet mehrsprachige Eingaben, ohne dass Einstellungen manuell konfiguriert werden müssen. Dank seiner Robustheit gegenüber Geräuschen können Anwendungen in lauten, unvorhersehbaren Umgebungen ausgeführt werden.

Das Modell rollt über drei Flächen. Entwickler erhalten es in der öffentlichen Vorschau über die Gemini Dwell API und Google AI Studio. Unternehmen erhalten ab diesem Monat eine personal Vorschau in Google Meet. Alle anderen erhalten es über die Google Translate-App auf Android und iOS.

So funktioniert das kontinuierliche Streaming

Der Designunterschied ist für die Erstellung von Echtzeitfunktionen wichtig. Ein Konversations-Dwell-Agent nutzt rundenbasierte Interaktionen. Es basiert auf Pausen, Absichtserkennung und Unterbrechungsbehandlung. Dwell-Übersetzung verwendet stattdessen eine kontinuierliche Stream-Verarbeitung. Es bedeutet übersetzt, dass der Sprecher spricht, ohne auf das Ende der Runde zu warten.

Um strenge Echtzeit-Latenzschwellenwerte einzuhalten, akzeptiert der Übersetzungspfad nur Audioeingaben. Die Texteingabe wird im Übersetzungsmodus nicht unterstützt. Das Modell verzichtet in diesem Modus auch auf Werkzeugnutzungs- und Systemanweisungen. Dadurch handelt es sich eher um eine fokussierte Übersetzer-Pipeline als um einen Generalagenten.

Erstellen mit der Dwell-API

Entwickler konfigurieren die Übersetzung im Dwell-API-Sitzungssetup. Sie legen ein fest translationConfig Block innerhalb der generationConfig. Der targetLanguageCode Feld akzeptiert einen BCP-47-Code, z "pl" oder "es". BCP-47 ist das Standardformat für Sprach-Tags wie en oder pt-BR. Die Standardeinstellung ist "en". Der echoTargetLanguage boolean steuert Eingaben, die bereits in der Zielsprache vorliegen. Wann truedas Modell spiegelt diese Rede wider. Wann falsees bleibt nonetheless. Sie können auch aktivieren inputAudioTranscription Und outputAudioTranscription für Texttranskripte.

Audioformate sind festgelegt. Der Eingang ist rohes 16-Bit-PCM mit 16 kHz, Mono, Little-Endian. Die Ausgabe erfolgt im rohen 16-Bit-PCM-Format mit 24 kHz, Mono, Little-Endian. PCM ist unkomprimiertes Rohaudio. Sie senden Audio in Blöcken von 100 ms. Für clientseitige Apps sind kurzlebige Token auf der v1alpha Endpunkt vermeiden Sie die Offenlegung Ihres API-Schlüssels.

Dimension Dwell-Agent Dwell-Übersetzung
Vorbildliche Rolle Assistent, der zuhört, begründet und handelt Dolmetscher-/Echtzeitübersetzer-Pipeline
Interaktion Rundenbasiert, mit Unterbrechungsbehandlung Kontinuierliche Stream-Verarbeitung, keine Wendungen
Werkzeuge Funktionsaufruf, Google-Suche, Anweisungen Nur Übersetzung, keine Werkzeuge oder Anweisungen
Eingaben Textual content, Audio, Video und Bild Nur Audio, für strikte Latenz
Konfiguration Erzeugung, Sprache, Werkzeuge, Anweisungen targetLanguageCode Und echoTargetLanguage

Anwendungsfall

Das Modell zielt auf die Dwell-Dolmetschung in mehreren Umgebungen ab. Google listet mehrsprachige Anrufe, Besprechungen, Unterrichtsstunden und Übertragungen auf. Entwicklerplattformen reduzieren den Integrationsaufwand für Echtzeitmedien. Agora, Fishjam, LiveKit, Pipecat und Imaginative and prescient Brokers nutzen bereits die Dwell API. Diese Plattformen verwalten die komplexe Echtzeit-Medien-Streaming-Infrastruktur. Dadurch können sich Entwickler stattdessen auf die Benutzererfahrung konzentrieren.

Die Beispiel-App von Google demonstriert Synchronisation und simultane mehrsprachige Übersetzung. Seize testet das Modell für die Kommunikation zwischen Fahrer und Reisendem bei Pickups. Seize-Benutzer tätigen über 10 Millionen Sprachanrufe professional Monat. CJ ENM, LiveKit und andere berichteten von positivem Suggestions zu Qualität, Genauigkeit und geringer Latenz.

Wie es Google Meet und Translate verändert

Laut der offiziellen Veröffentlichung von Google wird Google Meet bald 3.5 Dwell Translate für die Sprachübersetzung verwenden. Die Tabelle zeigt das angegebene Vorher und Nachher für Meet.

Fähigkeit Vorheriges Treffen Mit 3.5 Dwell Translate
Sprachen 5 70+
Kombinationen professional Treffen Nur von und nach Englisch Über 2000 Kombinationen
Zugang Vorhandene Schnittstelle Aktualisierte Benutzeroberfläche für sofortigen Zugriff

Das Meet-Replace ist diesen Monat für ausgewählte Enterprise-Workspace-Kunden in der privaten Vorschau. Eine breitere Einführung folgt später in diesem Jahr. In der Übersetzer-App funktioniert die Dwell-Übersetzungsfunktion mit allen angeschlossenen Kopfhörern. Es spiegelt den Ton des Sprechers in über 70 Sprachen wider. Android erhält außerdem einen Hörmodus. Sie halten das Telefon wie bei einem normalen Anruf an Ihr Ohr. Der übersetzte Ton wird dann über den Ohrhörer gestreamt, ohne dass andere ihn hören.

Wichtige Erkenntnisse

  • Gemini 3.5 Dwell Translate ist Googles neuestes Audiomodell für Dwell-Sprachübersetzungen in über 70 Sprachen.
  • Es streamt kontinuierlich statt Schritt für Schritt und bleibt einige Sekunden hinter dem Lautsprecher.
  • Entwickler können es über die Dwell-API konfigurieren targetLanguageCode Und echoTargetLanguage; Nur Audio, 16 kHz Eingang, 24 kHz Ausgang.
  • Es wird für die Gemini Dwell API, Google Meet (5→70+ Sprachen) und die Übersetzer-App bereitgestellt.
  • Alle generierten Audiodaten tragen zur besseren Erkennbarkeit ein nicht wahrnehmbares SynthID-Wasserzeichen.

Schauen Sie sich das an Modellkarte Und Technische Particulars. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 150.000+ ML SubReddit und Abonnieren Unser Publication. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.

Möchten Sie mit uns zusammenarbeiten, um Ihr GitHub-Repo ODER Ihre Hugging Face Web page ODER Produktveröffentlichung ODER Ihr Webinar usw. zu bewerben? Vernetzen Sie sich mit uns


Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert