und

Qwen-Forscher veröffentlichen Qwen3-TTS: eine offene mehrsprachige TTS-Suite mit Echtzeitlatenz und feinkörniger Sprachsteuerung

Das Qwen-Workforce von Alibaba Cloud verfügt über Open-Supply-Qwen3-TTS, eine Familie mehrsprachiger Textual content-to-Speech-Modelle, die auf drei Kernaufgaben in einem Stapel abzielen: Sprachklon, Sprachdesign und hochwertige Sprachgenerierung. https://arxiv.org/pdf/2601.15621v1 Modellfamilie und Fähigkeiten…

NVIDIA veröffentlicht PersonaPlex-7B-v1: ein Echtzeit-Speech-to-Speech-Modell, das für natürliche und Vollduplex-Gespräche entwickelt wurde

NVIDIA-Forscher haben PersonaPlex-7B-v1 veröffentlicht, ein Vollduplex-Speech-to-Speech-Konversationsmodell, das auf natürliche Sprachinteraktionen mit präziser Persona-Steuerung abzielt. Von ASR→LLM→TTS zu einem einzelnen Vollduplex-Modell Herkömmliche Sprachassistenten betreiben meist eine Kaskade. Die automatische Spracherkennung (ASR)…