Menschen verfügen über eine außergewöhnliche Fähigkeit, Schallquellen zu lokalisieren und ihre Umgebung mithilfe von Hörreizen zu interpretieren, ein Phänomen, das als räumliches Hören bezeichnet wird. Diese Funktion ermöglicht Aufgaben wie die Identifizierung von Sprechern in lauten Umgebungen oder die Navigation in komplexen Umgebungen. Die Nachahmung einer solchen akustischen Raumwahrnehmung ist entscheidend für die Verbesserung des immersiven Erlebnisses in Technologien wie Augmented Actuality (AR) und Digital Actuality (VR). Der Übergang von der monauralen (einkanaligen) zur binauralen (zweikanaligen) Audiosynthese – die räumliche Höreffekte erfasst – steht jedoch vor erheblichen Herausforderungen, insbesondere aufgrund der begrenzten Verfügbarkeit von Mehrkanal- und Positions-Audiodaten.
Herkömmliche mono-zu-binaurale Syntheseansätze basieren häufig auf DSP-Frameworks (Digital Sign Processing). Diese Methoden modellieren Höreffekte mithilfe von Komponenten wie der kopfbezogenen Übertragungsfunktion (HRTF), der Raumimpulsantwort (RIR) und Umgebungsgeräuschen, die typischerweise als lineare zeitinvariante (LTI) Systeme behandelt werden. Obwohl DSP-basierte Techniken intestine etabliert sind und realistische Audioerlebnisse erzeugen können, berücksichtigen sie nicht die nichtlinearen akustischen Welleneffekte, die der Schallausbreitung in der realen Welt innewohnen.
Als Different zu DSP haben sich überwachte Lernmodelle entwickelt, die neuronale Netze nutzen, um binaurales Audio zu synthetisieren. Solche Modelle unterliegen jedoch zwei großen Einschränkungen: Erstens dem Mangel an mit Positionsannotationen versehenen binauralen Datensätzen und zweitens der Anfälligkeit für eine Überanpassung an bestimmte akustische Umgebungen, Sprechereigenschaften und Trainingsdatensätze. Der Bedarf an Spezialgeräten für die Datenerfassung schränkt diese Ansätze zusätzlich ein und macht überwachte Methoden kostspielig und weniger praktisch.
Um diese Herausforderungen anzugehen, haben Forscher von Google vorgeschlagen ZeroBAS, eine Zero-Shot-Neuronalmethode für die mono-zu-binaurale Sprachsynthese, die nicht auf binauralen Trainingsdaten basiert. Dieser modern Ansatz nutzt parameterfreie geometrische Zeitverzerrungs- (GTW) und Amplitudenskalierungstechniken (AS) basierend auf der Quellenposition. Diese anfänglichen binauralen Signale werden mit einem vorab trainierten Entrauschungs-Vocoder weiter verfeinert, wodurch wahrnehmungsrealistisches binaurales Audio entsteht. Bemerkenswerterweise verallgemeinert ZeroBAS effektiv über verschiedene Raumbedingungen hinweg, wie anhand des neu eingeführten TUT-Mono-zu-Binaural-Datensatzes gezeigt wurde, und erreicht eine Leistung, die mit modernsten überwachten Methoden bei Out-of-Distribution vergleichbar oder sogar besser ist Daten.
Das ZeroBAS-Framework umfasst eine dreistufige Architektur wie folgt:
- In Stufe 1, Geometrische Zeitverzerrung (GTW) wandelt den monauralen Eingang in zwei Kanäle (hyperlinks und rechts) um, indem interaurale Zeitunterschiede (ITD) basierend auf den relativen Positionen der Tonquelle und der Ohren des Zuhörers simuliert werden. GTW berechnet die Zeitverzögerungen für den linken und rechten Ohrkanal. Die verzerrten Signale werden dann linear interpoliert, um erste binaurale Kanäle zu erzeugen.
- In Stufe 2, Amplitudenskalierung (AS) Verbessert den räumlichen Realismus der verzerrten Signale durch die Simulation des interauralen Pegelunterschieds (ILD) basierend auf dem Inverse-Sq.-Gesetz. Da die menschliche Wahrnehmung der Klangräumlichkeit sowohl auf ITD als auch auf ILD beruht, wobei letzteres bei hochfrequenten Tönen vorherrscht. Mithilfe der euklidischen Entfernungen der Quelle zu beiden Ohren und werden die Amplituden skaliert.
- In Stufe 3 erfolgt eine iterative Verfeinerung der verzerrten und skalierten Signale mithilfe eines vortrainierten Entrauschungs-Vocoders. WaveFit. Dieser Vocoder nutzt Log-Mel-Spektrogrammfunktionen und Entrauschungs-Diffusions-Probabilistikmodelle (DDPMs), um saubere binaurale Wellenformen zu erzeugen. Durch die iterative Anwendung des Vocoders mildert das System akustische Artefakte und sorgt für eine hochwertige binaurale Audioausgabe.
Was die Auswertungen betrifft, wurde ZeroBAS anhand von zwei Datensätzen ausgewertet (Ergebnisse in Tabelle 1 und 2): dem Binaurale Sprache Datensatz und die neu eingeführte TUT Mono-zu-Binaural Datensatz. Letzteres wurde entwickelt, um die Generalisierungsfähigkeiten mono-zu-binauraler Synthesemethoden in verschiedenen akustischen Umgebungen zu testen. In objektiven Bewertungen zeigte ZeroBAS signifikante Verbesserungen gegenüber DSP-Basislinien und näherte sich der Leistung überwachter Methoden an, obwohl es nicht auf binauralen Daten trainiert wurde. Insbesondere erzielte ZeroBAS überlegene Ergebnisse beim TUT-Datensatz außerhalb der Verteilung, was seine Robustheit unter verschiedenen Bedingungen unterstreicht.
Subjektive Bewertungen bestätigten zusätzlich die Wirksamkeit von ZeroBAS. Bewertungen des Imply Opinion Rating (MOS) zeigten, dass menschliche Zuhörer die Ergebnisse von ZeroBAS als etwas natürlicher bewerteten als die Ergebnisse überwachter Methoden. In MUSHRA-Bewertungen erreichte ZeroBAS eine mit überwachten Modellen vergleichbare räumliche Qualität, wobei die Zuhörer keine statistisch signifikanten Unterschiede erkennen konnten.
Obwohl diese Methode recht bemerkenswert ist, weist sie einige Einschränkungen auf. ZeroBAS hat Schwierigkeiten, Phaseninformationen direkt zu verarbeiten, da dem Vocoder die Positionskonditionierung fehlt und er auf allgemeinen Modellen statt auf umgebungsspezifischen Modellen basiert. Trotz dieser Einschränkungen unterstreicht seine Fähigkeit zur effektiven Verallgemeinerung das Potenzial des Zero-Shot-Lernens in der binauralen Audiosynthese.
Zusammenfassend bietet ZeroBAS einen faszinierenden, raumunabhängigen Ansatz zur binauralen Sprachsynthese, der eine mit überwachten Methoden vergleichbare Wahrnehmungsqualität erreicht, ohne dass binaurale Trainingsdaten erforderlich sind. Seine robuste Leistung in verschiedenen akustischen Umgebungen macht es zu einem vielversprechenden Kandidaten für reale Anwendungen in AR-, VR- und immersiven Audiosystemen.
Kasse Die Papier Und Einzelheiten. Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, uns zu folgen Twitter und schließen Sie sich unserem an Telegrammkanal Und LinkedIn GrOup. Vergessen Sie nicht, sich unserem anzuschließen 65k+ ML SubReddit.
🚨 Empfehlen Sie die Open-Supply-Plattform: Parlant ist ein Framework, das die Artwork und Weise verändert, wie KI-Agenten Entscheidungen in kundenorientierten Szenarien treffen. (Befördert)
Vineet Kumar ist Beraterpraktikant bei MarktechPost. Derzeit absolviert er seinen Bachelor am Indian Institute of Know-how (IIT) in Kanpur. Er ist ein Fanatic des maschinellen Lernens. Seine Leidenschaft gilt der Forschung und den neuesten Fortschritten in den Bereichen Deep Studying, Laptop Imaginative and prescient und verwandten Bereichen.