Bei den Modellen handelt es sich um leistungsstarke Modelle, die entweder Audioeingaben verarbeiten oder Audioausgaben erzeugen können. Diese Modelle sind in der KI wichtig, da Audio in Type von Sprache oder anderen Geräuschen weit verbreitet ist und uns hilft, die Welt, in der wir leben, zu verstehen. Um die Bedeutung von Audio in der Welt wirklich zu verstehen, können Sie sich die Welt ohne Ton vorstellen und wie unterschiedlich sie von einer Welt mit Ton ist.

In diesem Artikel gebe ich einen allgemeinen Überblick über verschiedene Audio-Machine-Studying-Modelle, die verschiedenen Aufgaben, die Sie damit ausführen können, und ihre Anwendungsbereiche. Audiomodelle haben in den letzten Jahren erhebliche Verbesserungen erfahren, insbesondere nach dem LLM-Durchbruch mit ChatGPT.

Infografik zu KI-Audiomodellen
Diese Infografik hebt die Hauptinhalte dieses Artikels hervor. Ich werde diskutieren, warum wir KI-Audiomodelle benötigen, und verschiedene Anwendungsbereiche wie Speech-to-Textual content, Textual content-to-Speech und Speech-to-Speech. Bild von ChatGPT.

Warum wir Audiomodelle brauchen

Wir verfügen bereits über äußerst leistungsstarke LLMs, die viele menschliche Interaktionen bewältigen können. Daher ist es wichtig hervorzuheben, warum ein Bedarf an Audiomodellen besteht. Ich möchte drei Hauptpunkte hervorheben:

  • Audio ist ein wichtiger Datensatz, genau wie Bild und Textual content
  • Die direkte Audioanalyse ist aussagekräftiger als die Analyse anhand transkribierter Texte
  • Audio ermöglicht menschlichere Interaktionen

Zu meinem ersten Punkt halte ich es für wichtig, vorab zu sagen, dass wir zwar sowohl über enorme Datenmengen durch Textual content im Web als auch über Visionen durch Movies verfügen, aber auch über große Datenmengen, wenn Audio verfügbar ist. Die meisten Movies enthalten beispielsweise Audio, das dem Video Bedeutung und Kontext verleiht. Wenn wir additionally die leistungsstärksten KI-Modelle erstellen wollen, müssen wir Modelle erstellen, die alle Modalitäten verstehen können. Modalität bezieht sich in diesem Fall auf eine Artwork von Daten, wie z

Auch mein zweiter Punkt unterstreicht den großen Bedarf an Audiomodellen. Wenn wir Audio in Textual content umwandeln möchten (damit wir beispielsweise LLMs anwenden können), müssen wir zunächst ein Transkriptionsmodell verwenden, das natürlich selbst ein Audiomodell ist. Darüber hinaus ist es oft besser, Audiodaten direkt zu analysieren, als einen Teil des Audiomaterials anhand des transkribierten Textes zu analysieren. Der Grund dafür ist, dass der Ton mehr Nuancen einfängt. Wenn wir beispielsweise eine Audioaufnahme von jemandem haben, der spricht, fängt der Ton die Emotionen des Sprechers ein, Informationen, die nicht wirklich durch Textual content ausgedrückt werden können.

Audiomodelle ermöglichen auch menschenähnlichere Erlebnisse, beispielsweise durch die Tatsache, dass Sie Gespräche mit den KI-Modellen führen können, anstatt hin und her zu tippen.

Audiomodelltypen

In diesem Abschnitt gehe ich auf die wichtigsten Audiomodelltypen ein, die Ihnen bei der Arbeit mit Audiomodellen begegnen.

Speech-to-Textual content

Speech-to-Textual content ist einer der häufigsten Anwendungsfälle für Audiomodelle und wird auch „Speech-to-Textual content“ genannt Transkription. Speech-to-Textual content ist die Aufgabe, bei der Sie Sprache eingeben und den in der Rede bereitgestellten Textual content ausgeben. Dies ist unglaublich wichtig, um Besprechungsnotizen zusammenzufassen oder wenn Sie mit einem virtuellen Assistenten wie Siri auf Ihrem Telefon sprechen. Speech-to-Textual content wird auch verwendet, um größere Trainingsdatensätze für LLMs zu erstellen.

Mithilfe von Speech-to-Textual content-Modellen können Sie Audioclips zur Analyse aufnehmen. Angenommen, Sie haben eine Kundendienstinteraktion. In diesem Fall können Sie diese Interaktion transkribieren und eine Textanalyse daran durchführen, z. B. die Länge der Interaktion analysieren, schnell die Leistung des Kundendienstmitarbeiters analysieren oder sehen, ob der Kunde mit der Interaktion zufrieden conflict, ohne die gesamte Interaktion anhören zu müssen. Das Analysieren von Textual content ist in der Regel viel schneller als das Analysieren von Audio, da Sie Textual content schneller lesen können, als Sie sich den Ton anhören können. Nachfolgend sehen Sie ein Beispiel einer solchen transkribierten Interaktion:

(Customer support consultant)
Hello, thanks for calling, what do you want assist with?

(Buyer)
Hello, I would like a refund for a current buy I made

(Customer support consultant)
Okay, do you've got the order ID for the acquisition?

...

Es ist jedoch wichtig zu beachten, dass beim Konvertieren von Sprache in Textual content einige Informationen verloren gehen, wie ich in der Einleitung zu diesem Artikel beschrieben habe. Sie verlieren die Emotionen der Menschen, die im Audio sprechen, und es wird daher schwierig sein, die Emotionen des Kunden aus der Interaktion mit dem Kundenservice zu ermitteln, es sei denn, die Emotionen werden klar durch Textual content kommuniziert. In beiden Fällen verliert der Ton an Nuancen, da das Durchlesen des Gesprächstextes niemals so ausdrucksstark sein kann wie das Anhören des Gesprächs selbst.

Wenn Sie additionally eine tiefergehende Audioanalyse durchführen möchten, können Sie eine direkte Audioanalyse der Interaktion durchführen, anstatt die Interaktion zunächst in Textual content zu transkribieren. Wenn Sie beispielsweise die Emotionen des Kunden in der Interaktion ermitteln möchten, können Sie den Ton direkt einspeisen, zusammen mit einer Aufforderung wie unten. Anschließend können Sie eine direkte Audioanalyse durchführen und weitere Nuancen erfassen.

immediate = 
"""Analyse the emotional state of the client on this interplay

{audio_clip}

"""

Textual content-zu-Sprache

Textual content-to-Speech ist ein weiterer wichtiger Anwendungsfall für Audiomodelle. Dies ist die Umkehrung der zuvor beschriebenen Aufgabe, bei der Sie stattdessen Textual content eingeben und Audio für diesen Textual content generieren. So wie beim Transkribieren von Textual content Informationen verloren gehen, müssen Sie jetzt Informationen hinzufügen, um den Ton zu erstellen.

Daher müssen Sie beim Durchführen von Textual content-to-Speech häufig die Emotion angeben, die die generierte Sprache haben soll (es sei denn, der Anbieter bestimmt automatisch die Emotion, wenn er den Ton generiert).

Textual content-to-Speech kann in vielen Szenarien nützlich sein:

  • Erstellen von Werbeanzeigen, bei denen Sie anhand eines Transkripts einen Voice-Over machen möchten. Dies lässt sich ganz einfach mit Diensten wie Elevenlabs bewerkstelligen
  • Bei Interaktionen mit dem Kundenservice können Kunden mit einer Stimme sprechen. Sie können beispielsweise den Kunden anrufen lassen, seinen Textual content transkribieren (Speech-to-Textual content), ein LLM verwenden, um eine Antwort zu generieren (Textual content-to-Textual content) und Audio aus der LLM-Antwort generieren (Textual content-to-Speech).

Der Ansatz im letzten Aufzählungspunkt funktioniert unter Qualitätsgesichtspunkten. Wenn Sie dies tun, werden Sie jedoch wahrscheinlich auf Latenzprobleme stoßen, da es einige Zeit dauert, sowohl den Textual content zu transkribieren als auch mit einem LLM zu antworten, bevor Sie die Audioantwort streamen. Daher möchten Sie wahrscheinlich stattdessen Speech-to-Speech-Modelle verwenden, auf die ich im nächsten Abschnitt eingehen werde.

Sprache-zu-Sprache

Speech-to-Speech-Modelle sind leistungsstarke Modelle, die sowohl Sprache eingeben als auch ausgeben können. Dies ist in Stay-Szenarien sehr nützlich, in denen Sie schnelle Reaktionen erstellen müssen.

Sie können beispielsweise direkte Kundendienstmitarbeiter mit Speech-to-Speech-Modellen erstellen, die direkt und mit geringer Verzögerung auf Benutzeranfragen reagieren. Bei solchen Interaktionen ist die Verzögerung überaus wichtig, wenn man bedenkt, dass man eine menschenähnliche Interaktion für den Kunden schaffen möchte. Die Interaktion sollte sich theoretisch genauso anfühlen, wenn nicht sogar besser, als der Umgang mit einem menschlichen Kundendienstmitarbeiter.

Optimalerweise verwenden Sie ein direktes Speech-to-Speech-Modell wie Qwen-3-Omni. Eine Different wäre, zuerst Speech-to-Textual content, Textual content-to-Textual content (mit einem LLM) und dann Textual content-to-Speech durchzuführen. Es ist jedoch wichtig, vorweg zu sagen, dass es quick immer besser ist, ein Finish-to-Finish-Modell zu verwenden (wie in diesem Fall Speech-to-Speech), anstatt verschiedene Modelle miteinander zu verketten. Dies liegt daran, dass Finish-to-Finish-Modelle Informationen besser speichern und somit bessere Ergebnisse liefern.


Ein weiteres Speech-to-Speech-Modell, das ich erwähnen möchte, ist das Klonen von Stimmen. Dies ist die Anwendung, bei der Sie ein Audiobeispiel einer bestimmten Stimme bereitstellen. Anschließend können Sie mit der geklonten Stimme neues Audio generieren, indem Sie Textual content für ein Voice-Over bereitstellen. Auch Voice-to-Voice-Modelle haben in den letzten Jahren enorme Verbesserungen erfahren und können nützlich sein, um schnell viele Voice-Overs zu generieren.

Stellen Sie sich zum Beispiel vor, Sie möchten ein Hörbuch aus einem Lehrbuch erstellen, mit einer bestimmten Stimme, die bereits in früheren Hörbüchern gesprochen hat. Normalerweise müsste man einen Aufnahmeraum buchen und die Stimme das ganze neue Buch vorsprechen lassen, was Wochen dauern würde. Wenn Sie stattdessen bereits viele Samples dieser Stimme haben, können Sie mithilfe von Voice-Cloning-Modellen jetzt in wenigen Minuten ein vollständiges Voice-Over erstellen. Natürlich müssen Sie immer Berechtigungen einholen, bevor Sie ein Voice-Cloning-Modell verwenden.

Abschluss

In diesem Artikel habe ich verschiedene Sprachmodelle besprochen, mit Speech-to-Textual content und Textual content-to-Speech. und Speech-to-Speech-Modelle, die alle in ihren jeweiligen Anwendungsbereichen nützlich sind. Ich denke, dass Sprachmodelle aufgrund ihrer Bedeutung kontinuierlich weiterentwickelt und verbessert werden. Audiomodelle sind wichtig, da Audio ebenso wie Textual content und Bild eine wichtige Modalität für das Verständnis der Welt ist. Ich glaube, Audio ähnelt Bildern, bei denen es schwierig ist, sie nur mit Worten zu beschreiben.

👉 Finden Sie mich in den sozialen Netzwerken:

📩 Abonnieren Sie meinen E-newsletter

🧑‍💻 Nehmen Sie Kontakt auf

🔗 LinkedIn

🐦 X / Twitter

✍️ Medium

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert