DIA-1.6B TTS: Bestes Modell zur Generierung von Textual content-zu-Dialogue-Technology

Auf der Suche nach dem Recht Textual content-to-Speech-Modell? Das 1,6 -Milliarden -Parametermodelldurchmesser ist möglicherweise die für Sie. Sie wären auch überrascht zu hören, dass dieses Modell von zwei Studenten und ohne Finanzierung erstellt wurde! In diesem Artikel lernen Sie das Modell kennen, wie man auf das Modell zugreift und sie nutzt, und sehen auch die Ergebnisse, um wirklich zu wissen, wozu dieses Modell fähig ist. Bevor das Modell verwendet wird, wäre es angebracht, sich damit kennenzulernen.

Was ist Dia-1.6b?

Die Modelle, die mit dem Ziel trainiert wurden, Textual content als Eingabe und natürliche Sprache als Ausgabe zu haben, werden als Textual content-zu-Sprache-Modelle bezeichnet. Das von Nari Labs entwickelte DIA-1.6B-Parametermodell gehört zur Familie der Textual content-zu-Sprache-Modelle. Dies ist ein interessantes Modell, das in der Lage ist, einen realistischen Dialog aus einem Transkript zu generieren. Es ist auch erwähnenswert, dass das Modell nonverbale Kommunikation wie Lachen, Niesen, Pfeifen usw. produzieren kann, nicht wahr?

Wie greife ich auf die DIA-1.6B?

Zwei Möglichkeiten, wie wir auf das DIA-1.6B-Modell zugreifen können:

Verwenden der umarmenden Gesichtsapi mit Google Collab
Mit umarmenden Gesichtsräumen

Die erste müsste den API -Schlüssel erhalten und sie dann in Google Collabocing mit Code integrieren. Letzteres ist ein No-Code und ermöglicht es uns, Dia-1.6b interaktiv zu verwenden.

1. mit umarmendes Gesicht und Zusammenarbeit

Das Modell ist auf dem Umarmungsgesicht erhältlich und kann mit Hilfe von 10 GB VRAM ausgeführt werden, die von der T4 -GPU im Google Colling Pocket book bereitgestellt werden. Wir werden dasselbe mit einem Mini -Gespräch demonstrieren.

Bevor wir beginnen, lassen Sie uns unser umarmendes Gesichts -Zugangs -Token erhalten, das den Code ausführen muss. Gehen zu https://huggingface.co/Setings/tokens und generieren Sie einen Schlüssel, wenn Sie noch keinen haben.

Stellen Sie sicher, dass Sie die folgenden Berechtigungen aktivieren:

Öffnen Sie ein neues Notizbuch in Google Collaby und fügen Sie diesen Schlüssel in den Geheimnissen hinzu (der Identify sollte hf_token sein):

Notiz: Wechseln Sie zu T4 GPU, um dieses Pocket book auszuführen. Dann können Sie nur die 10 GB VRAM verwenden, die für das Ausführen dieses Modells erforderlich sind.

Nehmen wir jetzt das Modell in die Hände:

Zuerst klonen Sie das Git -Repository des DIA:

!git clone https://github.com/nari-labs/dia.git

Installieren Sie das lokale Paket:

!pip set up ./dia

Installieren Sie die Soundfile -Audio -Bibliothek:

!pip set up soundfile

Starten Sie nach dem Ausführen der vorherigen Befehle die Sitzung neu, bevor Sie fortfahren.

Lassen Sie uns nach den Installationen die erforderlichen Importe durchführen und das Modell initialisieren:

import soundfile as sf

from dia.mannequin import Dia

import IPython.show as ipd

mannequin = Dia.from_pretrained("nari-labs/Dia-1.6B")

Initialisieren Sie den Textual content für den Textual content in die Sprachkonvertierung:

textual content = "(S1) That is how Dia sounds. (chuckle) (S2) Do not chuckle an excessive amount of. (S1) (clears throat) Do share your ideas on the mannequin."

Führen Sie die Inferenz auf dem Modell aus:

output = mannequin.generate(textual content)

sampling_rate = 44100 # Dia makes use of 44.1Khz sampling charge.

output_file="dia_sample.mp3"

sf.write(output_file, output, sampling_rate) # Saving the audio

ipd.Audio(output_file) # Displaying the audio

Ausgabe:

Die Rede ist sehr menschlich und das Modell ist mit nonverbaler Kommunikation hervorragend. Es ist erwähnenswert, dass die Ergebnisse nicht reproduzierbar sind, da es keine Vorlagen für die Stimmen gibt.

Notiz: Sie können versuchen, den Samen des Modells zu reparieren, um die Ergebnisse zu reproduzieren.

2. mit umarmenden Gesichtsräumen

Versuchen wir, eine Stimme mit dem Modell über umarmende Gesichtsräume zu klonen. Hier haben wir die Möglichkeit, das Modell direkt auf der On-line -Schnittstelle zu verwenden: https://huggingface.co/areas/nari-labs/dia-1.6b

Hier können Sie den Eingabetxt übergeben und zusätzlich auch die „Audio -Eingabeaufforderung“ verwenden, um die Stimme zu replizieren. Ich habe das Audio bestanden, das wir im vorherigen Abschnitt generiert haben.

Der folgende Textual content wurde als Eingabe übergeben:

(S1) Dia is an open weights textual content to dialogue mannequin. 
(S2) You get full management over scripts and voices. 
(S1) Wow. Wonderful. (laughs) 
(S2) Strive it now on Git hub or Hugging Face.

Ich werde Sie der Richter sein. Haben Sie das Gefühl, dass das Modell die früheren Stimmen erfolgreich erfasst und repliziert hat?

Notiz: Ich habe mehrere Fehler bekommen, während ich die Sprache mit umarmenden Gesichtsräumen generierte. Ändern Sie den Eingabtext oder die Audio -Eingabeaufforderung, damit das Modell funktioniert.

Dinge, die Sie bei der Verwendung von Dia-1.6b erinnern sollten

Hier sind einige Dinge, die Sie bei der Verwendung von Dia-1.6b beachten sollten:

Das Modell ist nicht mit einer bestimmten Stimme abgestimmt. Es wird additionally bei jedem Lauf eine andere Stimme bekommen. Sie können versuchen, den Samen des Modells zu reparieren, um die Ergebnisse zu reproduzieren.
Dia verwendet 44,1 kHz Stichprobenrate.
Stellen Sie nach der Set up der Bibliotheken sicher, dass Sie das Collab -Pocket book neu starten.
Ich habe mehrere Fehler erhalten, während ich die Sprache mit den umarmenden Gesichtsräumen generierte und den Eingabetxt oder die Audioaufforderung ändern kann, damit das Modell funktioniert.

Abschluss

Die Modellergebnisse sind sehr vielversprechend, insbesondere wenn wir sehen, was es im Vergleich zum Wettbewerb kann. Die größte Stärke des Modells ist ihre Unterstützung für eine Vielzahl nonverbaler Kommunikation. Das Modell hat einen deutlichen Ton und eine eigene Sprache, aber andererseits ist es möglicherweise nicht einfach, eine bestimmte Stimme zu reproduzieren. Wie jedes andere generative KI -Instrument sollte dieses Modell verantwortungsbewusst verwendet werden.

Häufig gestellte Fragen

Q1. Können wir im Gespräch nur zwei Redner verwenden?

A. Nein, Sie können mehrere Lautsprecher verwenden, müssen dies jedoch in die Eingabeaufforderung (S1), (S2), (S3) hinzufügen…

Q2. Ist Dia 1.6b ein kostenpflichtiges Modell?

A. Nein, es ist ein völlig kostenlos, ein Modell zu verwenden, das auf dem Umarmungsgesicht verfügbar ist.

Leidenschaft für Technologie und Innovation, Absolvent des Vellore Institute of Expertise. Derzeit arbeitet er als Information Science Trainee und konzentriert sich auf die Datenwissenschaft. Es ist sehr interessiert an tiefem Lernen und generativen KI, bestrebt, modernste Techniken zu erforschen, um komplexe Probleme zu lösen und wirkungsvolle Lösungen zu schaffen.

DIA-1.6B TTS: Bestes Modell zur Generierung von Textual content-zu-Dialogue-Technology

Was ist Dia-1.6b?

Wie greife ich auf die DIA-1.6B?

1. mit umarmendes Gesicht und Zusammenarbeit

2. mit umarmenden Gesichtsräumen

Dinge, die Sie bei der Verwendung von Dia-1.6b erinnern sollten

Abschluss

Häufig gestellte Fragen

Melden Sie sich an, um weiter zu lesen und Experten-Kuratinhalte zu genießen.

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

So führen Sie Claude Code Brokers mehr als 24 Stunden lang aus

Meta erwägt AI-Computing-Deal über 10 Milliarden US-Greenback mit Anthropic

Alibabas Tongyi Lab veröffentlicht Qwen-Audio-3.0-TTS, ein gehostetes Textual content-to-Speech-Modell in Flash und Plus-Stufen in 16 Sprachen

Es dreht sich alles um die Tremendous Pacs: Wie die New York Instances Wahlkampfspenden im Rennen um den Senat von Maine völlig falsch gemeldet hat

About

Categories

Tags

Recent Post

So führen Sie Claude Code Brokers mehr als 24 Stunden lang aus

Meta erwägt AI-Computing-Deal über 10 Milliarden US-Greenback mit Anthropic

DIA-1.6B TTS: Bestes Modell zur Generierung von Textual content-zu-Dialogue-Technology

Was ist Dia-1.6b?

Wie greife ich auf die DIA-1.6B?

1. mit umarmendes Gesicht und Zusammenarbeit

2. mit umarmenden Gesichtsräumen

Dinge, die Sie bei der Verwendung von Dia-1.6b erinnern sollten

Abschluss

Häufig gestellte Fragen

Melden Sie sich an, um weiter zu lesen und Experten-Kuratinhalte zu genießen.

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt