Auf der Suche nach dem Recht Textual content-to-Speech-Modell? Das 1,6 -Milliarden -Parametermodelldurchmesser ist möglicherweise die für Sie. Sie wären auch überrascht zu hören, dass dieses Modell von zwei Studenten und ohne Finanzierung erstellt wurde! In diesem Artikel lernen Sie das Modell kennen, wie man auf das Modell zugreift und sie nutzt, und sehen auch die Ergebnisse, um wirklich zu wissen, wozu dieses Modell fähig ist. Bevor das Modell verwendet wird, wäre es angebracht, sich damit kennenzulernen.
Was ist Dia-1.6b?
Die Modelle, die mit dem Ziel trainiert wurden, Textual content als Eingabe und natürliche Sprache als Ausgabe zu haben, werden als Textual content-zu-Sprache-Modelle bezeichnet. Das von Nari Labs entwickelte DIA-1.6B-Parametermodell gehört zur Familie der Textual content-zu-Sprache-Modelle. Dies ist ein interessantes Modell, das in der Lage ist, einen realistischen Dialog aus einem Transkript zu generieren. Es ist auch erwähnenswert, dass das Modell nonverbale Kommunikation wie Lachen, Niesen, Pfeifen usw. produzieren kann, nicht wahr?
Wie greife ich auf die DIA-1.6B?
Zwei Möglichkeiten, wie wir auf das DIA-1.6B-Modell zugreifen können:
- Verwenden der umarmenden Gesichtsapi mit Google Collab
- Mit umarmenden Gesichtsräumen
Die erste müsste den API -Schlüssel erhalten und sie dann in Google Collabocing mit Code integrieren. Letzteres ist ein No-Code und ermöglicht es uns, Dia-1.6b interaktiv zu verwenden.
1. mit umarmendes Gesicht und Zusammenarbeit
Das Modell ist auf dem Umarmungsgesicht erhältlich und kann mit Hilfe von 10 GB VRAM ausgeführt werden, die von der T4 -GPU im Google Colling Pocket book bereitgestellt werden. Wir werden dasselbe mit einem Mini -Gespräch demonstrieren.
Bevor wir beginnen, lassen Sie uns unser umarmendes Gesichts -Zugangs -Token erhalten, das den Code ausführen muss. Gehen zu https://huggingface.co/Setings/tokens und generieren Sie einen Schlüssel, wenn Sie noch keinen haben.
Stellen Sie sicher, dass Sie die folgenden Berechtigungen aktivieren:

Öffnen Sie ein neues Notizbuch in Google Collaby und fügen Sie diesen Schlüssel in den Geheimnissen hinzu (der Identify sollte hf_token sein):

Notiz: Wechseln Sie zu T4 GPU, um dieses Pocket book auszuführen. Dann können Sie nur die 10 GB VRAM verwenden, die für das Ausführen dieses Modells erforderlich sind.
Nehmen wir jetzt das Modell in die Hände:
- Zuerst klonen Sie das Git -Repository des DIA:
!git clone https://github.com/nari-labs/dia.git
- Installieren Sie das lokale Paket:
!pip set up ./dia
- Installieren Sie die Soundfile -Audio -Bibliothek:
!pip set up soundfile
Starten Sie nach dem Ausführen der vorherigen Befehle die Sitzung neu, bevor Sie fortfahren.
- Lassen Sie uns nach den Installationen die erforderlichen Importe durchführen und das Modell initialisieren:
import soundfile as sf
from dia.mannequin import Dia
import IPython.show as ipd
mannequin = Dia.from_pretrained("nari-labs/Dia-1.6B")
- Initialisieren Sie den Textual content für den Textual content in die Sprachkonvertierung:
textual content = "(S1) That is how Dia sounds. (chuckle) (S2) Do not chuckle an excessive amount of. (S1) (clears throat) Do share your ideas on the mannequin."
- Führen Sie die Inferenz auf dem Modell aus:
output = mannequin.generate(textual content)
sampling_rate = 44100 # Dia makes use of 44.1Khz sampling charge.
output_file="dia_sample.mp3"
sf.write(output_file, output, sampling_rate) # Saving the audio
ipd.Audio(output_file) # Displaying the audio
Ausgabe:
Die Rede ist sehr menschlich und das Modell ist mit nonverbaler Kommunikation hervorragend. Es ist erwähnenswert, dass die Ergebnisse nicht reproduzierbar sind, da es keine Vorlagen für die Stimmen gibt.
Notiz: Sie können versuchen, den Samen des Modells zu reparieren, um die Ergebnisse zu reproduzieren.
2. mit umarmenden Gesichtsräumen
Versuchen wir, eine Stimme mit dem Modell über umarmende Gesichtsräume zu klonen. Hier haben wir die Möglichkeit, das Modell direkt auf der On-line -Schnittstelle zu verwenden: https://huggingface.co/areas/nari-labs/dia-1.6b
Hier können Sie den Eingabetxt übergeben und zusätzlich auch die „Audio -Eingabeaufforderung“ verwenden, um die Stimme zu replizieren. Ich habe das Audio bestanden, das wir im vorherigen Abschnitt generiert haben.
Der folgende Textual content wurde als Eingabe übergeben:
(S1) Dia is an open weights textual content to dialogue mannequin.
(S2) You get full management over scripts and voices.
(S1) Wow. Wonderful. (laughs)
(S2) Strive it now on Git hub or Hugging Face.
Ich werde Sie der Richter sein. Haben Sie das Gefühl, dass das Modell die früheren Stimmen erfolgreich erfasst und repliziert hat?
Notiz: Ich habe mehrere Fehler bekommen, während ich die Sprache mit umarmenden Gesichtsräumen generierte. Ändern Sie den Eingabtext oder die Audio -Eingabeaufforderung, damit das Modell funktioniert.
Dinge, die Sie bei der Verwendung von Dia-1.6b erinnern sollten
Hier sind einige Dinge, die Sie bei der Verwendung von Dia-1.6b beachten sollten:
- Das Modell ist nicht mit einer bestimmten Stimme abgestimmt. Es wird additionally bei jedem Lauf eine andere Stimme bekommen. Sie können versuchen, den Samen des Modells zu reparieren, um die Ergebnisse zu reproduzieren.
- Dia verwendet 44,1 kHz Stichprobenrate.
- Stellen Sie nach der Set up der Bibliotheken sicher, dass Sie das Collab -Pocket book neu starten.
- Ich habe mehrere Fehler erhalten, während ich die Sprache mit den umarmenden Gesichtsräumen generierte und den Eingabetxt oder die Audioaufforderung ändern kann, damit das Modell funktioniert.
Abschluss
Die Modellergebnisse sind sehr vielversprechend, insbesondere wenn wir sehen, was es im Vergleich zum Wettbewerb kann. Die größte Stärke des Modells ist ihre Unterstützung für eine Vielzahl nonverbaler Kommunikation. Das Modell hat einen deutlichen Ton und eine eigene Sprache, aber andererseits ist es möglicherweise nicht einfach, eine bestimmte Stimme zu reproduzieren. Wie jedes andere generative KI -Instrument sollte dieses Modell verantwortungsbewusst verwendet werden.
Häufig gestellte Fragen
A. Nein, Sie können mehrere Lautsprecher verwenden, müssen dies jedoch in die Eingabeaufforderung (S1), (S2), (S3) hinzufügen…
A. Nein, es ist ein völlig kostenlos, ein Modell zu verwenden, das auf dem Umarmungsgesicht verfügbar ist.
Melden Sie sich an, um weiter zu lesen und Experten-Kuratinhalte zu genießen.