Neuphonic hat veröffentlicht NETTS AIRein Open-Supply-Textual content-to-Speech (TTS) Sprachmodell Entwickelt, um lokal in Echtzeit auf CPUs zu laufen. Der Umarmung der Gesichtsmodellkarte Pay attention 748m Parameter (QWEN2 -Architektur) und Schiffe in GGUF llama.cpp/llama-cpp-python ohne Cloud -Abhängigkeiten. Es ist lizenziert unter Apache-2.0 und beinhaltet einen Runnable Demo und Beispiele.

Additionally, was ist neu?

NETTS AIR Paare a 0,5B-Klasse Qwen Spine mit Neuenmonischen Neukodec Audio -Codec. Neuphonische positioniert das System als „superrealistisch ~ 3 Sekunden Referenz -Audio und synthetisiert Sprache in diesem Stil, zielt auf Sprachagenten und Datenschutzanwendungen ab. Die Modellkarte und das Repository betonen explizit Echtzeit-CPU Era und Small-Footprint-Bereitstellung.

Schlüsselmerkmale

  • Realismus bei Sub-1B-Skala: Menschliche Prosodie und Timbre-Erhaltung für eine ~ 0,7B (QWEN2-Klasse) Textual content-to-Speech-LM.
  • Bereitstellung von On-Gadget-Bereitstellungen: Verteilt in Gguf (This fall/Q8) mit CPU-ersten Pfaden; Geeignet für Laptops, Telefone und Himbeer-Pi-Klasse-Boards.
  • Sofortiger Sprecher Klonen: Stilübertragung von ~3 Sekunden von Referenz -Audio (ReferenzwAV + Transkript).
  • Compact LM+Codec Stack: Qwen 0,5b Rückgrat gepaart mit Neukodec (0,8 kbit / s / 24 kHz) Latenz, Fußabdruck und Ausgangsqualität ausgleichen.

Erklären Sie den Modellarchitektur und den Laufzeitweg?

  • Rückgrat: Qwen 0,5b Wird als leichter LM verwendet, um die Sprachgenerierung zu konditionieren; Das gehostete Artefakt wird als berichtet als 748m Parames unter dem Qwen2 Architektur auf Umarmung.
  • Codec: Neukodec Bietet eine akustische Tokenisierung/Dekodierung mit niedrigem Bitrat; Es zielt auf sich ab 0,8 kbit / s mit 24 kHz Ausgang, Aktivieren von kompakten Darstellungen für den effizienten Einsatz von Einrichtungen.
  • Quantisierung und Format: Vorgebaut Gguf Backbones (This fall/Q8) sind verfügbar; Das Repo enthält Anweisungen für llama-cpp-python und ein optionales Onnx Decoderpfad.
  • Abhängigkeiten: Verwendung espeak zur Phonemisierung; Beispiele und ein Jupyter-Notizbuch werden für die Finish-to-Finish-Synthese bereitgestellt.

Leistungsfokus vor dem Gerät

NETTS AIR Präsentationen ‚Echtzeit-Era auf Mittelklasse-Geräten‚und Angebote CPU-First Standardeinstellungen; Die GGUF-Quantisierung ist für Laptops und Single-Board-Laptop vorgesehen. Während keine FPS/RTF -Nummern auf der Karte veröffentlicht werden Lokale Inferenz ohne GPU und demonstriert einen funktionierenden Fluss durch die bereitgestellten Beispiele und Raum.

Sprachkloning -Workflow

NETTS -Luft erfordert (1) a Referenzwav und (2) die Transkripttext für diese Referenz. Es codiert den Verweis auf Model -Token und synthetisiert dann willkürlichen Textual content im Timbre des Referenzsprechers. Das neumonische Crew empfiehlt 3–15 s Sauber, Mono-Audio und bietet vorgekündigte Proben.

Privatsphäre, Verantwortung und Wasserzeichen

Neuphonisches Rahmen das Modell für Privatsphäre vor dem Gerät (Kein Audio/Textual content lässt den Laptop ohne die Zustimmung des Benutzers) und stellt fest, dass alle generierten Audios a enthalten Perth (Wahrnehmungsschwelle) Wassermarkierungsmittel die verantwortungsvolle Nutzung und Herkunft zu unterstützen.

Wie vergleicht es?

Offene lokale TTS-Systeme existieren (z. B. Pipelines auf GGUF-basierten Pipelines), aber NETTS Air ist für die Verpackung a bemerkenswert Kleine LM + Neural Codec mit sofortiges KlonenAnwesend CPU-erste QuantisierungenUnd Wasserzeichen unter einer zulässigen Lizenz. Die „erste superrealistische Rede-Rede-LM-LM-Rede“ der Welt ist die Behauptung des Anbieters. Die überprüfbaren Fakten sind die Größe, Formate, Klonierungsverfahren, Lizenz und Bereitstellung von Laufzeiten.

Der Fokus liegt auf System-Kompromissen: Ein ~ 0,7B Qwen-Klasse-Rückgrat mit GGUF-Quantisierung, gepaart mit Neukodec bei 0,8 kbit/s/24 kHz, ist ein pragmatisches Rezept für Echtzeit, CPU-Nur-CPU-TTs, das TIMBRE mit ~ 3–15 S-Referenzen aufbewahrt und die Lattern und Gedächtniss vorhersehbar hält. Die Apache-2.0-Lizenzierung und ein integriertes Wasserzeichen sind einsatzfreundlich, aber die Veröffentlichung von RTF/Latenz zu Rohstoff-CPUs und Klonierungsqualität im Vergleich zu Referenzlängenkurven würde strenge Benchmarking gegen vorhandene lokale Pipelines ermöglichen. Operativ senkt ein Offline -Pfad mit minimalen Abhängigkeiten (ESPEAK, LAMA.CPP/ONNX) das Privatsphäre/Compliance -Risiko für Edge -Agenten, ohne die Verständlichkeit zu beeinträchtigen.


Schauen Sie sich das an Modellkarte zum Umarmungsgesicht Und Github -Seite. Fühlen Sie sich frei, unsere zu überprüfen Github -Seite für Tutorials, Codes und Notizbücher. Fühlen Sie sich auch frei, uns zu folgen Twitter Und vergessen Sie nicht, sich unserer anzuschließen 100k+ ml Subreddit und abonnieren Unser E-newsletter. Warten! Bist du im Telegramm? Jetzt können Sie sich uns auch im Telegramm anschließen.


Michal Sutter ist ein Datenwissenschaftler bei einem Grasp of Science in Information Science von der College of Padova. Mit einer soliden Grundlage für statistische Analyse, maschinelles Lernen und Datentechnik setzt Michal aus, um komplexe Datensätze in umsetzbare Erkenntnisse umzuwandeln.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert