Neuphonic hat veröffentlicht NETTS AIRein Open-Supply-Textual content-to-Speech (TTS) Sprachmodell Entwickelt, um lokal in Echtzeit auf CPUs zu laufen. Der Umarmung der Gesichtsmodellkarte Pay attention 748m Parameter (QWEN2 -Architektur) und Schiffe in GGUF llama.cpp/llama-cpp-python ohne Cloud -Abhängigkeiten. Es ist lizenziert unter Apache-2.0 und beinhaltet einen Runnable Demo und Beispiele.
Additionally, was ist neu?
NETTS AIR Paare a 0,5B-Klasse Qwen Spine mit Neuenmonischen Neukodec Audio -Codec. Neuphonische positioniert das System als „superrealistisch ~ 3 Sekunden Referenz -Audio und synthetisiert Sprache in diesem Stil, zielt auf Sprachagenten und Datenschutzanwendungen ab. Die Modellkarte und das Repository betonen explizit Echtzeit-CPU Era und Small-Footprint-Bereitstellung.
Schlüsselmerkmale
- Realismus bei Sub-1B-Skala: Menschliche Prosodie und Timbre-Erhaltung für eine ~ 0,7B (QWEN2-Klasse) Textual content-to-Speech-LM.
- Bereitstellung von On-Gadget-Bereitstellungen: Verteilt in Gguf (This fall/Q8) mit CPU-ersten Pfaden; Geeignet für Laptops, Telefone und Himbeer-Pi-Klasse-Boards.
- Sofortiger Sprecher Klonen: Stilübertragung von ~3 Sekunden von Referenz -Audio (ReferenzwAV + Transkript).
- Compact LM+Codec Stack: Qwen 0,5b Rückgrat gepaart mit Neukodec (0,8 kbit / s / 24 kHz) Latenz, Fußabdruck und Ausgangsqualität ausgleichen.
Erklären Sie den Modellarchitektur und den Laufzeitweg?
- Rückgrat: Qwen 0,5b Wird als leichter LM verwendet, um die Sprachgenerierung zu konditionieren; Das gehostete Artefakt wird als berichtet als 748m Parames unter dem Qwen2 Architektur auf Umarmung.
- Codec: Neukodec Bietet eine akustische Tokenisierung/Dekodierung mit niedrigem Bitrat; Es zielt auf sich ab 0,8 kbit / s mit 24 kHz Ausgang, Aktivieren von kompakten Darstellungen für den effizienten Einsatz von Einrichtungen.
- Quantisierung und Format: Vorgebaut Gguf Backbones (This fall/Q8) sind verfügbar; Das Repo enthält Anweisungen für
llama-cpp-pythonund ein optionales Onnx Decoderpfad. - Abhängigkeiten: Verwendung
espeakzur Phonemisierung; Beispiele und ein Jupyter-Notizbuch werden für die Finish-to-Finish-Synthese bereitgestellt.
Leistungsfokus vor dem Gerät
NETTS AIR Präsentationen ‚Echtzeit-Era auf Mittelklasse-Geräten‚und Angebote CPU-First Standardeinstellungen; Die GGUF-Quantisierung ist für Laptops und Single-Board-Laptop vorgesehen. Während keine FPS/RTF -Nummern auf der Karte veröffentlicht werden Lokale Inferenz ohne GPU und demonstriert einen funktionierenden Fluss durch die bereitgestellten Beispiele und Raum.
Sprachkloning -Workflow
NETTS -Luft erfordert (1) a Referenzwav und (2) die Transkripttext für diese Referenz. Es codiert den Verweis auf Model -Token und synthetisiert dann willkürlichen Textual content im Timbre des Referenzsprechers. Das neumonische Crew empfiehlt 3–15 s Sauber, Mono-Audio und bietet vorgekündigte Proben.
Privatsphäre, Verantwortung und Wasserzeichen
Neuphonisches Rahmen das Modell für Privatsphäre vor dem Gerät (Kein Audio/Textual content lässt den Laptop ohne die Zustimmung des Benutzers) und stellt fest, dass alle generierten Audios a enthalten Perth (Wahrnehmungsschwelle) Wassermarkierungsmittel die verantwortungsvolle Nutzung und Herkunft zu unterstützen.
Wie vergleicht es?
Offene lokale TTS-Systeme existieren (z. B. Pipelines auf GGUF-basierten Pipelines), aber NETTS Air ist für die Verpackung a bemerkenswert Kleine LM + Neural Codec mit sofortiges KlonenAnwesend CPU-erste QuantisierungenUnd Wasserzeichen unter einer zulässigen Lizenz. Die „erste superrealistische Rede-Rede-LM-LM-Rede“ der Welt ist die Behauptung des Anbieters. Die überprüfbaren Fakten sind die Größe, Formate, Klonierungsverfahren, Lizenz und Bereitstellung von Laufzeiten.
Der Fokus liegt auf System-Kompromissen: Ein ~ 0,7B Qwen-Klasse-Rückgrat mit GGUF-Quantisierung, gepaart mit Neukodec bei 0,8 kbit/s/24 kHz, ist ein pragmatisches Rezept für Echtzeit, CPU-Nur-CPU-TTs, das TIMBRE mit ~ 3–15 S-Referenzen aufbewahrt und die Lattern und Gedächtniss vorhersehbar hält. Die Apache-2.0-Lizenzierung und ein integriertes Wasserzeichen sind einsatzfreundlich, aber die Veröffentlichung von RTF/Latenz zu Rohstoff-CPUs und Klonierungsqualität im Vergleich zu Referenzlängenkurven würde strenge Benchmarking gegen vorhandene lokale Pipelines ermöglichen. Operativ senkt ein Offline -Pfad mit minimalen Abhängigkeiten (ESPEAK, LAMA.CPP/ONNX) das Privatsphäre/Compliance -Risiko für Edge -Agenten, ohne die Verständlichkeit zu beeinträchtigen.
Schauen Sie sich das an Modellkarte zum Umarmungsgesicht Und Github -Seite. Fühlen Sie sich frei, unsere zu überprüfen Github -Seite für Tutorials, Codes und Notizbücher. Fühlen Sie sich auch frei, uns zu folgen Twitter Und vergessen Sie nicht, sich unserer anzuschließen 100k+ ml Subreddit und abonnieren Unser E-newsletter. Warten! Bist du im Telegramm? Jetzt können Sie sich uns auch im Telegramm anschließen.

