Meta hat SAM Audio veröffentlicht, ein prompt-gesteuertes Audio-Trennungsmodell, das auf einen häufigen Bearbeitungsengpass abzielt und einen Sound aus einem realen Combine isoliert, ohne für jede Soundklasse ein benutzerdefiniertes Modell zu erstellen. Meta hat 3 Hauptgrößen veröffentlicht, sam-audio-small, sam-audio-baseUnd sam-audio-large. Das Modell steht zum Herunterladen und Ausprobieren im Section Something Playground zur Verfügung.

Architektur

SAM Audio verwendet separate Encoder für jedes Konditionierungssignal, einen Audio-Encoder für die Mischung, einen Textual content-Encoder für die Beschreibung in natürlicher Sprache, einen Spannen-Encoder für Zeitanker und einen visuellen Encoder, der eine vom Video abgeleitete visuelle Eingabeaufforderung sowie eine Objektmaske verwendet. Die codierten Streams werden zu zeitlich ausgerichteten Merkmalen verkettet und dann von einem Diffusionstransformator verarbeitet, der die Selbstaufmerksamkeit über die zeitlich ausgerichtete Darstellung und die Queraufmerksamkeit auf das Textmerkmal richtet. Anschließend rekonstruiert ein DACVAE-Decoder Wellenformen und gibt zwei Ausgänge aus: Zielaudio und Restaudio.

Was SAM Audio macht und was „Section“ hier bedeutet?

SAM Audio nimmt eine Eingabeaufzeichnung, die mehrere überlappende Quellen enthält, zum Beispiel Sprache plus Verkehr plus Musik, und trennt anhand einer Eingabeaufforderung eine Zielquelle ab. In der öffentlichen Inferenz-API erzeugt das Modell zwei Ausgaben: outcome.goal Und outcome.residual. Das Forschungsteam beschreibt goal als der isolierte Ton, und residual wie alles andere.

Diese Ziel- und Restschnittstelle wird direkt den Editorvorgängen zugeordnet. Wenn Sie das Bellen eines Hundes in einem Podcast-Monitor entfernen möchten, können Sie das Bellen als Ziel betrachten und es dann subtrahieren, indem Sie nur den Relaxation beibehalten. Wenn Sie einen Gitarrenpart aus einem Konzertclip extrahieren möchten, behalten Sie stattdessen die Zielwellenform bei. Meta verwendet genau solche Beispiele, um zu erklären, was das Modell ermöglichen soll.

Die 3 Eingabeaufforderungstypen, die Meta liefert, werden ausgeliefert

Meta positioniert SAM Audio als ein einziges einheitliches Modell, das drei Aufforderungstypen unterstützt, und besagt, dass diese Aufforderungen einzeln oder kombiniert verwendet werden können.

  1. Texteingabe: Sie beschreiben das Geräusch in natürlicher Sprache, zum Beispiel „Hundegebell“ oder „Singstimme“, und das Modell trennt dieses Geräusch aus der Mischung. Meta listet Textaufforderungen als einen der wichtigsten Interaktionsmodi auf, und das Open-Supply-Repo enthält ein Finish-to-Finish-Beispiel für die Verwendung SAMAudioProcessor Und mannequin.separate.
  2. Visuelle Aufforderung: Sie klicken auf die Individual oder das Objekt in einem Video und bitten das Modell, den mit diesem visuellen Objekt verbundenen Ton zu isolieren. Das Meta-Staff beschreibt visuelle Aufforderung als Auswahl des klingenden Objekts im Video. Im veröffentlichten Codepfad wird die visuelle Eingabeaufforderung durch die Weitergabe von Videobildern und Masken an den Prozessor implementiert masked_videos.
  3. Span-Prompting: Das Meta-Staff nennt Span-Prompting eine Branchenneuheit. Sie markieren Zeitabschnitte, in denen das Zielgeräusch auftritt, und das Modell verwendet diese Zeitabschnitte dann zur Steuerung der Trennung. Dies ist in mehrdeutigen Fällen wichtig, beispielsweise wenn dasselbe Instrument in mehreren Passagen vorkommt oder wenn ein Klang nur kurz vorhanden ist und Sie eine übermäßige Trennung des Modells verhindern möchten.
https://ai.meta.com/weblog/sam-audio/

Ergebnisse

Das Meta-Staff positioniert SAM Audio als Anbieter von Spitzenleistung in verschiedenen, realen Szenarien und stellt es als einheitliche Various zu Audio-Instruments für einen einzigen Zweck dar. Das Staff veröffentlicht eine subjektive Bewertungstabelle für die Kategorien Allgemein, SFX, Sprache, Sprecher, Musik, Instr(wild), Instr(professional), mit allgemeinen Werten von 3,62 für Sam Audio Small, 3,28 für Sam Audio Base und 3,50 für Sam Audio Massive und Instr(Professional)-Werten von 4,49 für Sam Audio Massive.

Wichtige Erkenntnisse

  1. SAM Audio ist ein einheitliches Audio-Trennmodellsegmentiert es den Klang aus komplexen Mischungen Textaufforderungen, visuelle Aufforderungen und Zeitspannenaufforderungen.
  2. Die Kern-API erzeugt zwei Wellenformen professional Anfrage, goal für den isolierten Klang und residual für alles andere, was sich sauber auf gängige Bearbeitungsvorgänge wie das Entfernen von Rauschen, das Extrahieren von Stems oder das Beibehalten der Atmosphäre abbilden lässt.
  3. Meta hat mehrere Prüfpunkte und Varianten veröffentlichteinschließlich sam-audio-small, sam-audio-base, sam-audio-largeplus television Varianten, von denen das Repo sagt, dass sie bei der visuellen Eingabeaufforderung eine bessere Leistung erbringen, veröffentlicht das Repo auch eine subjektive Bewertungstabelle nach Kategorie.
  4. Die Veröffentlichung umfasst Instruments, die über alle Rückschlüsse hinausgehenMeta bietet a sam-audio-judge Modell, das Trennungsergebnisse anhand einer Textbeschreibung hinsichtlich Gesamtqualität, Erinnerung, Präzision und Treue bewertet.

Schauen Sie sich das an Technische Particulars Und GitHub-Seite. Schauen Sie sich gerne bei uns um GitHub-Seite für Tutorials, Codes und Notebooks. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 100.000+ ML SubReddit und Abonnieren Unser E-newsletter. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.


Asif Razzaq ist CEO von Marktechpost Media Inc.. Als visionärer Unternehmer und Ingenieur setzt sich Asif dafür ein, das Potenzial der künstlichen Intelligenz für das soziale Wohl zu nutzen. Sein jüngstes Unterfangen ist die Einführung einer Medienplattform für künstliche Intelligenz, Marktechpost, die sich durch eine ausführliche Berichterstattung über maschinelles Lernen und Deep-Studying-Nachrichten auszeichnet, die sowohl technisch fundiert als auch für ein breites Publikum leicht verständlich ist. Die Plattform verfügt über mehr als 2 Millionen monatliche Aufrufe, was ihre Beliebtheit beim Publikum verdeutlicht.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert