Menschen lernen natürlich, indem sie Verbindungen zwischen Sicht und Geräusch herstellen. Zum Beispiel können wir jemanden sehen, der das Cello spielt und erkennen, dass die Bewegungen des Cellisten die Musik erzeugen, die wir hören.

Ein neuer Ansatz, der von Forschern vom MIT und anderswo entwickelt wurde, verbessert die Fähigkeit eines KI -Modells, auf die gleiche Weise zu lernen. Dies könnte bei Anwendungen wie Journalismus und Filmproduktion nützlich sein, bei denen das Modell beim Kuratieren multimodaler Inhalte durch automatische Video- und Audioabruf helfen könnte.

Langfristig könnte diese Arbeit verwendet werden, um die Fähigkeit eines Roboters zu verbessern, reale Umgebungen zu verstehen, in denen auditive und visuelle Informationen häufig eng miteinander verbunden sind.

Die Forscher verbesserten frühere Arbeiten aus ihrer Gruppe und erstellten eine Methode, mit der maschinelle Lernmodelle entsprechende Audio- und visuelle Daten aus Videoclips ausgerichtet sind, ohne dass menschliche Etiketten erforderlich sind.

Sie stellten an, wie ihr ursprüngliches Modell trainiert wird, sodass eine feiner körnige Korrespondenz zwischen einem bestimmten Videokrahmen und dem in diesem Second auftretenden Audio erfährt. Die Forscher nahmen auch einige architektonische Änderungen vor, die dem System helfen, zwei unterschiedliche Lernziele in Einklang zu bringen, was die Leistung verbessert.

Zusammengenommen steigern diese relativ einfachen Verbesserungen die Genauigkeit ihres Ansatzes bei den Aufgaben des Videoabrufs und bei der Klassifizierung der Aktionen in audiovisuellen Szenen. Zum Beispiel könnte die neue Methode automatisch und präzise dem Klang einer Tür übereinstimmen, die das visuelle, der in einem Videoclip schließt.

„Wir bauen KI-Systeme auf, die die Welt wie Menschen verarbeiten können, was auch von Audio- und visuellen Informationen auftritt und beide Modalitäten nahtlos verarbeiten können. Wenn wir diese audiovisuelle Technologie in einige der Instruments integrieren können, die wir täglich verwenden, können sie eine Menge neuer Anwendungen eröffnen. Papier über diese Forschung.

Er wird von der Hauptautorin Edson Araujo, einem Scholar der Goethe College in Deutschland, auf der Zeitung begleitet. Yuan Gong, ein ehemaliger MIT -Postdoc; Saurabhchand Bhati, ein aktuelles MIT -Postdoc; Samuel Thomas, Brian Kingsbury und Leonid Karlinsky von IBM Analysis; Rogerio Feris, Hauptwissenschaftler und Supervisor am MIT-IBM Watson AI Lab; James Glass, Seniorforschungswissenschaftler und Leiter der Gesprochenen Sprachsystemgruppe im MIT -Labor für Informatik und künstliche Intelligenz (CSAIL); und Senior-Autorin Hilde Kuehne, Professorin für Informatik an der Goethe College und angeschlossener Professor am MIT-IBM Watson AI Lab. Die Arbeit wird auf der Konferenz über Pc Imaginative and prescient und Mustererkennung vorgestellt.

Synchronisieren

Diese Arbeit baut auf einer maschinellen Lernmethode auf Die Forscher entwickelten sich Vor einigen Jahren bot dies eine effiziente Möglichkeit, ein multimodales Modell zu schulen, um gleichzeitig Audio- und visuelle Daten zu verarbeiten, ohne dass menschliche Etiketten erforderlich sind.

Die Forscher füttern dieses Modell namens Cav-Mae, unbezeichnete Videoclips und codiert die visuellen und Audiodaten getrennt in Darstellungen, die als Token bezeichnet werden. Mit dem natürlichen Audio aus der Aufzeichnung lernt das Modell automatisch, entsprechende Paare von Audio- und visuellen Token in seinem internen Repräsentationsraum zusammenzuarbeiten.

Sie stellten fest, dass die Verwendung von zwei Lernzielen den Lernprozess des Modells ausgleichen, wodurch Cav-mae die entsprechenden Audio- und visuellen Daten verstehen und gleichzeitig die Fähigkeit verbessert, Videoclips wiederherzustellen, die den Benutzeranfragen entsprechen.

Aber Cav-Mae behandelt Audio- und visuelle Proben als eine Einheit, sodass ein 10-Sekunden-Videoclip und das Geräusch eines Türschläkens zusammengebracht werden, auch wenn dieses Audioereignis in nur einer Sekunde des Movies stattfindet.

In ihrem verbesserten Modell namens Cav-Mae Sync teilen die Forscher das Audio in kleinere Fenster auf, bevor das Modell seine Darstellungen der Daten berechnet und so separate Darstellungen erzeugt, die jedem kleineren Audiofenster entsprechen.

Während des Trainings lernt das Modell, einen Videorahmen mit dem Audio zu verknüpfen, das in diesem Rahmen auftritt.

„Auf diese Weise lernt das Modell eine feiner körnige Korrespondenz, die bei der Leistung später hilft, wenn wir diese Informationen aggregieren“, sagt Araujo.

Sie umfassten auch architektonische Verbesserungen, die dem Modell helfen, seine beiden Lernziele auszugleichen.

Hinzufügen von „Wiggle Room“

Das Modell enthält ein kontrastives Ziel, bei dem es lernt, ähnliche Audio- und visuelle Daten zu verknüpfen, und ein Rekonstruktionsziel, das darauf abzielt, bestimmte Audio- und visuelle Daten basierend auf Benutzeranfragen wiederherzustellen.

In Cav-Mae Sync haben die Forscher zwei neue Arten von Datendarstellungen oder Token einführten, um die Lernfähigkeit des Modells zu verbessern.

Dazu gehören dedizierte „globale Token“, die das kontrastive Lernziel und dedizierte „Register -Token“ unterstützen, die dem Modell helfen, sich auf wichtige Particulars für das Wiederaufbauziel zu konzentrieren.

„Im Wesentlichen fügen wir dem Modell ein bisschen mehr Spielraum hinzu, damit jede dieser beiden Aufgaben kontrastiv und rekonstruktiv, etwas unabhängiger. Das profitierte die Gesamtleistung“, fügt Araujo hinzu.

Während die Forscher eine gewisse Instinct hatten, würden diese Verbesserungen die Leistung von Cav-Mae-Synchronisation verbessern, aber es dauerte eine sorgfältige Kombination von Strategien, um das Modell in die Richtung zu verschieben, in der sie es wollten.

„Da wir mehrere Modalitäten haben, brauchen wir ein gutes Modell für beide Modalitäten für sich, aber wir müssen sie auch dazu bringen, zusammen zu verschmelzen und zusammenzuarbeiten“, sagt Rouditchenko.

Letztendlich verbesserten ihre Verbesserungen die Fähigkeit des Modells, Movies auf der Grundlage einer Audio-Abfrage abzurufen und die Klasse einer audiovisuellen Szene wie ein Hundebark oder ein Instrumentspiel vorhersagen.

Die Ergebnisse waren genauer als ihre früheren Arbeiten und funktionierten auch besser als komplexere, hochmoderne Methoden, die größere Mengen an Schulungsdaten erfordern.

„Manchmal haben sehr einfache Ideen oder kleine Muster, die Sie in den Daten sehen, einen großen Wert, wenn Sie auf ein Modell angewendet werden, an dem Sie arbeiten“, sagt Araujo.

In Zukunft möchten die Forscher neue Modelle einbeziehen, die bessere Datendarstellungen in Cav-Mae-Synchronisierung generieren, was die Leistung verbessern könnte. Sie möchten es auch ermöglichen, dass ihr System Textdaten verarbeiten kann, was ein wichtiger Schritt zur Generierung eines audiovisuellen Großsprachenmodells wäre.

Diese Arbeit wird zum Teil vom deutschen Bundesministerium für Bildung und Forschung und das MIT-IBM Watson AI Lab finanziert.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert