Im Web gibt es eine Flut von Lehrvideos, die neugierigen Zuschauern alles Mögliche beibringen, vom Backen des perfekten Pfannkuchens bis zur Durchführung eines lebensrettenden Heimlich-Manövers.
Es kann jedoch mühsam sein, genau zu bestimmen, wann und wo in einem langen Video eine bestimmte Aktion stattfindet. Um den Prozess zu rationalisieren, versuchen Wissenschaftler, Computern beizubringen, diese Aufgabe auszuführen. Im Idealfall könnte ein Benutzer einfach die Aktion beschreiben, nach der er sucht, und ein KI-Modell würde zu ihrer Place im Video springen.
Um maschinellen Lernmodellen diese Fähigkeit beizubringen, sind allerdings in der Regel große Mengen teurer Videodaten erforderlich, die sorgfältig von Hand beschriftet wurden.
Ein neuer, effizienterer Ansatz von Forschern am MIT und dem MIT-IBM Watson AI Lab trainiert ein Modell für die Durchführung dieser als räumlich-zeitliche Erdung bezeichneten Aufgabe, indem ausschließlich Movies und deren automatisch generierte Transkripte verwendet werden.
Die Forscher bringen einem Modell auf zwei verschiedene Arten bei, ein unbeschriftetes Video zu verstehen: indem es kleine Particulars betrachtet, um herauszufinden, wo sich Objekte befinden (räumliche Informationen), und indem es das Gesamtbild betrachtet, um zu verstehen, wann die Aktion stattfindet (zeitliche Informationen).
Im Vergleich zu anderen KI-Ansätzen identifiziert ihre Methode Aktionen in längeren Movies mit mehreren Aktivitäten genauer. Interessanterweise stellten sie fest, dass das gleichzeitige Coaching mit räumlichen und zeitlichen Informationen ein Modell besser in der Lage macht, jede einzelne Info zu identifizieren.
Neben der Optimierung von On-line-Lern- und virtuellen Schulungsprozessen könnte diese Technik auch im Gesundheitswesen von Nutzen sein, um beispielsweise in Movies von Diagnoseverfahren schnell wichtige Momente zu finden.
„Wir lösen die Herausforderung, räumliche und zeitliche Informationen gleichzeitig zu kodieren, und betrachten es stattdessen als zwei Experten, die für sich arbeiten. Das stellt sich als eine explizitere Artwork heraus, die Informationen zu kodieren. Unser Modell, das diese beiden getrennten Zweige kombiniert, führt zu der besten Leistung“, sagt Brian Chen, Hauptautor einer Papier zu dieser Technik.
Chen, ein Absolvent der Columbia College im Jahr 2023, der diese Forschung als Gaststudent am MIT-IBM Watson AI Lab durchgeführt hat, wird an der Arbeit von James Glass unterstützt, einem leitenden Wissenschaftler, Mitglied des MIT-IBM Watson AI Lab und Leiter der Spoken Language Techniques Group im Laptop Science and Synthetic Intelligence Laboratory (CSAIL); Hilde Kuehne, Mitglied des MIT-IBM Watson AI Lab, die auch mit der Goethe-Universität Frankfurt verbunden ist; und anderen am MIT, der Goethe-Universität, dem MIT-IBM Watson AI Lab und der High quality Match GmbH. Die Forschung wird auf der Konferenz für Laptop Imaginative and prescient und Mustererkennung vorgestellt.
Globales und lokales Lernen
Normalerweise bringen Forscher ihren Modellen die räumlich-zeitliche Erdung mithilfe von Movies bei, in denen Menschen die Begin- und Endzeiten bestimmter Aufgaben notiert haben.
Die Generierung dieser Daten ist nicht nur teuer, sondern es kann für Menschen auch schwierig sein, genau zu bestimmen, was sie beschriften sollen. Wenn es sich bei der Aktion um „einen Pfannkuchen backen“ handelt, beginnt diese Aktion dann, wenn der Koch anfängt, den Teig zu mischen, oder wenn er ihn in die Pfanne gießt?
„Diesmal könnte es bei der Aufgabe ums Kochen gehen, das nächste Mal könnte es darum gehen, ein Auto zu reparieren. Es gibt so viele verschiedene Bereiche, die die Leute annotieren können. Aber wenn wir alles ohne Beschriftungen lernen können, ist das eine allgemeinere Lösung“, sagt Chen.
Für ihren Ansatz verwenden die Forscher unbeschriftete Lehrvideos und dazugehörige Texttranskripte von einer Web site wie YouTube als Trainingsdaten. Diese müssen nicht speziell aufbereitet werden.
Sie teilen den Trainingsprozess in zwei Teile auf. Zum einen bringen sie einem maschinellen Lernmodell bei, das gesamte Video anzuschauen, um zu verstehen, welche Aktionen zu bestimmten Zeiten stattfinden. Diese hochrangigen Informationen werden als globale Darstellung bezeichnet.
Im zweiten Schritt bringen sie dem Modell bei, sich auf einen bestimmten Bereich in Teilen des Movies zu konzentrieren, in dem etwas passiert. In einer großen Küche muss sich das Modell beispielsweise nur auf den Holzlöffel konzentrieren, mit dem ein Koch Pfannkuchenteig anrührt, und nicht auf die gesamte Theke. Diese feinkörnigen Informationen werden als lokale Darstellung bezeichnet.
Die Forscher haben eine zusätzliche Komponente in ihr Konzept integriert, um Abweichungen zwischen Erzählung und Video auszugleichen. Beispielsweise spricht der Koch zuerst über das Backen des Pfannkuchens und führt die Aktion später aus.
Um eine realistischere Lösung zu entwickeln, konzentrierten sich die Forscher auf ungeschnittene Movies, die mehrere Minuten lang sind. Im Gegensatz dazu trainieren die meisten KI-Techniken mit ein paar Sekunden langen Clips, die jemand so zugeschnitten hat, dass nur eine Aktion zu sehen ist.
Ein neuer Maßstab
Als die Forscher ihren Ansatz jedoch evaluieren wollten, konnten sie keinen effektiven Maßstab finden, um ein Modell anhand dieser längeren, ungeschnittenen Movies zu testen – additionally erstellten sie einen.
Um ihren Benchmark-Datensatz aufzubauen, entwickelten die Forscher eine neue Annotationstechnik, die sich intestine zum Identifizieren mehrstufiger Aktionen eignet. Sie ließen die Benutzer die Schnittpunkte von Objekten markieren, etwa den Punkt, an dem eine Messerschneide eine Tomate schneidet, anstatt ein Kästchen um wichtige Objekte zu zeichnen.
„Dies ist klarer definiert und beschleunigt den Annotationsprozess, was den Arbeitsaufwand und die Kosten reduziert“, sagt Chen.
Wenn mehrere Personen Punktanmerkungen zum selben Video vornehmen, können Aktionen, die sich über einen bestimmten Zeitraum hinweg ereignen, wie z. B. das Eingießen von Milch, besser erfasst werden. Nicht alle Annotatoren markieren exakt denselben Punkt im Flüssigkeitsfluss.
Als die Forscher ihren Ansatz anhand dieses Benchmarks testeten, stellten sie fest, dass er Aktionen präziser lokalisieren konnte als andere KI-Techniken.
Ihre Methode konnte sich auch besser auf Interaktionen zwischen Menschen und Objekten konzentrieren. Wenn die Aktion beispielsweise darin besteht, „einen Pfannkuchen zu servieren“, konzentrieren sich viele andere Ansätze möglicherweise nur auf Schlüsselobjekte, wie etwa einen Stapel Pfannkuchen auf einer Theke. Ihre Methode konzentriert sich stattdessen auf den tatsächlichen Second, in dem der Koch einen Pfannkuchen auf einen Teller wirft.
Als nächstes wollen die Forscher ihren Ansatz verbessern, sodass die Modelle automatisch erkennen können, wenn Textual content und Erzählung nicht übereinstimmen, und den Fokus von einer Modalität auf die andere verlagern können. Außerdem wollen sie ihren Rahmen auf Audiodaten ausweiten, da es normalerweise starke Korrelationen zwischen Aktionen und den Geräuschen gibt, die Objekte erzeugen.
„Die KI-Forschung hat unglaubliche Fortschritte bei der Entwicklung von Modellen wie ChatGPT gemacht, die Bilder verstehen. Aber unsere Fortschritte beim Verstehen von Movies hinken weit hinterher. Diese Arbeit stellt einen bedeutenden Schritt in diese Richtung dar“, sagt Kate Saenko, Professorin am Institut für Informatik der Boston College, die an dieser Arbeit nicht beteiligt conflict.
Diese Forschung wird zum Teil vom MIT-IBM Watson AI Lab finanziert.