Apple-Forscher veröffentlichte eine Studie Im Element geht es darum, wie große Sprachmodelle (LLMs) Audio- und Bewegungsdaten interpretieren können, um Benutzeraktivitäten zu identifizieren, wobei der Schwerpunkt auf der späten multimodalen Sensorfusion zur Aktivitätserkennung liegt.

Der Artikel mit dem Titel „Utilizing LLMs for Late Multimodal Sensor Fusion for Exercise Recognition“ von Ilker Demirel, Karan Ketankumar Thakkar, Benjamin Elizalde, Miquel Espi Marques, Shirley Ren und Jaya Narain wurde beim Workshop „Studying from Time Sequence for Well being“ auf der NeurIPS 2025 angenommen. Diese Forschung untersucht die Integration der LLM-Analyse mit traditionellen Sensordaten, um die Aktivitätsklassifizierung zu verbessern.

Die Forscher stellen fest: „Sensordatenströme liefern wertvolle Informationen über Aktivitäten und Kontext für nachgelagerte Anwendungen, obwohl die Integration ergänzender Informationen eine Herausforderung sein kann. Wir zeigen, dass große Sprachmodelle (LLMs) für die späte Fusion zur Aktivitätsklassifizierung aus Audio- und Bewegungszeitreihendaten verwendet werden können.“ Sie kuratierten einen Teilsatz von Daten zur Erkennung verschiedener Aktivitäten aus dem Ego4D-Datensatz, der Haushaltsaktivitäten und Sport umfasste.

Bewertete LLMs erreichten 12-Klassen-F1-Scores mit Null- und One-Shot-Klassifizierung, die deutlich über der Wahrscheinlichkeit lagen, ohne aufgabenspezifisches Coaching. Die Zero-Shot-Klassifizierung durch LLM-basierte Fusion aus modalitätsspezifischen Modellen ermöglicht multimodale zeitliche Anwendungen mit begrenzten ausgerichteten Trainingsdaten für einen gemeinsamen Einbettungsraum. Die LLM-basierte Fusion ermöglicht die Modellbereitstellung, ohne dass zusätzlicher Speicher und zusätzliche Berechnungen für gezielte anwendungsspezifische multimodale Modelle erforderlich sind.

Die Studie unterstreicht die Fähigkeit von LLMs, Benutzeraktivitäten aus grundlegenden Audio- und Bewegungssignalen abzuleiten, und zeigt anhand eines einzigen Beispiels eine verbesserte Genauigkeit. Entscheidend ist, dass dem LLM kein direkter Rohton zugeführt wurde. Stattdessen erhielt es kurze Textbeschreibungen, die von Audiomodellen und einem IMU-basierten Bewegungsmodell generiert wurden, das Bewegungen über Beschleunigungsmesser- und Gyroskopdaten verfolgt.

Für die Studie nutzten die Forscher Ego4D, einen Datensatz mit Tausenden Stunden an Medien aus der Ich-Perspektive. Sie kuratierten einen Datensatz der täglichen Aktivitäten von Ego4D, indem sie nach narrativen Beschreibungen suchten. Der kuratierte Datensatz umfasst 20-Sekunden-Beispiele aus zwölf hochrangigen Aktivitäten:

Diese Aktivitäten wurden ausgewählt, um Haushalts- und Fitnessaufgaben abzudecken, und basierten auf ihrer Prävalenz im größeren Ego4D-Datensatz. Audio- und Bewegungsdaten wurden durch kleinere Modelle verarbeitet, um Textbeschriftungen und Klassenvorhersagen zu generieren. Diese Ergebnisse wurden dann in verschiedene LLMs eingespeist, insbesondere in Gemini-2.5-pro und Qwen-32B, um die Genauigkeit der Aktivitätsidentifizierung zu bewerten.

Apple verglich die Modellleistung in zwei Szenarien: einem geschlossenen Take a look at, bei dem die Modelle aus den 12 vordefinierten Aktivitäten wählten, und einem offenen Take a look at ohne bereitgestellte Optionen. Für jeden Take a look at wurden verschiedene Kombinationen aus Audiountertiteln, Audiolabels, IMU-Aktivitätsvorhersagedaten und zusätzlichem Kontext verwendet.

Die Forscher stellten fest, dass die Ergebnisse Einblicke in die Kombination mehrerer Modelle für Aktivitäts- und Gesundheitsdaten bieten. Dieser Ansatz ist insbesondere dann von Vorteil, wenn die Rohdaten der Sensoren allein nicht ausreichen, um ein klares Bild der Benutzeraktivität zu liefern. Apple veröffentlichte außerdem ergänzende Materialien, darunter Ego4D-Section-IDs, Zeitstempel, Eingabeaufforderungen und One-Shot-Beispiele, um die Reproduzierbarkeit für andere Forscher zu erleichtern.


Hervorgehobener Bildnachweis

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert