Die meisten physischen KI-Groups wissen, dass sie Daten benötigen. Nur wenige wissen, dass sie einen Stapel davon brauchen. Die Fähigkeiten, die ein eingesetzter Humanoid-, AV- oder Lagerroboter benötigt – Wahrnehmung, Aktion, Befehlsfolge, mehrstufige Workflow-Ausführung – sind jeweils einer anderen Ebene von Trainingsdaten mit unterschiedlichen Erfassungsmethoden, Anmerkungstiefen und Qualitätskontrollen zugeordnet. Der physische KI-Datensatzstapel ist eine Möglichkeit, diese Schichten als ein integriertes System und nicht als vier voneinander unabhängige Beschaffungsentscheidungen zu betrachten.


Wichtige Erkenntnisse
- Der physische KI-Datensatzstapel besteht aus vier Schichten, die mit vier realen Funktionen verknüpft sind.
- Schicht 1 umfasst menschliche Aktivitäts- und Demonstrationsdaten zur Wahrnehmung und zum Verständnis.
- Schicht 2 erfasst Robotermanipulationsdaten für die wiederholbare Aufgabenausführung.
- Schicht 3 richtet Imaginative and prescient, Sprache und Aktion aufeinander aus, um Anweisungen in großem Maßstab zu befolgen.
- Layer 4 unterstützt die Erledigung von mehrstufigen Aufgaben über einen längeren Zeitraum in realen Umgebungen.
- Jede Schicht ernährt die nächste; Schwächen unten breiten sich im Stapel nach oben aus.
Warum sollten physische KI-Daten als Stapel betrachtet werden?
Physische KI-Daten verhalten sich wie ein Stapel, da jede Fähigkeitsschicht von den darunter liegenden Schichten abhängt. Wahrnehmungsdaten ohne Aktionsdaten erzeugen ein Modell, das sieht, sich aber nicht bewegen kann. Aktionsdaten ohne Sprachausrichtung erzeugen ein Modell, das sich bewegt, aber Anweisungen nicht befolgen kann. Langfristige Workflow-Daten ohne robuste Anweisungsfolge kollabieren bei der ersten mehrstufigen Aufgabe.
Der offene physische KI-Datensatz von NVIDIA, der der Entwicklergemeinschaft zur Verfügung gestellt wird, umfasst Tausende Stunden Multikamera-Video in beispielloser Vielfalt (NVIDIA, 2025), und selbst bei dieser Größenordnung benötigen nachgelagerte Groups immer noch ihre eigenen aufgabenspezifischen Ebenen darüber. Daten vor dem Coaching sind notwendig, nicht ausreichend.
Ebene 1: Was decken die Daten zum menschlichen Verständnis ab?
Bei Daten zum menschlichen Verständnis handelt es sich um menschliche Aktivitäts- und Demonstrationsdaten – Aufnahmen aus der ersten und dritten Particular person von Menschen, die Aufgaben in realen Umgebungen ausführen. Es lehrt das Modell, wie die Welt aussieht und wie sich Menschen darin bewegen.
Menschliche Demonstrationsdaten: Video- und Sensoraufzeichnungen von Menschen, die Aufgaben ausführen, mit Anmerkungen, die Beobachtungen mit Aktionen, Absichten oder Ergebnissen in Einklang bringen.


Diese Ebene speist Wahrnehmung, Szenenverständnis und Absichtsschlussfolgerung. Qualitätsfragen, die Sie stellen sollten:
- Decken die Daten die Umgebungen ab, in denen Ihr Roboter arbeiten wird?
- Werden Demonstrationen auf der Ebene der atomaren Aktion oder nur professional Clip kommentiert?
- Ist die Einwilligung der Teilnehmer dokumentiert und nachvollziehbar?
Shaips L1 Datenerfassung Layer erfasst reale Aktivitäten in Küchen, Fabriken, Lagerhäusern, Gesundheitseinrichtungen und Straßen – Umgebungen, die eher dem Einsatzkontext als den Laborbedingungen entsprechen.
Ebene 2: Was decken die Aufgabenausführungsdaten ab?
Bei den Daten zur Aufgabenausführung handelt es sich um Robotermanipulationsdaten – Flugbahnen, Gelenkzustände, Objektinteraktionen und Kontaktdynamik für wiederholbare physische Aufgaben. Es lehrt das Modell, wie es handeln soll, nicht nur, was es wahrnehmen soll.
Daten zur Robotermanipulation: Zeitgestempelte Sequenzen von Roboterzuständen, Endeffektor-Posen und Objektinteraktionen, die während der Teleoperation, der Skriptausführung oder der Demonstrationswiedergabe erfasst werden.


Hier zeigt sich die verkörperungsspezifische Struktur. Gelenkkonfigurationen, Greifergeometrien und Aktionsräume variieren von Roboter zu Roboter, sodass Manipulationsdaten ohne Retargeting selten über verschiedene Ausführungsformen hinweg übertragbar sind. Cross-Embodiment-Bemühungen – wie etwa Datensätze, die 22 Roboter-Verkörperungen unter einem Aktionsschema vereinen (DeepMind/Stanford et al., 2024) – haben dies etwas einfacher gemacht, aber aufgabenspezifische Manipulationsdaten bleiben ein praktisches Erfassungsprogramm.
Schicht 3: Was fügen VLA-Daten hinzu?
VLA-Daten sorgen für eine sprachliche Ausrichtung von Imaginative and prescient und Aktion – jede Episode enthält eine Anweisung in natürlicher Sprache, die an die Flugbahn gebunden ist, die sie erfüllt.
Imaginative and prescient-Language-Motion (VLA)-Daten: Trainingsdaten auf Episodenebene mit synchronisierten visuellen Beobachtungen, Anweisungen in natürlicher Sprache und Aktionsverläufen mit Erfolgskennzeichnungen.


Diese Ebene ermöglicht die Befolgung von Anweisungen. Ohne sie kann ein Manipulationsmodell eine trainierte Aufgabe ausführen; Damit kann dasselbe Spine über Hunderte von Anweisungen hinweg verallgemeinert werden. Der Haken: Sprachbeschreibungen müssen atomar und spezifisch sein und an den tatsächlichen Handlungsgrenzen ausgerichtet sein – und nicht an vagen Zusammenfassungen. Die Anmerkungsgenauigkeit auf dieser Ebene bestimmt, ob eine fein abgestimmte VLA auf neue Eingabeaufforderungen verallgemeinert oder den Trainingssatz speichert.
Schicht 4: Was decken die Daten zu Langzeitaufgaben ab?
Langfristige Aufgabendaten umfassen mehrstufige Arbeitsabläufe – Sequenzen, bei denen der Roboter eine Unteraufgabe abschließen muss, um mit der nächsten zu beginnen. Das Kochen einer Mahlzeit, das Sortieren einer Lagerpalette und das Zusammenstellen eines Bausatzes sind langwierige Aufgaben. Bei jedem ist es erforderlich, dass das Modell den Standing verfolgt, sich nach dem Ausfall einer Unteraufgabe erholt und Fähigkeiten verkettet.


Ein Forschungsdatensatz, der sich auf die Tabletop-Manipulation mit langem Horizont konzentrierte, umfasste 200 Episoden in 20 mehrstufigen Aufgaben mit überfüllten Szenen (LHManip-Autoren, arXiv, 2024) – klein im Umfang, aber eng strukturiert. Produktionsteams erstellen in der Regel Evaluierungssätze mit Hunderten bis Tausenden von Langzeitepisoden sowie Ausnahmebehandlungs-Traces für die Wiederherstellung nach Fehlern.
