Determine’s Helix: KI, die menschliche Roboter zu sich zu Hause bringt

Determine AI hat gerade die Dokumentation und Demos für ihren neuesten humanoiden Roboter Helix veröffentlicht. Helix basiert auf einem VLA-Framework (Imaginative and prescient-Language-Motion), der es humanoiden Robotern ermöglicht, mit menschlichen Fähigkeiten zu argumentieren und zu arbeiten. Dieser Ansatz zielt darauf ab, die Herausforderung der Skalierung der Robotik von kontrollierten industriellen Umgebungen bis zu den unvorhersehbaren, unterschiedlichen Häusern zu bewältigen. Nachfolgend finden Sie eine umfassende Aufschlüsselung von allem, was über Helix basierend auf verfügbaren Informationen bekannt ist.

Was ist Helix?

Helix ist das erste VLA-Modell, das eine hochrate und kontinuierliche Kontrolle über einen ganzen humanoiden Oberkörper bietet, einschließlich Torso, Kopf, Handgelenken und individuellen Fingern. Mit 35 Grad der Freiheit (DOF) stellt es einen signifikanten Sprung in der Roboter -Geschicklichkeit und Autonomie dar. Im Gegensatz zu herkömmlichen Robotersystemen, die umfangreiche manuelle Programmierung oder Tausende von aufgabenspezifischen Demonstrationen erfordern, ermöglicht Helix Roboter, komplexe Langzeitaufgaben dynamisch mithilfe natürlicher Sprache auszuführen. Diese Fähigkeit ist ein wichtiger Schritt, Roboter für häusliche Umgebungen praktisch zu machen, wo sie sich mit verschiedenen Objekten befassen und sich an unvorhersehbare Situationen anpassen müssen.

Architektur: System 1 und System 2

Helix verwendet eine Architektur mit zwei Systemen, die von menschlichen kognitiven Modellen inspiriert ist, insbesondere von Daniel Kahnemans „Denk-, schneller und langsamer“ Rahmen:

System 2

System 2 dient als „Huge Mind“-ein 7-Milliarden-Parameter-Imaginative and prescient-Sprach-Modell (VLM), das in Daten im Internetmaßstab vorgelegt ist. Es kümmert sich um hochrangige Argumentation, Sprachverständnis und visuelle Interpretation. Dieses System ermöglicht Helix, abstrakte Befehle zu verarbeiten (z. B. „das Wüstenelement abholen“) und in umsetzbare Schritte umzusetzen, indem relevante Objekte und Kontexte identifiziert werden.

System 1

System 1 ist eine 80-Millionen-Parameter-visuomotorische Richtlinie, die für eine schnelle Kontrolle auf niedriger Ebene optimiert ist. Es führt präzise physische Handlungen aus, wie z. B. das Greifen oder Manipulieren von Objekten, basierend auf Richtlinien aus System 2. Seine kleinere Größe sorgt für schnelle Reaktionszeiten für Echtzeit-Roboteroperationen.

Beide Systeme werden mit eingebettetem GPUs mit geringem Stromverbrauch ausgeführt, wodurch Helix kommerziell für die Bereitstellung geeignet ist, ohne auf externe Rechenressourcen abhängig zu sein. Diese autarke Verarbeitungsfähigkeit ist für Anwendungen in der realen Welt von entscheidender Bedeutung.

Lesen Sie auch: High 6 humanoide Roboter im Jahr 2025

Technische Erfolge

Einzelnes neuronales Netzwerk: Im Gegensatz zu vorherigen Ansätzen, die separate Modelle für verschiedene Aufgaben erfordern, verwendet Helix ein einheitliches Satz von neuronalen Netzwerkgewichten, um alle Verhaltensweisen zu bewältigen-Choosing, Platzierung, Schubladenbetrieb, Kühlaufgaben und Multi-Robotic-Interaktionen-ohne aufgabenspezifische Feinabstimmung.
Verhaltensgenerierung im Fliege: Helix erzeugt intelligentes, neuartiges Verhalten für Objekte, die es noch nie gesehen hat, was die Notwendigkeit menschlicher Anstrengungen in der Programmierung oder Demonstrationssammlung verringert.
Kommerzielle Bereitschaft: Helix wird ausschließlich auf eingebetteter GPUs ausgeführt und ist für die sofortige Anwendung der realen Welt konzipiert, wodurch die Latenz- und Abhängigkeitsprobleme von Cloud-basierten Systemen vermieden werden.

Demonstrationen

Figur hat mehrere Movies veröffentlicht, in denen Helix in Aktion zeigt:

Kollaborative Lebensmittelspeicher: Zwei Roboter, die von einer einzelnen Helix -Instanz angetrieben werden, arbeiten zusammen, um Lebensmittel zu speichern, die sie noch nie begegnet sind, und demonstrieren Koordination und Anpassungsfähigkeit.
Objektmanipulation: Roboter wählen und geben verschiedene Haushaltsgegenstände in Behälter, betreiben Schubladen und interagieren mit Kühlschränken, die alle auf Anweisungen für natürliche Sprache basieren.
Konzeptionelle Argumentation: In einem Beispiel interpretiert Helix „das Wüstengegenstand aufnehmen“ und wählt einen Spielzeugkaktus aus, wodurch seine Fähigkeit zur Verbindung abstrakter Sprache mit physischen Handlungen hervorgehoben wird.

Kollaborative Lebensmittelspeicher

Dieses Video enthält zwei Figurenroboter, die beide von einem einzigen neuronalen Helix -Netzwerk gesteuert werden und zusammenarbeiten, um Lebensmittel zu speichern. Die Elemente sind neuartig – die Roboter haben sie noch nie zuvor begegnet – und enthalten Objekte mit verschiedenen Formen, Größen und Materialien (z. B. Taschen mit Keksen, Dosen oder Produkten).

Die Roboter zeigen Koordination, z. B. die Übergabe von Gegenständen aneinander und das Einlegen von Schubladen oder Behältern, die alle auf natürlichen Sprachaufforderungen basieren wie “Geben Sie die Tüte Kekse dem Roboter rechts von der Rechten ein“ oder „Legen Sie es in die offene Schublade.“Dies zeigt die Fähigkeit von Helix, die Zusammenarbeit mit Multi-Robotic-Zusammenarbeit und die Verallgemeinerung von Null zu verwalten (Ausführung von Aufgaben ohne vorherige Schulung zu bestimmten Objekten).

Vollständige Koordination des Oberkörpers

Dieses Video betont die Kontrolle von Helix über einen 35-Grad-Freedom-Aktionsraum (DOF) bei 200 Hz. Der Roboter manipuliert Haushaltsgegenstände und koordiniert seinen gesamten Oberkörper – Torso, Kopf, Handgelenke und individuelle Finger. Zum Beispiel verfolgt es seine Hände mit dem Kopf für die visuelle Ausrichtung und passt seinen Oberkörper für optimale Reichweite an, während sie genaue Fingerbewegungen beibehalten, um Objekte sicher zu erfassen. Dies zeigt die Echtzeit-Geschicklichkeit und -stabilität des Modells und überwindet historische Herausforderungen wie Rückkopplungsschleifen, die hochdof-Systeme destabilisieren.

Sprache zu Handlung

Helix behandelt hochrangige Befehle. Es verwandelt sie in genaue Aktionen. Angefordert mit „Abholung des Wüstenartikels“, handelt es. Der Roboter entdeckt einen Spielzeugkaktus. Es nimmt es aus verschiedenen Objekten aus. Es wählt die rechte Hand aus. Dann greift es sicher. Dies zeigt Helix ‚Fähigkeiten. Es verbindet ein breites Sprachverständnis mit der motorischen Kontrolle. Es begründet abstrakte Ideen und Handlungen ohne vorherige Demos.

Abschluss

Helix ist die interne KI der Figur. Es ist ein bahnbrechendes Modell der Imaginative and prescient-Sprach-Motion. Es gibt humanoide Roboter menschliches Denken und Geschicklichkeit. Seine Doppelsystemarchitektur hilft dies. Dies ist auch seine verallgemeinerte Objektabwicklung und die Verarbeitung von Bord. Diese machen es zu einem wichtigen Fortschritt der Robotik. Es ist besonders für Häuser geeignet. Helix lässt Roboter die natürliche Sprache verstehen. Sie können durch Aufgaben argumentieren. Sie können quick jeden Haushaltsgegenstand ohne vorherige Ausbildung manipulieren. Dies erfüllt das „Stufenveränderung“ der Abbildung in der Robotik.

Bleiben Sie mit den neuesten Ereignissen der KI -Welt auf dem Laufenden mit Analytics Vidhya Information!

Hallo, ich bin Nitika, ein technisch versierter Content material-Ersteller und Vermarkter. Kreativität und neue Dinge lernen natürlich für mich. Ich habe Fachkenntnisse bei der Erstellung von ergebnisgesteuerten Inhaltsstrategien. Ich bin mit search engine optimisation -Administration, Key phrase -Operationen, Webinhalten, Kommunikation, Inhaltsstrategie, Bearbeitung und Schreiben intestine vertraut.

Determine’s Helix: KI, die menschliche Roboter zu sich zu Hause bringt

Was ist Helix?

Architektur: System 1 und System 2

System 2

System 1

Technische Erfolge

Demonstrationen

Kollaborative Lebensmittelspeicher

Vollständige Koordination des Oberkörpers

Sprache zu Handlung

Abschluss

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Erstellen Sie mit Claude Code + MCP einen AI Assembly Summarizer

Meta veröffentlicht TRIBE v2: Ein Gehirnkodierungsmodell, das fMRT-Reaktionen über Video-, Audio- und Textreize hinweg vorhersagt

Erste Schritte mit Smolagents: Erstellen Sie Ihren ersten Code-Agenten in 15 Minuten

Geräusche sehen | MIT-Nachrichten

About

Categories

Tags

Recent Post

Erstellen Sie mit Claude Code + MCP einen AI Assembly Summarizer

Meta veröffentlicht TRIBE v2: Ein Gehirnkodierungsmodell, das fMRT-Reaktionen über Video-, Audio- und Textreize hinweg vorhersagt

Was ist Helix?

Architektur: System 1 und System 2

System 2

System 1

Technische Erfolge

Demonstrationen

Kollaborative Lebensmittelspeicher

Vollständige Koordination des Oberkörpers

Sprache zu Handlung

Abschluss

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt