Forscher der Stanford College haben veröffentlicht Öffnen Sie Jarvisein Open-Supply-Framework zum Erstellen persönlicher Agenten für künstliche Intelligenz, die vollständig auf dem Gerät ausgeführt werden.
Das Framework zielt darauf ab, Latenz, wiederkehrende Kosten und Bedenken hinsichtlich der Datenexposition im Zusammenhang mit Cloud-basierten KI-Lösungen zu reduzieren, indem die lokale Ausführung priorisiert wird. Dieser Ansatz positioniert lokale KI als Customary, wobei die Cloud-Nutzung zu einer optionalen Komponente wird.
OpenJarvis stammt aus dem Scaling Intelligence Lab von Stanford. Es fungiert sowohl als Forschungsplattform als auch als Bereitstellungsinfrastruktur für lokale KI-Systeme.
Das Projekt legt den Schwerpunkt auf den gesamten Software program-Stack, der für On-Gadget-Agenten erforderlich ist, einschließlich Benutzerfreundlichkeit, Messung und langfristige Anpassungsfähigkeit. Die Studie zitiert die frühere Arbeit „Intelligence Per Watt“, die ergab, dass lokale Sprachmodelle 88,7 % der Chat- und Argumentationsanfragen mit interaktiven Latenzen verarbeiten können. Nach Angaben des Groups hat sich die Effizienz zwischen 2023 und 2025 um das 5,3-fache verbessert.
OpenJarvis verwendet eine „5-Primitives“-Architektur: Intelligenz, Engine, Agenten, Instruments & Speicher und Lernen. Diese Grundelemente fungieren als zusammensetzbare Abstraktionen für unabhängiges Benchmarking und Optimierung.
Das Intelligence-Grundelement fungiert als Modellebene und stellt einen einheitlichen Katalog für verschiedene lokale Modellfamilien bereit. Diese Abstraktion ermöglicht es Entwicklern, Modelle auszuwählen, ohne die Parameteranzahl oder die {Hardware}-Passform manuell zu verfolgen.
Das Engine-Primitiv dient als Inferenzlaufzeit und bietet eine gemeinsame Schnittstelle für Backends wie Ollama, vLLM, SGLang, llama.cpp und Cloud-APIs. Es enthält Befehle wie „jarvis init“ zum Erkennen von {Hardware} und Empfehlen von Konfigurationen sowie „jarvis physician“ für die Wartung.
Das Agenten-Grundelement bildet die Verhaltensschicht und übersetzt Modellfunktionen in strukturierte Aktionen unter Geräteeinschränkungen. Es unterstützt zusammensetzbare Rollen, einschließlich eines Orchestrators für die Aufgabenaufteilung und eines Agenten für persönliche Arbeitsabläufe.
Das Grundelement „Instruments & Speicher“ bildet die Erdungsschicht. Dazu gehört die Unterstützung von MCP (Mannequin Context Protocol) für die Instrument-Nutzung, Google A2A für die Agent-zu-Agent-Kommunikation und semantische Indexierung für den lokalen Abruf. Es verbindet auch lokale Modelle mit Instruments und einem dauerhaften persönlichen Kontext.
Das Lernprimitiv bietet einen Verbesserungsmechanismus mit geschlossenem Regelkreis. Es nutzt lokale Interaktionsspuren, um Trainingsdaten zu generieren, das Agentenverhalten zu verfeinern und die Modellauswahl zu verbessern. Die Optimierung erfolgt über Modellgewichtungen, LM-Eingabeaufforderungen, Agentenlogik und die Inferenz-Engine.
OpenJarvis priorisiert Effizienz und behandelt neben der Aufgabenqualität auch Energie, FLOPs, Latenz und Kosten als Haupteinschränkungen. Es beinhaltet ein hardwareunabhängiges Telemetriesystem zur Profilierung der Energie auf NVIDIA-GPUs, AMD-GPUs und Apple Silicon mit Abtastintervallen von 50 ms. Der Befehl „jarvis bench“ standardisiert das Benchmarking für Latenz, Durchsatz und Energie professional Abfrage.
Zu den Entwicklerschnittstellen für OpenJarvis gehören eine Browseranwendung, eine Desktopanwendung für macOS, Home windows und Linux, ein Python SDK und eine Befehlszeilenschnittstelle (CLI). Alle Kernfunktionen funktionieren ohne Netzwerkverbindung.
Der Befehl „jarvis servo“ startet einen FastAPI-Server mit SSE-Streaming, der nach Angaben der Entwickler als Drop-In-Ersatz für OpenAI-Purchasers dienen kann. Diese Funktion soll die Migrationskosten für Entwickler senken, die Prototypen mit einer API-förmigen Schnittstelle erstellen und gleichzeitig die lokale Inferenz beibehalten.
