Was ist, wenn die Automatisierung eines Desktops nicht um Skriptklickmuster, sondern um das Betriebssystem ein intelligentes Crew von Agenten gilt? Das ist die Kernidee dahinter UFO2Microsofts neuestes Open-Supply-System, das über die aktuellen Laptop-Us-Agenten (CUAs) hinaus drückt und die Automatisierung als erstklassige OS-Abstraktion neu erfindet. Es verwandelt Ihren Desktop in ein intelligentes Bedienfeld, in dem sprachgesteuerte Aufgaben nativ, zuverlässig und mit minimaler Störung Ihres Workflows ausgeführt werden.

Herkömmliche Instruments für Desktop -Automatisierung wie RPA -Systeme haben immer mit Robustheit zu kämpfen. Eine geringfügige Veränderung in einer Benutzeroberfläche kann ein ganzes Drehbuch zerstören. CUAs versuchten, dies mit großen Sprachmodellen und Screenshot -Analysen zu beheben, blieben jedoch durch flache Systemintegration und klobige Benutzererfahrungen begrenzt. UFO2 fließt dieses Modell aus, indem Sie aus dem Betriebssystem nach oben erstellt. Es führt eine Multiagent -Architektur ein, in der a Zentralhostagent Koordinaten spezialisiert Appagenten für verschiedene Anwendungen. Jeder Agent spricht die Muttersprache der App über APIs und UI -Metadaten, nicht nur Pixel.

UFO2 verwandelt Ihren Desktop in einen Agent -Spielplatz
Ein Vergleich von (a) bestehenden CUAs und (b) Desktop Agentos UFO2 (Bild)

Eine der wichtigsten technischen Innovationen von UFO2 ist das Hybrid -Aktionsmodell. Anstatt nur wie ein Mensch auf Schaltflächen zu klicken, kann jeder Anpagent bei verfügbaren APIs echte APIs aufrufen. Dies bedeutet, dass Aufgaben wie das Exportieren einer Tabelle oder Formatierungstext von mehrstufigen GUI-Tänzen zu einem einzigen Atomfunktionsaufruf reduziert werden. Das System sp? Das Spekulative Multi-Motion-Ausführung Schnitt die Latenz dramatisch ab, ohne die Korrektheit zu riskieren.

Isolation ohne Unterbrechung

CUAs entführen normalerweise Ihren Desktop und sperren die Maus und die Tastatur während der Ausführung. UFO2 Bild-in-Bild (PIP) Der Modus löst dies mit einem virtuellen Desktop -Fenster, in dem Automatisierungsaufgaben parallel ausgeführt werden. Der Agent macht sein Ding in einer Sandbox -Umgebung, während Sie weiter in der Hauptsitzung arbeiten. Es ist nahtlos, sicher und verwendet native Home windows RDP -Loopback, um die Sitzungsintegrität aufrechtzuerhalten.

UFO2 verwandelt Ihren Desktop in einen Agent Playground_02
Ein Überblick über die Architektur von UFO2 (Bild)

UFO2 integriert Hilfsdokumentations- und Ausführungsprotokolle in ein abgerufenes Speicher und bereichert seine Eingabeaufforderungen mit prozeduralem Wissen. Im Laufe der Zeit schafft dies einen selbstverschreibenden Agenten, der bei neuen Aufgaben, ohne sich umzusetzen, besser wird. Jeder Appagent zieht sich aus Dokumentation, Patchnotizen und vorherigen Läufen, um intelligentere Entscheidungen zu treffen. Es ist ein Automatisierungssystem mit Speicher, nicht nur der Reaktionsgenerierung.

In Kopf-an-Kopf-Benchmarks gegen den Openai-Betreiber und andere Prime-Cuas übertreffen UFO2 konsequent. Unter dem Benchmark von Osworld-W erreicht UFO2 eine Erfolgsrate von 32,7% mit dem O1-Modell-mehr als die Verdoppelung von 14,3% des Bedieners. Die spekulative Planung reduziert Aktionsschritte um bis zu 50%. Hybridkontrollerkennung (Kombination von UIA -APIs und Sehvorricht) erholt sich über 25% der zuvor fehlgeschlagenen Wechselwirkungen. Einfach ausgedrückt, UFO2 ist nicht nur schlauer – es ist systemisch besser besser.

Jetzt ist alles ein Agent

Die Erweiterbarkeit wird eingebacken. UFO2 ermöglicht es, Instruments von Drittanbietern, einschließlich anderer CUAs wie dem Bediener, als Anpassungen eingewickelt zu werden. Dies bedeutet, dass Sie spezielle Copiloten oder proprietäre Automatisierungs -Backends in das UFO2 -Ökosystem integrieren können, ohne den Code umzusetzen oder neu zu schreiben. Es unterstützt auch eine Consumer-Server-Architektur für die Bereitstellung von Unternehmen, wobei die Orchestrierung zentralisiert und Benutzergeräte beleuchtet werden.

Das Papier beschreibt zukünftige Ziele, einschließlich plattformübergreifender Kompatibilität mit macOS und Linux über analoge APIs Barrierefreiheit, schnellere Reaktion über kleinere LLMs und verbesserte Argumentation durch dedizierte GUI-Interaktionsdatensätze. Aber auch in seinem aktuellen Zustand ist UFO2 a Neue Foundation für die Desktop -Automatisierung. Es handelt sich um Open-Supply, die bereits kommerzielle Systeme übertreffen, und verleiht der Interaktion zwischen Modularität, Zuverlässigkeit und Intelligenz ein neues Maß an Modularität, Zuverlässigkeit und Intelligenz.

Für jeden, der die nächste Era intelligenter Agenten baut – oder nur müde von spröden Schriften –UFO2 ist auf GitHub erhältlich zusammen mit seiner Dokumentation.


Ausgewähltes Bildnachweis

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert