Microsoft veröffentlicht Fara1.5: Eine Familie von Browser-Computernutzungsagenten (4B/9B/27B), die die Computernutzung von OpenAI Operator und Gemini 2.5 auf On-line-Mind2Web übertrifft

Das AI Frontiers-Labor von Microsoft Analysis hat Fara1.5 veröffentlicht. Es handelt sich um eine Familie von Laptop-Use-Agent-Modellen (CUA) für den Browser. Die Veröffentlichung umfasst drei Größen: Fara1,5-4B, Fara1,5-9B und Fara1,5-27B. Die Modelle sind in MagenticLite integriert, der Sandbox-Browserschnittstelle von Microsoft für diese Agenten.

Laptop-Use-Brokers sind Pixel-to-Motion-Modelle, die einen echten Browser steuern. Sie lesen Screenshots und geben Maus- und Tastaturaktionen aus, um Aufgaben zu erledigen. Aktuelle Agentenprodukte wie Operator von OpenAI und Gemini 2.5 Laptop Use von Google fallen in diese Kategorie.

Fara1.5-27B erzielt auf On-line-Mind2Web einen Aufgabenerfolg von 72 %. Dieser Benchmark umfasst 300 Aufgaben auf 136 beliebten Web sites. Bei der gleichen Bewertung erreicht OpenAIs Operator 58,3 % und Gemini 2.5 Laptop Use 57,3 %. Yutoris Navigator n1 erreicht 64,7 % und Fara1.5-9B erreicht 63,4 %. Das ist quick das Doppelte des Vorgängers Fara-7B, der im gleichen Benchmark 34,1 % erreichte.

https://www.microsoft.com/en-us/analysis/articles/fara1-5-computer-use-agent/

Architektur und Agentenschleife

Die Modelle verwenden Qwen3.5-Basisprüfpunkte in ihren Varianten 4B, 9B und 27B. Sie funktionieren durch eine Beobachten-Denken-Handeln-Schleife. Bei jedem Schritt erfasst das Modell den vorherigen Gesprächsverlauf und die drei neuesten Browser-Screenshots. Es sendet dann Gedanken und eine einzelne nächste Aktion aus.

Der Aktionsbereich umfasst Commonplace-Maus- und Tastatureingaben sowie webspezifische Aktionen wie die Websuche. Außerdem werden Metaaktionen für die Kontextverwaltung verfügbar gemacht. Dazu gehören das Auswendiglernen von Fakten zur späteren Verwendung und das Stellen von Klärungsfragen an den Benutzer. Diese Metaaktionen ermöglichen es dem Agenten, über längere Zeiträume hinweg zu agieren und mit Benutzern zusammenzuarbeiten.

Trainingsmix

Beim Coaching wird eine überwachte Feinabstimmung an etwa zwei Millionen Proben durchgeführt. Die Mischung besteht zu 60 % aus Internet-Trajektorien und zu 12,8 % aus synthetischen Umgebungen. Das Ausfüllen von Formularen und Benutzerinteraktionen machen 12,5 % aus. Die Erdung trägt 8,8 % und die VQA 4,9 % bei. Kleinere Abschnitte befassen sich mit dem Ziehen der Benutzeroberfläche, der Befolgung von Anweisungen und der Sicherheit. Der Verlust wird nur auf die drei letzten Kurven in jeder Flugbahn angewendet.

FaraGen1.5: die synthetische Datenpipeline

FaraGen1.5 ist die synthetische Pipeline, die die Trainingstrajektorien erstellt hat. Es besteht aus drei modularen Komponenten: Umgebungen, Lösern und Prüfern.

Umgebungen werden in zwei Typen unterteilt. Open-Web-Aufgaben werden auf Dwell-Web sites ausgeführt, für die keine Anmeldung erforderlich ist. Gated-Area-Aufgaben erfordern authentifizierte Sitzungen oder führen irreversible Aktionen aus, wie z. B. das Senden einer E-Mail.

Für geschlossene Domänen erstellte das Staff sechs synthetische Klone namens FaraEnvs. Sie umfassen Mail, Kalender, Stream, ML, Keep und Scheduler. Jeder Klon verfügt über ein realistisches Frontend, eine voll funktionsfähige API und eine Datenbank mit personabasierten Seed-Daten.

Diese Umgebungen wurden mit GitHub Copilot CLI und iterativer menschlicher Verfeinerung erstellt. Da das Staff den gesamten Stack kontrolliert, weiß es für jede Aufgabe das richtige Ergebnis. Bei Aufgaben, die das Backend verändern, vergleicht ein LLM-Richter Datenbank-Snapshots vor und nach der Ausführung. Aufgaben, deren Standing sich nicht ändert, werden anhand vorberechneter Referenzantworten bewertet.

Der Solver-Agent verwendet GPT-5.4 von OpenAI mit benutzerdefinierten Instruments, die den Aktionsraum von Fara1.5 widerspiegeln. Der Löser erzielt bei On-line-Mind2Web mithilfe des automatisierten WebJudge eine Punktzahl von 83 %. Der vorherige Fara-7B-Löser erreichte bei derselben Bewertung 67 %. Ein Benutzersimulator wird aufgerufen, wenn der Löser eine ausgibt ask_user Anruf oder wenn eine Aufgabe erledigt ist.

Drei Prüfer prüfen, welche Trajektorien in das Coaching einfließen. Correctness verwendet LLM-generierte Rubriken für Open-Web-Aufgaben und die Beurteilung privilegierter Datenbanken für synthetische Rubriken. Effizienz bestraft überflüssige oder unnötige Maßnahmen. Die Überprüfung der Benutzerinteraktion prüft, ob der Agent an kritischen Punkten pausiert hat.

Kritische Punkte und Sicherheit

Fara1.5 ist darauf trainiert, in drei Situationen anzuhalten und den Benutzer zu fragen. Erstens: Für die Aufgabe sind persönliche Informationen erforderlich, die der Benutzer nicht angegeben hat. Zweitens: Die Aufgabenbeschreibung ist mehrdeutig oder es fehlen Particulars, die zum Handeln erforderlich sind. Drittens: Eine unumkehrbare Handlung wird ohne vorherige Genehmigung durchgeführt.

Bei der Sicherheitsschulung werden öffentliche Sicherheitsdatensätze und interne Aufgaben verwendet, die an der Accountable AI Coverage von Microsoft ausgerichtet sind. In MagenticLite werden alle Agentenaktionen protokolliert und sind überprüfbar. Der Sandbox-Browser fungiert auch als Sicherheitsgrenze zwischen dem Agenten und dem Laptop des Benutzers.

Andere Benchmarks

Auf WebVoyager erreicht Fara1.5-27B 88,6 %, der 9B erreicht 86,6 % und der 4B erreicht 80,8 %. Der 9B übertrifft auch vergleichbare Konkurrenten wie MolmoWeb 8B, GUI-Owl-1.5 8B und Holo2 8B. Alle Fara1.5-Evaluierungsläufe nutzen Browserbase, um Sitzungen zu stabilisieren und Blockierungen auf Sitzungsebene zu reduzieren. Die Zahlen werden über drei unabhängige Läufe gemittelt.

Auf WebTailBench v1.5, das auf Lengthy-Tail-Webaufgaben abzielt, erzielt Fara1.5-9B einen Prozesserfolg von 64,5 % und einen Ergebniserfolg von 32,3 %. GPT-5.4 erreicht beim gleichen Benchmark einen Prozesswert von 79,6 % und einen Ergebniswert von 57,4 %.

Wichtige Erkenntnisse

Hier sind 5 wichtige Erkenntnisse aus einer Zeile:

Microsoft Analysis hat Fara1.5 veröffentlicht, eine Familie von Browser-Agenten für die Computernutzung in den Größen 4B, 9B und 27B, die auf Qwen3.5 basieren.
Fara1.5-27B erreicht 72 % bei On-line-Mind2Web und schlägt damit OpenAI Operator (58,3 %), Gemini 2.5 CU (57,3 %) und Yutori Navigator n1 (64,7 %).
Die synthetische Datenpipeline FaraGen1.5 ermöglicht das Coaching auf geschlossenen Domänen über sechs funktionale App-Klone (FaraEnvs), die mit der GitHub Copilot CLI erstellt wurden.
Fara1.5 hält inne, um den Benutzer an kritischen Punkten zu befragen: fehlende Informationen, unklare Aufgaben oder irreversible Aktionen ohne Genehmigung.

Schauen Sie sich das an Technische Particulars. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 150.000+ ML SubReddit und Abonnieren Unser E-newsletter. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.

Möchten Sie mit uns zusammenarbeiten, um Ihr GitHub-Repo ODER Ihre Hugging Face Web page ODER Produktveröffentlichung ODER Ihr Webinar usw. zu bewerben? Vernetzen Sie sich mit uns

Microsoft veröffentlicht Fara1.5: Eine Familie von Browser-Computernutzungsagenten (4B/9B/27B), die die Computernutzung von OpenAI Operator und Gemini 2.5 auf On-line-Mind2Web übertrifft

Architektur und Agentenschleife

Trainingsmix

FaraGen1.5: die synthetische Datenpipeline

Kritische Punkte und Sicherheit

Andere Benchmarks

Wichtige Erkenntnisse

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Wie KI Unternehmen dabei hilft, dedizierte Entwicklungsteams zu finden

Kylian Mbappé zum Coverstar von EA Sports activities FC 27 ernannt

Loop Engineering für die RAG-Generierung: High-Ok einzeln iterieren

Kaggle + Googles kostenloser 5-tägiger Agentic AI-Kurs

About

Categories

Tags

Recent Post

Wie KI Unternehmen dabei hilft, dedizierte Entwicklungsteams zu finden

Kylian Mbappé zum Coverstar von EA Sports activities FC 27 ernannt

Microsoft veröffentlicht Fara1.5: Eine Familie von Browser-Computernutzungsagenten (4B/9B/27B), die die Computernutzung von OpenAI Operator und Gemini 2.5 auf On-line-Mind2Web übertrifft

Architektur und Agentenschleife

Trainingsmix

FaraGen1.5: die synthetische Datenpipeline

Kritische Punkte und Sicherheit

Andere Benchmarks

Wichtige Erkenntnisse

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt