Künstliche Intelligenz lernt endlich, wie man in Ihrem Telefonbildschirm wie ein Mensch navigiert – außer schneller, intelligenter und mit schockierend wenig Übung. Ein neues Forschung Projekt von Vivo AI Lab und MMLAB an der chinesischen Universität von Hongkong führt ein Modell namens vor UI-R1was überdenken, wie KI -Agenten geschult werden, um grafische Benutzeroberflächen (GUIs) zu verstehen und mit ihnen zu interagieren. Und hier ist die Wendung: Es beruht nicht auf large Datensätze oder Tausende von GPU -Stunden.

Stattdessen macht UI-R1 etwas Erfrischendes Schlaues. Es lernt durch Verstärkungslernen (RL)-Nicht beaufsichtigte Feinabstimmung (SFT), die Standardmethode, die manuell beschriftete Daten und teure Trainingszyklen erfordert. Das bedeutet, dass es keine Zehntausenden von Beispielen für Schaltflächen, Scrollbalken oder Textfelder füttern muss. Nur eine sorgfältig ausgewählte Cost von 136 mobilen Aufgaben reichte aus, um ein Modell zu erstellen, das besser abschneidet als viele größere, stark geschulte Modelle bei realen Bildschirmaufgaben.

Lassen Sie uns auspacken, warum dies wichtig ist und wie es funktioniert.

Was macht UI-R1 eigentlich?

Stellen Sie sich das vor: Sie sehen sich einen Screenshot eines Telefonbildschirms an und jemand sagt Ihnen, dass Sie auf die Schaltfläche „zurück tippen“. Sie schauen sich das Structure an, finden heraus, wo sich die Rückbutton befindet, und tippen Sie darauf. Scheint für einen Menschen leicht.

Stellen Sie sich nun vor, eine KI zu trainieren, um das zu tun. Seit Jahren bedeutet dies, riesige multimodale Modelle (Modelle, die Bilder und Textual content gemeinsam verstehen können), um Befehle wie „Zurück zu tippen“ mit dem richtigen Punkt auf dem Bildschirm zu verknüpfen. Das ist es, was GUI-Agenten wie Cogagent, Aria-Gui und Os-Atlas tun-sie lernen aus riesigen Datensätzen mit beschrifteten Beispielen für Aktionen und Elemente.

Dieser Prozess ist jedoch langsam, teuer und verallgemeinert nicht intestine. Wenn Sie die KI von einem Telefonbildschirm auf eine Desktop -Oberfläche oder einen Webbrowser verschieben, ist die Leistung häufig tanks. Es ist so, als würde man einen Hund trainieren, um einen Ball zu holen, aber nur in einem Raum Ihres Hauses – draußen, und der Hund vergisst, was zu tun ist.

UI-R1 ändert dies. Anstatt zu versuchen, Tausende von Interface -Layouts zu „merken“, erfährt es, wie man mithilfe von Verstärkungslernen und a argumentiert cleveres regelbasiertes Belohnungssystem.

Ein klügeres Belohnungssystem, kein größeres Modell

Das Modell hinter UI-R1 heißt QWEN2.5-VL-3B– Ein 3 -Milliarden -Parameter -multimodales Modell, viel kleiner als die 7B- und 18B -Riesen im Spiel. Aber UI-R1-Feinstunte mit RL mit einem einzigartigen Belohnungssystem, für das kein menschliches Suggestions erforderlich ist.

Diese Belohnungsfunktion beurteilt das Modell zu drei Dingen:

  1. Hat es den richtigen Aktionstyp gewählt? (Klicken Sie klicken, scrollen, zurückgehen, App öffnen, Textual content eingeben)
  2. Hat es den richtigen Ort ausgewählt, um zu klicken? (Koordinaten müssen in die richtige Field fallen)
  3. Hat es seine Argumentation klar erklärt und eine gültige endgültige Antwort gegeben? (Unter Verwendung eines strukturierten Codecs)

Diese strukturierte Rückkopplungsschleife hilft dem Modell, im Laufe der Zeit bessere Vorhersagen zu machen. Stellen Sie sich es wie ein Spiel vor: Jedes Mal, wenn die KI der richtigen Antwort näher kommt, werden Punkte basierend auf diesen Regeln bewertet und nach und nach herausgefunden, wie man häufiger gewinnt.

Wichtig ist, dass es nicht nur lernt, zu erraten – es lernt zu erklären, warum es der Meinung ist, dass eine bestimmte Style der richtige Tippen ist. Dies ist der Schlüssel zum Aufbau von Agenten, denen Sie vertrauen können, um Software program, Apps und Geräte zu betreiben.


AI Masters Sprache Aber flunks Lego 101


Kleine Daten, große Gewinne

Hier werden die Dinge wild. UI-R1 wurde gerade geschult 136 Beispiele– und es übertraf immer noch viele überwachte Modelle, die mit Tausenden trainiert wurden.

Auf Benchmarks wie Bildschirmspot Und Screenspot-proin welchem ​​Check, wie intestine ein Modell UI-Elemente über Plattformen hinweg identifiziert werden kann (Cell, Desktop und Net), lieferte UI-R1 die Erdungsgenauigkeiten bis zu 78,6%Schlagenmodelle wie Seeclick (trainiert auf 1 Million Beispiele!) Und sogar mit der Leistung größerer 7B -Modelle entspricht.

Es wurde auch einen weiteren Benchmark namens namens Androidcontrolwo es musste, um sowohl den richtigen Aktionstyp als auch wo es anwenden soll. UI-R1 wurde mit einem eingetaktet 88,5% Durchschnittliche GenauigkeitOutperformance -Modelle, die auf 76.000 Beispielen trainiert wurden – ein absurdes Effizienzniveau für nur 136 Trainingsaufgaben.

Das ist so, als würde man jemandem Schach beibringen, indem er ihnen nur 10 Spiele zeigt – und ihnen zuschauen, wie sie den Membership -Champion schlagen.

Warum funktioniert das so intestine?

Ein paar Dinge setzen UI-R1 auseinander:

  • Regelbasierte Belohnungen: Keine Notwendigkeit für beschriftete Daten oder menschliche Rezensenten. Das Modell bewertet sich selbst basierend auf einfachen, strukturierten Regeln.
  • Verstärkung über die Wiederholung: Anstatt Antworten auswendig zu lernen (wie im betrachteten Coaching), lernt UI-R1 Strategien, die verallgemeinert werden.
  • Sorgfältig ausgewählte Daten: Das Staff hat nicht nur Trainingsbeispiele geworfen. Sie wählten Aufgaben aus, die hart, vielfältig und qualitativ hoch waren. Kein Füllstoff.

Und vielleicht am wichtigsten ist, dass das Modell nicht nur blind erraten. Dank seines Codecs „Argumenting-Token“ und des strukturierten Ausgangs ( und -Tags) lernt UI-R1, jede Aufgabe durchzudenken. Das ist es, was es so intestine auf neue Umgebungen verallgemeinern lässt – sogar mit unbekannten Layouts.

Was bedeutet das für KI -Schnittstellen?

Dies könnte der Beginn einer neuen Welle von Generalisten -GUI -Agenten sein. Anstatt maßgeschneiderte Modelle für jede App, Plattform oder Aufgabe zu trainieren, können wir möglicherweise kompakte, anpassbare Modelle wie UI-R1 erstellen, die über einen beliebigen Bildschirm, jedes Gerät und jede Anweisung argumentieren können.

  • Für EntwicklerEs bedeutet niedrigere Kosten, weniger Daten und eine schnellere Iteration.
  • Für BenutzerEs könnte intelligenteren virtuellen Assistenten bedeuten, die tatsächlich verstehen, was Sie auf Ihrem Bildschirm tun möchten.
  • Für ForscherEs ist ein Beweis dafür, dass Verstärkungslernen mit einfachen regelbasierten Belohnungen nicht nur für Spiele und mathematische Probleme gilt-es ist eine echte Various zu SFT für Schnittstellenaufgaben.

Es ist noch früh

Während die Ergebnisse von UI-R1 beeindruckend sind, gibt es noch mehr zu tun. Beispielsweise erfordert es immer noch saubere Eingangsformate und sorgfältig geschriebene Eingabeaufforderungen. Es wird auch davon ausgegangen, dass die Geräte -Screenshots und -anweisungen vernünftigerweise ausgerichtet sind – eine sichere Annahme in einer Benchmark -Umgebung, aber in der chaotischen realen Welt schwieriger.

Trotzdem ist es ein großer Schritt nach vorne.

Und vielleicht am aufregendsten, zeigt es das Schlauertere Coaching schlägt größere Modelle– Zumindest wenn es darum geht, zu verstehen, was sich auf Ihrem Bildschirm befindet, und herauszufinden, wie man handelt.

In einer Welt, in der wir von zunehmend komplexerer Software program umgeben sind, ist AI Like UI-R1 möglicherweise bald das Klicken, Scrollen und Tippen in unserem Namen-mit Präzision, Vernunft und kaum ein Coaching.


Ausgewähltes Bildnachweis

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert