Erkundung der Zukunft multimodaler KI-Agenten und der Auswirkungen der Bildschirminteraktion

Vom Autor mit GPT4o erstelltes Bild

Die jüngsten Ankündigungen von Anthropic, Microsoft und Apple verändern unsere Einstellung zu KI-Agenten. Heutzutage ist der Begriff „KI-Agent“ überbewertet – quick jede KI-bezogene Ankündigung bezieht sich auf Agenten, aber ihre Ausgereiftheit und ihr Nutzen variieren stark.

Am einen Ende des Spektrums stehen fortschrittliche Agenten, die mehrere Schleifen für die Planung, Toolausführung und Zielbewertung nutzen und so lange iterieren, bis sie eine Aufgabe abgeschlossen haben. Diese Agenten könnten sogar Erinnerungen schaffen und nutzen und aus ihren vergangenen Fehlern lernen, um zukünftige Erfolge voranzutreiben. Die Bestimmung, was einen wirksamen Wirkstoff ausmacht, ist ein sehr aktives Gebiet der KI-Forschung. Dabei geht es darum, zu verstehen, welche Eigenschaften einen erfolgreichen Agenten ausmachen (z. B. wie sollte der Agent planen, wie sollte er den Speicher nutzen, wie viele Instruments sollte er verwenden, wie sollte er den Überblick über seine Aufgabe behalten) und den besten Ansatz zur Konfiguration eines Agententeams finden .

Am anderen Ende des Spektrums finden wir KI-Agenten, die Einzelaufgaben ausführen, die wenig oder gar keine Überlegungen erfordern. Diese Agenten sind häufig stärker auf den Arbeitsablauf ausgerichtet. Beispielsweise ein Agent, der ein Dokument konsistent zusammenfasst und das Ergebnis speichert. Diese Agenten sind in der Regel einfacher zu implementieren, da die Anwendungsfälle eng definiert sind und weniger Planung oder Koordination über mehrere Instruments hinweg und weniger komplexe Entscheidungen erfordern.

Mit den neuesten Ankündigungen von Anthropic, Microsoft und Apple sind wir es Wir erleben einen Wandel von textbasierten KI-Agenten zu multimodalen Agenten. Dies eröffnet die Möglichkeit, einem Agenten schriftliche oder mündliche Anweisungen zu geben und ihm zu ermöglichen, nahtlos auf Ihrem Telefon oder Laptop zu navigieren, um Aufgaben zu erledigen. Dies birgt großes Potenzial zur Verbesserung der geräteübergreifenden Barrierefreiheit, birgt jedoch auch erhebliche Risiken. Die Ankündigung von Anthropic zur Computernutzung hebt die Risiken hervor, die damit verbunden sind, der KI uneingeschränkten Zugriff auf Ihren Bildschirm zu gewähren, und bietet Taktiken zur Risikominderung, wie die Ausführung von Claude in einer dedizierten virtuellen Maschine oder einem dedizierten Container, die Beschränkung des Internetzugriffs auf eine Zulassungsliste zulässiger Domänen, einschließlich menschlicher In-Loop-Kontrollen, usw Vermeiden Sie, dem Modell Zugriff auf smart Daten zu gewähren. Sie weisen darauf hin, dass keine an die API übermittelten Inhalte für Schulungen verwendet werden.

Claude 3.5 Sonett von Anthropic: Der KI die Möglichkeit geben, Laptop zu nutzen

  • Überblick: Das Ziel der Computernutzung besteht darin, der KI die Möglichkeit zu geben, mit einem Laptop auf die gleiche Weise zu interagieren, wie es ein Mensch tun würde. Im Idealfall wäre Claude in der Lage, Dokumente zu öffnen und zu bearbeiten, auf verschiedene Bereiche der Seite zu klicken, Seiten zu scrollen und zu lesen, Befehlszeilencode auszuführen und auszuführen und vieles mehr. Heute kann Claude den Anweisungen eines Menschen folgen, einen Cursor über den Computerbildschirm zu bewegen, auf relevante Bereiche des Bildschirms zu klicken und auf einer virtuellen Tastatur etwas zu tippen. Claude erzielte dabei 14,9 % OSWorld Benchmark, der höher ist als andere KI-Modelle auf demselben Benchmark, aber immer noch deutlich hinter Menschen zurück (Menschen erreichen normalerweise 70–75 %).
  • Wie es funktioniert: Claude schaut sich die vom Benutzer übermittelten Screenshots an und zählt die Pixel, um festzustellen, wohin der Cursor bewegt werden muss, um die Aufgabe abzuschließen. Die Forscher stellen fest, dass Claude aus Sicherheitsgründen während des Trainings kein Internetzugang gewährt wurde, dass Claude jedoch in der Lage conflict, von Trainingsaufgaben wie der Verwendung eines Taschenrechners und eines Texteditors auf komplexere Aufgaben zu verallgemeinern. Es wurden sogar Aufgaben wiederholt, wenn sie fehlschlugen. Die Computernutzung umfasst drei von Anthropic definierte Werkzeuge: Laptop, Texteditor und Bash. Das Computertool dient zur Bildschirmnavigation, der Texteditor zum Anzeigen, Erstellen und Bearbeiten von Textdateien und Bash zum Ausführen von Bash-Shell-Befehlen.
  • Herausforderungen: Trotz der vielversprechenden Leistung liegt bei Claudes Fähigkeiten im Umgang mit Computern noch ein weiter Weg vor uns. Heutzutage hat es Probleme mit dem Scrollen, der allgemeinen Zuverlässigkeit und ist anfällig für sofortige Injektionen.
  • Verwendung: Öffentliche Beta verfügbar über die Anthropic API. Die Computernutzung kann mit der regelmäßigen Werkzeugnutzung kombiniert werden.

OmniParser und GPT-4V von Microsoft: Bildschirme für KI verständlich und umsetzbar machen

  • Überblick: OmniParser wurde entwickelt, um Screenshots von Benutzeroberflächen zu analysieren und sie in strukturierte Ausgaben umzuwandeln. Diese Ausgaben können an ein Modell wie GPT-4V übergeben werden, um Aktionen basierend auf den erkannten Bildschirmelementen zu generieren. OmniParser + GPT-4V wurden in verschiedenen Benchmarks bewertet, darunter Home windows Agent Area Dadurch wird der OSWorld-Benchmark angepasst, um Home windows-spezifische Aufgaben zu erstellen. Diese Aufgaben dienen dazu, die Fähigkeit eines Agenten zu bewerten, zu planen, den Bildschirm zu verstehen und Instruments zu verwenden. OmniParser und GPT-4V erreichten ca. 20 %.
  • Wie es funktioniert: OmniParser kombiniert mehrere fein abgestimmte Modelle, um Bildschirme zu verstehen. Es verwendet ein fein abgestimmtes interaktives Image-/Regionserkennungsmodell (YOLOv8), ein fein abgestimmtes Symbolbeschreibungsmodell (BLIP-2 oder Florenz2) und ein OCR-Modul. Diese Modelle werden verwendet, um Symbole und Textual content zu erkennen und Beschreibungen zu generieren, bevor diese Ausgabe an GPT-4V gesendet wird, das entscheidet, wie die Ausgabe für die Interaktion mit dem Bildschirm verwendet wird.
  • Herausforderungen: Wenn OmniParser heute wiederholte Symbole oder Texte erkennt und diese an GPT-4V übergibt, klickt GPT-4V normalerweise nicht auf das richtige Image. Darüber hinaus unterliegt OmniParser der OCR-Ausgabe. Wenn der Begrenzungsrahmen deaktiviert ist, klickt das gesamte System möglicherweise nicht auf den entsprechenden Bereich für anklickbare Hyperlinks. Es gibt auch Schwierigkeiten beim Verständnis bestimmter Symbole, da manchmal dasselbe Image zur Beschreibung unterschiedlicher Konzepte verwendet wird (z. B. drei Punkte zum Laden im Vergleich zu einem Menüpunkt).
  • Verwendung: OmniParser ist verfügbar unter GitHub & Umarmendes Gesicht Sie müssen die Anforderungen installieren und das Modell von HuggingFace laden. Als Nächstes können Sie versuchen, die Demo-Notebooks auszuführen, um zu sehen, wie OmniParser Bilder aufschlüsselt.

Apples Ferret-UI: Multimodale Intelligenz in cell Benutzeroberflächen bringen

  • Überblick: Apples Ferret (Refer and Floor Something Wherever at Any Granularity) gibt es seit 2023, aber kürzlich hat Apple Ferret-UI veröffentlicht, ein MLLM (Multimodal Giant Language Mannequin), das „Referring-, Grounding- und Reasoning-Aufgaben“ auf mobilen UI-Bildschirmen ausführen kann . Zu den verweisenden Aufgaben gehören Aktionen wie die Widget-Klassifizierung und die Symbolerkennung. Zu den Erdungsaufgaben gehören Aufgaben wie das Suchen von Symbolen oder das Suchen von Textual content. Ferret-UI kann Benutzeroberflächen verstehen und Anweisungen zur Interaktion mit der Benutzeroberfläche befolgen.
  • Wie es funktioniert: Ferret-UI basiert auf Ferret und wurde durch Coaching mit „jeder Auflösung“ für die Arbeit mit feinkörnigeren Bildern angepasst, damit cell Benutzeroberflächen besser verstanden werden können. Jedes Bild wird in zwei Teilbilder aufgeteilt, die ihre eigenen Merkmale generieren. Das LLM verwendet das vollständige Bild, beide Teilbilder, regionale Merkmale und Texteinbettungen, um eine Antwort zu generieren.
  • Herausforderungen: Einige der im Ferret-UI-Artikel zitierten Ergebnisse zeigen Fälle, in denen Ferret nahegelegenen Textual content anstelle des Zieltexts vorhersagt, gültige Wörter vorhersagt, wenn ein Bildschirm mit falsch geschriebenen Wörtern angezeigt wird, und manchmal auch UI-Attribute falsch klassifiziert.
  • Verwendung: Apple hat die Daten und den Code auf verfügbar gemacht GitHub Nur für Forschungszwecke. Apple hat zwei Ferret-UI-Kontrollpunkte veröffentlicht, einen auf Gemma-2b und einen auf Llama-3–8B. Die Ferret-UI-Modelle unterliegen den Lizenzen für Gemma und Llama, während der Datensatz eine nichtkommerzielle Nutzung zulässt.

Zusammenfassung: Drei Ansätze zur KI-gesteuerten Bildschirmnavigation

Zusammenfassend zeigt jedes dieser Systeme einen anderen Ansatz zum Aufbau multimodaler Agenten, die in unserem Namen mit Computern oder mobilen Geräten interagieren können.

Anthropics Claude 3.5 Sonnet konzentriert sich auf die allgemeine Computerinteraktion, bei der Claude Pixel zählt, um angemessen auf dem Bildschirm zu navigieren. Der OmniParser von Microsoft befasst sich mit spezifischen Herausforderungen bei der Aufteilung von Benutzeroberflächen in strukturierte Ausgaben, die dann an Modelle wie GPT-4V gesendet werden, um Aktionen zu bestimmen. Apples Ferret-UI ist auf das Verständnis der mobilen Benutzeroberfläche zugeschnitten und ermöglicht die Identifizierung von Symbolen, Textual content und Widgets sowie die Ausführung unbefristeter Anweisungen im Zusammenhang mit der Benutzeroberfläche.

In jedem System ist die Der Workflow besteht normalerweise aus zwei Schlüsselphasen: einer zum Parsen der visuellen Informationen und einer zum Überlegen, wie mit ihnen interagiert werden soll. Die genaue Analyse von Bildschirmen ist entscheidend für die richtige Planung der Interaktion mit dem Bildschirm und für die zuverlässige Ausführung von Aufgaben durch das System.

Meiner Meinung nach ist der spannendste Aspekt dieser Entwicklungen das Wie Multimodale Fähigkeiten und Denkrahmen beginnen sich anzunähern. Während diese Instruments bieten vielversprechende FähigkeitenDennoch hinken sie der menschlichen Leistungsfähigkeit deutlich hinterher. Es gibt auch serhebliche Bedenken hinsichtlich der KI-Sicherheit die bei der Implementierung eines Agentensystems mit Bildschirmzugriff berücksichtigt werden müssen.

Einer der größten Vorteile von Agentensystemen ist ihr Potenzial, die kognitiven Einschränkungen einzelner Modelle zu überwinden, indem sie Aufgaben in spezialisierte Komponenten zerlegen. Diese Systeme können auf viele Arten aufgebaut werden. In manchen Fällen erscheint es dem Benutzer so ein einzelner Agent kann, hinter den Kulissen, bestehen aus ein Staff von Unteragenten – jede Verwaltung unterschiedlicher Verantwortlichkeiten wie Planung, Bildschirminteraktion oder Speicherverwaltung. Beispielsweise könnte sich ein Reasoning-Agent mit einem anderen Agenten koordinieren, der auf das Parsen von Bildschirmdaten spezialisiert ist, während ein separater Agent Erinnerungen kuratiert, um die zukünftige Leistung zu verbessern.

Alternativ könnten diese Fähigkeiten sein kombiniert in einem robusten Agenten. In diesem Setup könnte der Agent über mehrere interne Planungsmodule verfügen – eines konzentriert sich auf die Planung der Bildschirminteraktionen und ein anderes konzentriert sich auf die Verwaltung der Gesamtaufgabe. Der beste Ansatz zur Strukturierung von Agenten bleibt abzuwarten, aber das Ziel bleibt dasselbe: Agenten zu schaffen, die zuverlässig über mehrere Modalitäten hinweg funktionieren und sich nahtlos an die Bedürfnisse des Benutzers anpassen.

Referenzen:

Sind Sie an einer weiteren Diskussion oder Zusammenarbeit interessiert? Kontaktieren Sie uns LinkedIn!

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert