Der Omniparser V2 von Microsoft ist ein hochmoderner AI-Display screen-Parser, der strukturierte Daten aus GUIs durch Analyse von Screenshots extrahiert und AI-Agenten ermöglicht, nahtlos mit Elementen auf dem Bildschirm zu interagieren. Dieses Instrument ist perfekt zum Aufbau autonomer GUI-Agenten und ist ein Spielveränderer für die Automatisierung und die Workflow-Optimierung. In diesem Leitfaden behandeln wir die Set up von Omniparser V2 lokal, seine Betriebsmechanik und ihre Integration in Omnitool sowie die realen Anwendungen. Seien Sie gespannt auf unseren nächsten Artikel Qwen 2.5– GUI -Automatisierung auf die nächste Ebene.

Wie funktioniert Omniparser V2?

Omniparser V2 verwendet einen zweistufigen Prozess: Erkennung und Bildunterschrift. Erstens hängt sein Erkennungsmodul auf eine Feinabstimmung ab Yolov8 Modell zum Erkennen interaktiver Elemente wie Schaltflächen, Symbolen und Menüs in Screenshots. Als nächstes verwendet das Bildunterschriftenmodul das Florence-2-Stiftungsmodell, um beschreibende Beschriftungen für diese Elemente zu erstellen und ihre Rollen innerhalb der Schnittstelle zu erklären. Zusammen helfen diese Module großen Sprachmodellen (LLMs), GUIS vollständig zu verstehen und präzise Interaktionen und Aufgabenausführung zu ermöglichen.

Im Vergleich zu seinem Vorgänger liefert Omniparser V2 wichtige Upgrades. Es senkt die Latenz um 60% und verbessert die Genauigkeit, insbesondere zum Erkennen kleinerer Elemente. In Checks wie Screenspot Professional erreichte Omniparser V2, gepaart mit GPT-4O, eine durchschnittliche Genauigkeit von 39,6%, was einem großen Sprung gegenüber dem Grundwert von 0,8percententspricht. Diese Gewinne stammen aus dem Coaching auf einem größeren, detaillierteren Datensatz, der umfangreiche Informationen über Symbole und ihre Funktionen enthält.

Voraussetzungen für die Set up von Omniparser V2

Stellen Sie vor Beginn des Installationsprozesses sicher, dass Ihr System die folgenden Anforderungen erfüllt:

  • Git: Installieren Sie Git, um das Omniparser -Repository zu klonen:
sudo apt set up git-all
  • Miniconda: Installieren Sie Miniconda für die Verwaltung von Python -Umgebungen. Anweisungen finden Sie in: Miniconda Set up Information.
  • Nvidia Cuda Toolkit und CUDA -Compiler: Für die GPU -Beschleunigung erforderlich. Laden Sie die entsprechende Datei für Ihr Betriebssystem herunter: CUDA -Downloads. Alternativ können Sie alles installieren, indem Sie WSL in Home windows installieren, indem Sie:
wsl --install

Installationsschritte

Nachdem Sie alle Dinge fertig haben, schauen wir uns die Set up von Omniparser V2 an:

Schritt 1: Klonen Sie das Omniparser -Repository

Öffnen Sie Ihr Terminal und klonen Sie das Omniparser -Repository von GitHub:

git clone https://github.com/microsoft/OmniParser
cd OmniParser

Schritt 2: Richten Sie die Conda -Umgebung ein

Erstellen Sie eine Conda -Umgebung mit dem Namen „Omni“ mit Python 3.12:

conda create -n "omni" python==3.12

Schritt 3: Aktivieren Sie die Umgebung

conda activate omni

Schritt 4: Installieren Sie die erforderlichen Abhängigkeiten mit PIP

pip set up -r necessities.txt

Schritt 5: Modellgewichte herunterladen

Laden Sie die V2 -Gewichte herunter und legen Sie sie in den Gewichtsordner. Stellen Sie sicher, dass der Ordner zum Bildunterschrift Gewicht genannt wird icon_caption_florence. Wenn nicht heruntergeladen, verwenden Sie:

rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence

huggingface-cli obtain microsoft/OmniParser-v2.0 --local-dir weights

mv weights/icon_caption weights/icon_caption_florence

Schritt 6: Demos laufen

Um die Demo von Gradio auszuführen, führen Sie aus:

python gradio_demo.py
Laufen Demos - Omniparser V2

Ausgabe

Omnitool ist eine virtuelle Home windows -Maschine, die Omniparser mit einem integriert Llm (wie zum Beispiel Gpt-4o), um vollständig autonome agentenaktionen zu ermöglichen.

Vorteile der Verwendung von Omnitool:

  • Autonome agentenaktionen: Ermöglicht AI -Agenten, Aufgaben ohne menschliche Eingriffe auszuführen.
  • Reale Automatisierung: Erleichtert die Automatisierung von sich wiederholenden Aufgaben durch GUI -Interaktion.
  • Barrierefreiheitslösungen: Bietet strukturierte Daten für assistive Technologien.
  • Benutzeroberflächenanalyse: Analysiert und verbessert die Benutzeroberflächen basierend auf extrahierten strukturierten Daten.

Anwendungen von Omniparser V2

Die Fähigkeiten von Omniparser V2 eröffnen zahlreiche Anwendungen:

  • UI -Automatisierung: Automatisierung von Interaktionen mit grafischen Benutzeroberflächen.
  • Barrierefreiheitslösungen: Bereitstellung von Lösungen für Benutzer mit Behinderungen.
  • Benutzeroberflächenanalyse: Analyse und Verbesserung des Designs der Benutzeroberfläche basierend auf extrahierten strukturierten Daten.

Abschluss

Omniparser V2 ist ein großer Sprung nach vorne in der visuellen Analyse von KI, wobei der Textual content und die Verarbeitung visueller Daten nahtlos verbindet. Mit seiner Geschwindigkeit, Präzision und nahtlosen Integration ist es ein Muss für Entwickler und Unternehmen, die mit KI-betriebenen Lösungen aufbauen möchten. In unserem nächsten Artikel werden wir mit QWEN 2.5 in den Ausführen von Omniparser V2 eingehen, um noch mehr Potenzial für reale Anwendungen auszuschöpfen. Bleiben Sie dran!

Hallo, ich bin Abhishek, ein Dateningenieur bei Analytics Vidhya. Ich bin leidenschaftlich für Knowledge Engineering und Videospiele, die ich Erfahrung in Apache Hadoop, AWS und SQL habe, und ich erforsche immer wieder ihre Feinheiten und optimiere Datenworkflows

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert