(VLMs) sind leistungsstarke Modelle für maschinelles Lernen, die sowohl visuelle als auch textuelle Informationen verarbeiten können. Mit der jüngsten Veröffentlichung von QWEN 3 VL möchte ich einen tiefen Eintauchen in die Verarbeitung dieser leistungsstarken VLMs machen, um Dokumente zu verarbeiten.
Inhaltsverzeichnis
Warum Sie VLMs verwenden müssen
Um hervorzuheben, warum einige Aufgaben VLMs erfordern, möchte ich mit einer Beispielaufgabe beginnen, bei der wir Textual content und die visuellen Informationen des Textes interpretieren müssen.
Stellen Sie sich vor, Sie sehen sich das Bild unten an. Die Kontrollkästchen stellen dar, ob ein Dokument in einen Bericht enthalten sein soll oder nicht, und jetzt müssen Sie feststellen, welche Dokumente einbezogen werden sollen.

Für einen Menschen ist dies eine einfache Aufgabe; Offensichtlich sollten die Dokumente 1 und 3 enthalten sein, während Dokument 2 ausgeschlossen werden sollte. Wenn Sie jedoch versucht haben, dieses Downside durch ein reines LLM zu lösen, würden Sie auf Probleme stoßen.
Um ein reines LLM auszuführen, müssen Sie zunächst das Bild OCR benötigen, wo die OCR -Ausgabe ungefähr wie unten aussehen würde, wenn Sie verwenden Googles TesseractZum Beispiel, der die Textzeile nach Zeile extrahiert.
Doc 1 Doc 2 Doc 3 X X
Wie Sie vielleicht bereits entdeckt haben, wird die LLM Probleme haben, welche Dokumente enthalten sind, da es unmöglich ist, zu wissen, zu welchen Dokumenten das XS gehört. Dies ist nur eines von vielen Szenarien, in denen VLMs äußerst effizient darin sind, ein Downside zu lösen.
Der Hauptpunkt hier ist, dass das Wissen, welche Dokumente ein Kontrollkästchen X haben, sowohl visuelle als auch Textinformationen erfordert. Sie müssen den Textual content und die visuelle Place des Textes im Bild kennen. Ich fasse dies im folgenden Zitat zusammen:
VLMs sind erforderlich, wenn die Bedeutung des Textes von seiner visuellen Place abhängt
Anwendungsbereiche
Es gibt eine Vielzahl von Bereichen, auf die Sie VLMs anwenden können. In diesem Abschnitt werde ich einige verschiedene Bereiche abdecken, in denen sich VLMs als nützlich erwiesen haben und in denen ich auch VLMs erfolgreich angewendet habe.
Agierische Anwendungsfälle
Die Agenten sind heutzutage im Wind und VLMs spielen auch eine Rolle. Ich werde zwei Hauptbereiche hervorheben, in denen VLMs in einem Agentenkontext verwendet werden können, obwohl es natürlich viele andere solche Bereiche gibt.
Computergebrauch
Der Computergebrauch ist ein interessanter Anwendungsfall für VLMs. Mit dem Computergebrauch beziehe ich mich auf einen VLM, der einen Body von Ihrem Pc aus betrachtet und entscheide, welche Aktion als nächstes ergriffen werden soll. Ein Beispiel dafür ist Openai -Betreiber. Dies kann beispielsweise einen Bild dieses Artikels betrachten, den Sie gerade lesen, und nach unten zu scrollen, um mehr aus diesem Artikel zu lesen.
VLMs sind nützlich für den Computergebrauch, da LLMs nicht ausreichen, um zu entscheiden, welche Aktionen ergriffen werden müssen. Wenn Sie auf einem Pc arbeiten, müssen Sie häufig die visuelle Place von Schaltflächen und Informationen interpretieren, die, wie ich am Anfang beschrieben habe, einer der Hauptnutzungsbereiche für VLMs ist.
Debuggen
Der Debugging -Code ist auch ein tremendous nützlicher Agentenanwendungsbereich für VLMs. Stellen Sie sich vor, Sie entwickeln eine Webanwendung und entdecken Sie einen Fehler.
Eine Möglichkeit besteht darin, sich bei der Konsole anzumelden, die Protokolle zu kopieren, Cursor zu beschreiben, was Sie getan haben, und den Cursor fordern, um ihn zu beheben. Dies ist natürlich zeitaufwändig, da der Benutzer viele manuelle Schritte erfordert.
Eine andere Possibility besteht daher darin, VLMs zu verwenden, um das Downside besser zu lösen. Im Idealfall beschreiben Sie, wie Sie das Downside reproduzieren. Ein VLM kann in Ihre Anwendung eingehen, den Fluss neu erstellen, das Downside überprüfen und so debuggen, was schief geht. Für Bereiche wie diese werden Anwendungen erstellt, obwohl die meisten nicht weit in der Entwicklung von dem gekommen sind, was ich gesehen habe.
Frage Beantwortung
Die Verwendung von VLMs für die Beantwortung der visuellen Frage ist einer der klassischen Ansätze für die Verwendung von VLMs. Die Beantwortung von Frage ist der Anwendungsfall, den ich früher in diesem Artikel beschrieben habe, um herauszufinden, welches Kontrollkästchen zu welchen Dokumenten gehört. Sie füttern die VLM mit einer Benutzerfrage und einem Bild (oder mehreren Bildern), damit die VLM verarbeitet werden kann. Das VLM liefert dann eine Antwort im Textformat. Sie können sehen, wie dieser Prozess in der Abbildung unten funktioniert.

Sie sollten jedoch die Kompromisse bei der Verwendung von VLMS vs LLMs abwägen. Wenn eine Aufgabe Textual content- und visuelle Informationen erfordert, müssen Sie natürlich VLMs verwenden, um ein ordnungsgemäßes Ergebnis zu erzielen. VLMs sind jedoch in der Regel auch viel teurer zu betreiben, da sie mehr Token verarbeiten müssen. Dies liegt daran, dass Bilder viele Informationen enthalten, was somit zu vielen Eingabestellen führt.
Wenn das VLM Textual content verarbeiten soll, benötigen Sie außerdem hochauflösende Bilder, sodass die VLM die Pixel interpretieren kann, die Buchstaben ausmachen. Mit niedrigeren Auflösungen bemüht sich das VLM, den Textual content in den Bildern zu lesen, und Sie erhalten minderwertige Ergebnisse.
Einstufung

Ein weiterer interessanter Anwendungsbereich für VLMs ist die Klassifizierung. Bei der Klassifizierung beziehe ich mich auf die State of affairs, in der Sie einen festgelegten Kategoriensatz haben und feststellen müssen, zu welcher Kategorie ein Bild gehört.
Sie können VLMs zur Klassifizierung verwenden, wobei der gleiche Ansatz wie die Verwendung von LLMs verwendet wird. Sie erstellen eine strukturierte Eingabeaufforderung mit allen relevanten Informationen, einschließlich der möglichen Ausgabekategorien. Darüber hinaus decken Sie vorzugsweise die verschiedenen Randfälle ab, beispielsweise in Szenarien, in denen beide Kategorien sehr wahrscheinlich sind, und die VLM muss sich zwischen den beiden Kategorien entscheiden.
Sie können beispielsweise eine Eingabeaufforderung haben wie:
def get_prompt():
return """
## Basic directions
It's essential to decide which class a given doc belongs to.
The obtainable classes are "authorized", "technical", "monetary".
## Edge case dealing with
- Within the state of affairs the place you've got a authorized doc overlaying monetary info, the doc belongs to the monetary class
- ...
## Return format
Reply solely with the corresponding class, and no different textual content
"""
Sie können VLMs auch effektiv zur Informationsextraktion verwenden, und es gibt viele Aufgaben zur Informationsextraktion, die visuelle Informationen erfordern. Sie erstellen eine ähnliche Eingabeaufforderung wie die oben erstellte Klassifizierungsaufforderung und fordern normalerweise die VLM auf, in einem strukturierten Format wie einem JSON -Objekt zu reagieren.
Bei der Durchführung der Informationsextraktion müssen Sie überlegen, wie viele Datenpunkte Sie extrahieren möchten. Wenn Sie beispielsweise 20 verschiedene Datenpunkte aus einem Dokument extrahieren müssen, möchten Sie wahrscheinlich nicht alle gleichzeitig extrahieren. Dies liegt daran, dass das Modell wahrscheinlich Schwierigkeiten hat, so viele Informationen auf einmal genau zu extrahieren.
Stattdessen sollten Sie in Betracht ziehen, die Aufgabe beispielsweise mit zwei verschiedenen Anforderungen zu extrahieren und die Aufgabe für das Modell zu vereinfachen. Auf der anderen Seite des Arguments begegnen Sie manchmal, dass einige Datenpunkte miteinander zusammenhängen, was bedeutet, dass sie in derselben Anfrage extrahiert werden sollten. Darüber hinaus erhöht das Senden mehrerer Anfragen die Inferenzkosten.

Wenn VLMs problematisch sind
VLMs sind erstaunliche Modelle, die Aufgaben ausführen können, die vor wenigen Jahren unvorstellbar waren, mit KI zu lösen. Sie haben jedoch auch ihre Grenzen, die ich in diesem Abschnitt abdecken werde.
Kosten für den Betrieb von VLMs
Die erste Einschränkung sind die Kosten für den Betrieb von VLMs, die ich auch früher in diesem Artikel kurz erörtert habe. VLMs verarbeiten Bilder, die aus vielen Pixeln bestehen. Diese Pixel repräsentieren viele Informationen, die in Token codiert sind, die das VLM verarbeiten kann. Das Downside ist, dass Sie, da Bilder so viele Informationen enthalten, viele Token professional Bild erstellen müssen, was die Kosten für den Ausführen von VLMs wieder erhöht.
Darüber hinaus benötigen Sie häufig hochauflösende Bilder, da das VLM in den Bildern Textual content lesen muss, was zu noch mehr Token führt. VLMs sind somit teuer zu laufen, beide über eine API, aber in Berechnung, wenn Sie sich entscheiden, die VLM selbst zu veranstalten.
Lange Dokumente können nicht verarbeitet werden
Die in den Bildern enthaltene Menge an Token begrenzt auch die Anzahl der Seiten, die ein VLM sofort verarbeiten kann. VLMs sind wie herkömmliche LLMs durch ihre Kontextfenster begrenzt. Dies ist ein Downside, wenn Sie lange Dokumente mit Hunderten von Seiten verarbeiten möchten. Natürlich können Sie das Dokument in Stücke aufteilen, aber Sie könnten auf Probleme stoßen, bei denen der VLM keinen Zugriff auf alle Inhalte des Dokuments auf einmal hat.
Wenn Sie beispielsweise ein 100-seitiges Dokument haben, können Sie zuerst die Seiten 1-50 verarbeiten und dann die Seiten 51-100 verarbeiten. Wenn einige Informationen auf Seite 53 möglicherweise den Kontext von Seite 1 (z. B. dem Titel oder Datum des Dokuments) benötigen, führt dies zu Problemen.
Um zu lernen, wie man mit diesem Downside umgeht, habe ich das Kochbuch von Qwen 3 gelesen, auf dem sie eine Seite haben So verwenden Sie Qwen 3 für ultralong -Dokumente. Ich werde dies sicher testen und diskutieren, wie intestine es in einem zukünftigen Artikel funktioniert.
Abschluss
In diesem Artikel habe ich Imaginative and prescient Language -Modelle diskutiert und wie Sie sie auf verschiedene Problembereiche anwenden können. Ich habe zunächst beschrieben, wie VLMs in Agentensysteme integriert werden, beispielsweise als Pc -Use -Agent oder um Webanwendungen zu debuggen. Durch Fortsetzung behandelte ich Bereiche wie die Beantwortung von Fragen, Klassifizierung und Informationsextraktion. Zuletzt habe ich auch einige Einschränkungen von VLMs behandelt und die Berechnungskosten für den Betrieb von VLMs und die Artwork und Weise, wie sie mit langen Dokumenten zu kämpfen haben, diskutierte.
👉 Finden Sie mich in Socials:
✍️ Medium
