Verwenden von Visionsprachmodellen, um Millionen von Dokumenten zu verarbeiten

(VLMs) sind leistungsstarke Modelle für maschinelles Lernen, die sowohl visuelle als auch textuelle Informationen verarbeiten können. Mit der jüngsten Veröffentlichung von QWEN 3 VL möchte ich einen tiefen Eintauchen in die Verarbeitung dieser leistungsstarken VLMs machen, um Dokumente zu verarbeiten.

Inhaltsverzeichnis

Warum Sie VLMs verwenden müssen

Um hervorzuheben, warum einige Aufgaben VLMs erfordern, möchte ich mit einer Beispielaufgabe beginnen, bei der wir Textual content und die visuellen Informationen des Textes interpretieren müssen.

Stellen Sie sich vor, Sie sehen sich das Bild unten an. Die Kontrollkästchen stellen dar, ob ein Dokument in einen Bericht enthalten sein soll oder nicht, und jetzt müssen Sie feststellen, welche Dokumente einbezogen werden sollen.

Diese Abbildung zeigt ein geeignetes Downside für VLMs. Sie haben ein Bild mit Textual content zu Dokumenten sowie Kontrollkästchen. Sie müssen nun feststellen, welche Dokumente die Kontrollkästchen untersucht wurden. Dies ist schwer mit LLMs zu lösen, da Sie zuerst OCR auf das Bild anwenden müssen. Der Textual content verliert dann seine visuelle Place, die erforderlich ist, um die Aufgabe richtig zu lösen. Mit VLMs können Sie den Textual content problemlos im Dokument lesen und seine visuelle Place verwenden (wenn der Textual content über einem Kontrollkästchen überprüft wird oder nicht) und die Aufgabe erfolgreich lösen. Bild des Autors.

Für einen Menschen ist dies eine einfache Aufgabe; Offensichtlich sollten die Dokumente 1 und 3 enthalten sein, während Dokument 2 ausgeschlossen werden sollte. Wenn Sie jedoch versucht haben, dieses Downside durch ein reines LLM zu lösen, würden Sie auf Probleme stoßen.

Um ein reines LLM auszuführen, müssen Sie zunächst das Bild OCR benötigen, wo die OCR -Ausgabe ungefähr wie unten aussehen würde, wenn Sie verwenden Googles TesseractZum Beispiel, der die Textzeile nach Zeile extrahiert.

Doc 1  Doc 2  Doc 3  X   X

Wie Sie vielleicht bereits entdeckt haben, wird die LLM Probleme haben, welche Dokumente enthalten sind, da es unmöglich ist, zu wissen, zu welchen Dokumenten das XS gehört. Dies ist nur eines von vielen Szenarien, in denen VLMs äußerst effizient darin sind, ein Downside zu lösen.

Der Hauptpunkt hier ist, dass das Wissen, welche Dokumente ein Kontrollkästchen X haben, sowohl visuelle als auch Textinformationen erfordert. Sie müssen den Textual content und die visuelle Place des Textes im Bild kennen. Ich fasse dies im folgenden Zitat zusammen:

VLMs sind erforderlich, wenn die Bedeutung des Textes von seiner visuellen Place abhängt

Anwendungsbereiche

Es gibt eine Vielzahl von Bereichen, auf die Sie VLMs anwenden können. In diesem Abschnitt werde ich einige verschiedene Bereiche abdecken, in denen sich VLMs als nützlich erwiesen haben und in denen ich auch VLMs erfolgreich angewendet habe.

Agierische Anwendungsfälle

Die Agenten sind heutzutage im Wind und VLMs spielen auch eine Rolle. Ich werde zwei Hauptbereiche hervorheben, in denen VLMs in einem Agentenkontext verwendet werden können, obwohl es natürlich viele andere solche Bereiche gibt.

Computergebrauch

Der Computergebrauch ist ein interessanter Anwendungsfall für VLMs. Mit dem Computergebrauch beziehe ich mich auf einen VLM, der einen Body von Ihrem Pc aus betrachtet und entscheide, welche Aktion als nächstes ergriffen werden soll. Ein Beispiel dafür ist Openai -Betreiber. Dies kann beispielsweise einen Bild dieses Artikels betrachten, den Sie gerade lesen, und nach unten zu scrollen, um mehr aus diesem Artikel zu lesen.

VLMs sind nützlich für den Computergebrauch, da LLMs nicht ausreichen, um zu entscheiden, welche Aktionen ergriffen werden müssen. Wenn Sie auf einem Pc arbeiten, müssen Sie häufig die visuelle Place von Schaltflächen und Informationen interpretieren, die, wie ich am Anfang beschrieben habe, einer der Hauptnutzungsbereiche für VLMs ist.

Debuggen

Der Debugging -Code ist auch ein tremendous nützlicher Agentenanwendungsbereich für VLMs. Stellen Sie sich vor, Sie entwickeln eine Webanwendung und entdecken Sie einen Fehler.

Eine Möglichkeit besteht darin, sich bei der Konsole anzumelden, die Protokolle zu kopieren, Cursor zu beschreiben, was Sie getan haben, und den Cursor fordern, um ihn zu beheben. Dies ist natürlich zeitaufwändig, da der Benutzer viele manuelle Schritte erfordert.

Eine andere Possibility besteht daher darin, VLMs zu verwenden, um das Downside besser zu lösen. Im Idealfall beschreiben Sie, wie Sie das Downside reproduzieren. Ein VLM kann in Ihre Anwendung eingehen, den Fluss neu erstellen, das Downside überprüfen und so debuggen, was schief geht. Für Bereiche wie diese werden Anwendungen erstellt, obwohl die meisten nicht weit in der Entwicklung von dem gekommen sind, was ich gesehen habe.

Frage Beantwortung

Die Verwendung von VLMs für die Beantwortung der visuellen Frage ist einer der klassischen Ansätze für die Verwendung von VLMs. Die Beantwortung von Frage ist der Anwendungsfall, den ich früher in diesem Artikel beschrieben habe, um herauszufinden, welches Kontrollkästchen zu welchen Dokumenten gehört. Sie füttern die VLM mit einer Benutzerfrage und einem Bild (oder mehreren Bildern), damit die VLM verarbeitet werden kann. Das VLM liefert dann eine Antwort im Textformat. Sie können sehen, wie dieser Prozess in der Abbildung unten funktioniert.

Diese Abbildung zeigt eine Fragenbeantwortungsaufgabe, bei der ich ein VLM verwendet habe, um das Downside zu lösen. Sie füttern das Bild, das das Downside enthält, und die Frage, die die zu lösene Aufgabe enthält. Das VLM verarbeitet diese Informationen dann und gibt die erwarteten Informationen aus. Bild des Autors,

Sie sollten jedoch die Kompromisse bei der Verwendung von VLMS vs LLMs abwägen. Wenn eine Aufgabe Textual content- und visuelle Informationen erfordert, müssen Sie natürlich VLMs verwenden, um ein ordnungsgemäßes Ergebnis zu erzielen. VLMs sind jedoch in der Regel auch viel teurer zu betreiben, da sie mehr Token verarbeiten müssen. Dies liegt daran, dass Bilder viele Informationen enthalten, was somit zu vielen Eingabestellen führt.

Wenn das VLM Textual content verarbeiten soll, benötigen Sie außerdem hochauflösende Bilder, sodass die VLM die Pixel interpretieren kann, die Buchstaben ausmachen. Mit niedrigeren Auflösungen bemüht sich das VLM, den Textual content in den Bildern zu lesen, und Sie erhalten minderwertige Ergebnisse.

Einstufung

Diese Abbildung behandelt, wie Sie VLMs auf Klassifizierungsaufgaben anwenden können. Sie füttern das VLM mit einem Bild eines Dokuments und der Frage, um das Dokument in einen vordefinierten Kategoriensatz zu klassifizieren. Diese Kategorien sollten in die Frage einbezogen werden, sind jedoch aufgrund von Platzbeschränkungen nicht in die Abbildung enthalten. Das VLM gibt dann das vorhergesagte Klassifizierungsetikett aus. Bild des Autors.

Ein weiterer interessanter Anwendungsbereich für VLMs ist die Klassifizierung. Bei der Klassifizierung beziehe ich mich auf die State of affairs, in der Sie einen festgelegten Kategoriensatz haben und feststellen müssen, zu welcher Kategorie ein Bild gehört.

Sie können VLMs zur Klassifizierung verwenden, wobei der gleiche Ansatz wie die Verwendung von LLMs verwendet wird. Sie erstellen eine strukturierte Eingabeaufforderung mit allen relevanten Informationen, einschließlich der möglichen Ausgabekategorien. Darüber hinaus decken Sie vorzugsweise die verschiedenen Randfälle ab, beispielsweise in Szenarien, in denen beide Kategorien sehr wahrscheinlich sind, und die VLM muss sich zwischen den beiden Kategorien entscheiden.

Sie können beispielsweise eine Eingabeaufforderung haben wie:

def get_prompt():
    return """
        ## Basic directions
        It's essential to decide which class a given doc belongs to. 
        The obtainable classes are "authorized", "technical", "monetary".

        ## Edge case dealing with
        - Within the state of affairs the place you've got a authorized doc overlaying monetary info, the doc belongs to the monetary class
        - ...
        ## Return format
        Reply solely with the corresponding class, and no different textual content 
    """

Sie können VLMs auch effektiv zur Informationsextraktion verwenden, und es gibt viele Aufgaben zur Informationsextraktion, die visuelle Informationen erfordern. Sie erstellen eine ähnliche Eingabeaufforderung wie die oben erstellte Klassifizierungsaufforderung und fordern normalerweise die VLM auf, in einem strukturierten Format wie einem JSON -Objekt zu reagieren.

Bei der Durchführung der Informationsextraktion müssen Sie überlegen, wie viele Datenpunkte Sie extrahieren möchten. Wenn Sie beispielsweise 20 verschiedene Datenpunkte aus einem Dokument extrahieren müssen, möchten Sie wahrscheinlich nicht alle gleichzeitig extrahieren. Dies liegt daran, dass das Modell wahrscheinlich Schwierigkeiten hat, so viele Informationen auf einmal genau zu extrahieren.

Stattdessen sollten Sie in Betracht ziehen, die Aufgabe beispielsweise mit zwei verschiedenen Anforderungen zu extrahieren und die Aufgabe für das Modell zu vereinfachen. Auf der anderen Seite des Arguments begegnen Sie manchmal, dass einige Datenpunkte miteinander zusammenhängen, was bedeutet, dass sie in derselben Anfrage extrahiert werden sollten. Darüber hinaus erhöht das Senden mehrerer Anfragen die Inferenzkosten.

Diese Abbildung zeigt, wie Sie VLMs verwenden können, um die Informationsextraktion durchzuführen. Sie füttern das VLM erneut mit dem Bild des Dokuments und fordern auch die VLM auf, bestimmte Datenpunkte zu extrahieren. In dieser Abbildung fordere ich die VLM auf, das Datum des Dokuments, den im Dokument genannten Ort und den Dokumenttyp zu extrahieren. Das VLM analysiert dann die Eingabeaufforderung und das Dokumentbild und gibt ein JSON -Objekt aus, das die angeforderten Informationen enthält. Bild des Autors.

Wenn VLMs problematisch sind

VLMs sind erstaunliche Modelle, die Aufgaben ausführen können, die vor wenigen Jahren unvorstellbar waren, mit KI zu lösen. Sie haben jedoch auch ihre Grenzen, die ich in diesem Abschnitt abdecken werde.

Kosten für den Betrieb von VLMs

Die erste Einschränkung sind die Kosten für den Betrieb von VLMs, die ich auch früher in diesem Artikel kurz erörtert habe. VLMs verarbeiten Bilder, die aus vielen Pixeln bestehen. Diese Pixel repräsentieren viele Informationen, die in Token codiert sind, die das VLM verarbeiten kann. Das Downside ist, dass Sie, da Bilder so viele Informationen enthalten, viele Token professional Bild erstellen müssen, was die Kosten für den Ausführen von VLMs wieder erhöht.

Darüber hinaus benötigen Sie häufig hochauflösende Bilder, da das VLM in den Bildern Textual content lesen muss, was zu noch mehr Token führt. VLMs sind somit teuer zu laufen, beide über eine API, aber in Berechnung, wenn Sie sich entscheiden, die VLM selbst zu veranstalten.

Lange Dokumente können nicht verarbeitet werden

Die in den Bildern enthaltene Menge an Token begrenzt auch die Anzahl der Seiten, die ein VLM sofort verarbeiten kann. VLMs sind wie herkömmliche LLMs durch ihre Kontextfenster begrenzt. Dies ist ein Downside, wenn Sie lange Dokumente mit Hunderten von Seiten verarbeiten möchten. Natürlich können Sie das Dokument in Stücke aufteilen, aber Sie könnten auf Probleme stoßen, bei denen der VLM keinen Zugriff auf alle Inhalte des Dokuments auf einmal hat.

Wenn Sie beispielsweise ein 100-seitiges Dokument haben, können Sie zuerst die Seiten 1-50 verarbeiten und dann die Seiten 51-100 verarbeiten. Wenn einige Informationen auf Seite 53 möglicherweise den Kontext von Seite 1 (z. B. dem Titel oder Datum des Dokuments) benötigen, führt dies zu Problemen.

Um zu lernen, wie man mit diesem Downside umgeht, habe ich das Kochbuch von Qwen 3 gelesen, auf dem sie eine Seite haben So verwenden Sie Qwen 3 für ultralong -Dokumente. Ich werde dies sicher testen und diskutieren, wie intestine es in einem zukünftigen Artikel funktioniert.

Abschluss

In diesem Artikel habe ich Imaginative and prescient Language -Modelle diskutiert und wie Sie sie auf verschiedene Problembereiche anwenden können. Ich habe zunächst beschrieben, wie VLMs in Agentensysteme integriert werden, beispielsweise als Pc -Use -Agent oder um Webanwendungen zu debuggen. Durch Fortsetzung behandelte ich Bereiche wie die Beantwortung von Fragen, Klassifizierung und Informationsextraktion. Zuletzt habe ich auch einige Einschränkungen von VLMs behandelt und die Berechnungskosten für den Betrieb von VLMs und die Artwork und Weise, wie sie mit langen Dokumenten zu kämpfen haben, diskutierte.

👉 Finden Sie mich in Socials:

🧑‍💻 Sich in Verbindung setzen

🔗 LinkedIn

🐦 X / Twitter

✍️ Medium

Verwenden von Visionsprachmodellen, um Millionen von Dokumenten zu verarbeiten

Inhaltsverzeichnis

Warum Sie VLMs verwenden müssen