So extrahieren Sie Metadaten konsistent aus komplexen Dokumenten

Mengen an wichtigen Informationen. Allerdings sind diese Informationen in vielen Fällen tief im Inhalt der Dokumente verborgen und daher für nachgelagerte Aufgaben nur schwer nutzbar. In diesem Artikel bespreche ich, wie Sie konsistent Metadaten aus Ihren Dokumenten extrahieren, und berücksichtige dabei Ansätze zur Metadatenextraktion und die Herausforderungen, denen Sie dabei begegnen werden.

Der Artikel bietet einen übergeordneten Überblick über die Durchführung der Metadatenextraktion für Dokumente und hebt die verschiedenen Überlegungen hervor, die Sie bei der Durchführung der Metadatenextraktion berücksichtigen müssen.

Diese Infografik hebt die Hauptinhalte dieses Artikels hervor. Ich werde zunächst erläutern, warum wir Dokumentmetadaten extrahieren müssen und wie sie für nachgelagerte Aufgaben nützlich sind. Anschließend bespreche ich Ansätze zum Extrahieren von Metadaten mit Regex, OCR + LLM und Imaginative and prescient-LLMs. Abschließend werde ich auch auf verschiedene Herausforderungen bei der Metadatenextraktion eingehen, z. B. Regex, handgeschriebenen Textual content und den Umgang mit langen Dokumenten. Bild von ChatGPT.

Warum Dokumentmetadaten extrahieren?

Zunächst ist es wichtig zu klären, warum wir Metadaten aus Dokumenten extrahieren müssen. Wenn die Informationen bereits in den Dokumenten vorhanden sind, können wir sie dann nicht einfach mithilfe von RAG oder anderen ähnlichen Ansätzen finden?

In vielen Fällen wäre RAG in der Lage, bestimmte Datenpunkte zu finden, aber das Vorextrahieren von Metadaten vereinfacht viele nachgelagerte Aufgaben. Mithilfe von Metadaten können Sie Ihre Dokumente beispielsweise nach Datenpunkten filtern, wie zum Beispiel:

Dokumenttyp
Adressen
Termine

Wenn Sie außerdem über ein RAG-System verfügen, profitiert dieses in vielen Fällen von zusätzlich bereitgestellten Metadaten. Dies liegt daran, dass Sie dem LLM die zusätzlichen Informationen (die Metadaten) übersichtlicher präsentieren. Angenommen, Sie stellen eine Frage zu Daten. In diesem Fall ist es einfacher, dem Modell einfach die vorextrahierten Dokumentdaten bereitzustellen, anstatt die Daten während der Inferenzzeit vom Modell extrahieren zu lassen. Dies spart sowohl Kosten als auch Latenz und verbessert wahrscheinlich die Qualität Ihrer RAG-Antworten.

So extrahieren Sie Metadaten

Ich hebe drei Hauptansätze zum Extrahieren von Metadaten hervor, von den einfachsten bis zu den komplexesten:

Regex
OCR + LLM
Imaginative and prescient-LLMs

Regex

Regex ist der einfachste und konsistenteste Ansatz zum Extrahieren von Metadaten. Regex funktioniert intestine, wenn Sie vorher das genaue Format der Daten kennen. Wenn Sie beispielsweise Mietverträge bearbeiten und wissen, dass das Datum als TT.MM.JJJJ geschrieben wird, immer direkt nach den Worten „Datum:“, dann ist Regex die richtige Wahl.

Leider ist die Verarbeitung der meisten Dokumente komplexer. Sie müssen sich mit inkonsistenten Dokumenten auseinandersetzen, mit Herausforderungen wie:

Datumsangaben werden an verschiedenen Stellen im Dokument geschrieben
Aufgrund der schlechten OCR fehlen im Textual content einige Zeichen
Datumsangaben werden in verschiedenen Formaten geschrieben (z. B. mm.tt.jjjj, 22. Oktober, 22. Dezember usw.)

Aus diesem Grund müssen wir normalerweise zu komplexeren Ansätzen übergehen, wie OCR + LLM, die ich im nächsten Abschnitt beschreibe.

OCR + LLM

Ein leistungsstarker Ansatz zum Extrahieren von Metadaten ist die Verwendung von OCR + LLM. Dieser Prozess beginnt mit der Anwendung von OCR auf ein Dokument, um den Textinhalt zu extrahieren. Anschließend nehmen Sie den OCR-bearbeiteten Textual content und veranlassen einen LLM, das Datum aus dem Dokument zu extrahieren. Dies funktioniert normalerweise unglaublich intestine, da LLMs den Kontext intestine verstehen können (welches Datum related und welches Datum irrelevant ist) und Datumsangaben in allen möglichen Formaten verstehen können. LLMs werden in vielen Fällen auch in der Lage sein, sowohl europäische (tt.mm.jjjj) als auch amerikanische (mm.tt.jjjj) Datumsstandards zu verstehen.

In einigen Szenarien erfordern die Metadaten, die Sie extrahieren möchten, jedoch visuelle Informationen. In diesen Szenarien müssen Sie die fortschrittlichste Technik anwenden: Imaginative and prescient-LLMs.

Imaginative and prescient-LLMs

Der Einsatz von Imaginative and prescient-LLMs ist der komplexeste Ansatz mit der höchsten Latenz und den höchsten Kosten. In den meisten Szenarien ist die Ausführung von Imaginative and prescient-LLMs weitaus teurer als die Ausführung rein textbasierter LLMs.

Beim Ausführen von Imaginative and prescient-LLMs müssen Sie normalerweise sicherstellen, dass die Bilder eine hohe Auflösung haben, damit das Imaginative and prescient-LLM den Textual content der Dokumente lesen kann. Dies erfordert dann viele visuelle Token, was die Verarbeitung teuer macht. Imaginative and prescient-LLMs mit hochauflösenden Bildern sind jedoch in der Regel in der Lage, komplexe Informationen zu extrahieren, was OCR + LLM nicht leisten kann, beispielsweise die im Bild unten bereitgestellten Informationen.

Dieses Bild zeigt eine Aufgabe, bei der Sie Imaginative and prescient-LLMs verwenden müssen. Wenn Sie dieses Bild mit OCR bearbeiten, können Sie zwar die Wörter „Dokument 1, Dokument 2, Dokument 3“ extrahieren, aber bei der OCR fehlt das ausgefüllte Kontrollkästchen vollständig. Dies liegt daran, dass OCR darauf trainiert ist, Zeichen und keine Zahlen zu extrahieren, wie das Kontrollkästchen mit einem Kreis darin. Der Versuch, OCR + LLM zu verwenden, wird in diesem Szenario daher scheitern. Wenn Sie jedoch stattdessen ein Imaginative and prescient-LLM für dieses Drawback verwenden, kann dieses problemlos extrahieren, welches Dokument abgehakt ist. Bild vom Autor.

Imaginative and prescient-LLMs funktionieren auch intestine in Szenarien mit handgeschriebenem Textual content, in denen OCR Probleme bereiten könnte.

Herausforderungen beim Extrahieren von Metadaten

Wie ich bereits erwähnt habe, sind Dokumente komplex und liegen in verschiedenen Formaten vor. Beim Extrahieren von Metadaten aus Dokumenten müssen Sie sich daher mit vielen Herausforderungen auseinandersetzen. Ich werde drei der größten Herausforderungen hervorheben:

Wann sollte man Imaginative and prescient vs. OCR + LLM verwenden?
Umgang mit handschriftlichem Textual content
Umgang mit langen Dokumenten

Wann sollten Imaginative and prescient-LLMs im Vergleich zu OCR + LLM verwendet werden?

Vorzugsweise würden wir Imaginative and prescient-LLMs für die gesamte Metadatenextraktion verwenden. Dies ist jedoch aufgrund der Kosten für den Betrieb von Imaginative and prescient-LLMs in der Regel nicht möglich. Wir müssen daher entscheiden, wann wir Imaginative and prescient-LLMs und wann OCR + LLMs verwenden.

Sie können beispielsweise entscheiden, ob der Metadatenpunkt, den Sie extrahieren möchten, visuelle Informationen erfordert oder nicht. Wenn es sich um ein Datum handelt, funktionieren OCR + LLM in quick allen Szenarien ziemlich intestine. Wenn Sie jedoch wissen, dass Sie es mit Kontrollkästchen wie in der oben erwähnten Beispielaufgabe zu tun haben, müssen Sie Imaginative and prescient-LLMs anwenden.

Umgang mit handschriftlichem Textual content

Ein Drawback bei dem oben genannten Ansatz besteht darin, dass einige Dokumente möglicherweise handgeschriebenen Textual content enthalten, der mit herkömmlicher OCR nicht besonders intestine extrahiert werden kann. Wenn Ihre OCR schlecht ist, wird auch die Leistung des LLM beim Extrahieren von Metadaten schlecht sein. Wenn Sie additionally wissen, dass Sie es mit handschriftlichem Textual content zu tun haben, empfehle ich die Verwendung von Imaginative and prescient-LLMs, da diese meiner Erfahrung nach viel besser mit Handschrift umgehen können. Es ist wichtig zu wissen, dass viele Dokumente sowohl digitalen Textual content als auch Handschrift enthalten.

Umgang mit langen Dokumenten

In vielen Fällen müssen Sie sich auch mit sehr langen Dokumenten befassen. Wenn dies der Fall ist, müssen Sie überlegen, wie weit im Dokument ein Metadatenpunkt vorhanden sein könnte.

Der Grund dafür ist, dass Sie die Kosten minimieren möchten und wenn Sie extrem lange Dokumente verarbeiten müssen, müssen Sie über viele Eingabetokens für Ihre LLMs verfügen, was kostspielig ist. In den meisten Fällen steht die wichtige Data (z. B. das Datum) früh im Dokument, sodass Sie nicht viele Eingabetokens benötigen. In anderen Situationen kann es jedoch sein, dass die relevanten Informationen auf Seite 94 vorhanden sind. In diesem Fall benötigen Sie viele Eingabe-Tokens.

Das Drawback ist natürlich, dass man vorher nicht weiß, auf welcher Seite die Metadaten vorhanden sind. Daher müssen Sie im Wesentlichen eine Entscheidung treffen, z. B. nur die ersten 100 Seiten eines bestimmten Dokuments betrachten und davon ausgehen, dass die Metadaten für quick alle Dokumente auf den ersten 100 Seiten verfügbar sind. In den seltenen Fällen, in denen sich die Daten auf Seite 101 und höher befinden, wird Ihnen ein Datenpunkt entgehen, Sie sparen jedoch erheblich Kosten.

Abschluss

In diesem Artikel habe ich besprochen, wie Sie konsistent Metadaten aus Ihren Dokumenten extrahieren können. Diese Metadaten sind häufig von entscheidender Bedeutung, wenn Sie nachgelagerte Aufgaben wie das Filtern Ihrer Dokumente anhand von Datenpunkten ausführen. Darüber hinaus habe ich drei Hauptansätze zur Metadatenextraktion mit Regex, OCR + LLM und Imaginative and prescient LLMs besprochen und einige Herausforderungen behandelt, denen Sie bei der Metadatenextraktion gegenüberstehen. Ich denke, die Metadatenextraktion bleibt eine Aufgabe, die keinen großen Aufwand erfordert, aber bei nachgelagerten Aufgaben einen großen Mehrwert bieten kann. Ich glaube daher, dass die Metadatenextraktion auch in den kommenden Jahren wichtig bleiben wird, obwohl ich glaube, dass wir bei der Metadatenextraktion immer mehr auf die reine Verwendung von Imaginative and prescient-LLMs anstelle von OCR + LLM umsteigen werden.

👉 Finden Sie mich in den sozialen Netzwerken:

🧑‍💻 Nehmen Sie Kontakt auf

📩 Abonnieren Sie meinen Publication

🔗 LinkedIn

🐦 X / Twitter

✍️ Medium

Sie können auch einige meiner anderen Artikel lesen:

So extrahieren Sie Metadaten konsistent aus komplexen Dokumenten

Warum Dokumentmetadaten extrahieren?

So extrahieren Sie Metadaten

Regex

OCR + LLM

Imaginative and prescient-LLMs

Herausforderungen beim Extrahieren von Metadaten

Wann sollten Imaginative and prescient-LLMs im Vergleich zu OCR + LLM verwendet werden?

Umgang mit handschriftlichem Textual content

Umgang mit langen Dokumenten

Abschluss

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Anpassung eines Modells zur Schätzung der Sitze-Stimmen-Kurve, damals, in den schlechten alten Zeiten, bevor wir Stan hatten

7 XGBoost-Tips für genauere Vorhersagemodelle

Studie: KI-Chatbots liefern gefährdeten Benutzern weniger genaue Informationen | MIT-Nachrichten

Vergleich des besten Karrierewegs: Information Science vs. Cloud Computing

About

Categories

Tags

Recent Post

Anpassung eines Modells zur Schätzung der Sitze-Stimmen-Kurve, damals, in den schlechten alten Zeiten, bevor wir Stan hatten

7 XGBoost-Tips für genauere Vorhersagemodelle

Warum Dokumentmetadaten extrahieren?

So extrahieren Sie Metadaten

Regex

OCR + LLM

Imaginative and prescient-LLMs

Herausforderungen beim Extrahieren von Metadaten

Wann sollten Imaginative and prescient-LLMs im Vergleich zu OCR + LLM verwendet werden?

Umgang mit handschriftlichem Textual content

Umgang mit langen Dokumenten

Abschluss

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt