Die meisten Unternehmensdaten befinden sich immer noch in PDFs, Scans und Foliensätzen. Große Sprachmodelle und Agenten können diese Daten erst verwenden, wenn sie in strukturiertes JSON umgewandelt werden. Die Extraktion von Open-Supply-Dokumenten ist zur Standardmethode für die Konvertierung auf Ihrer eigenen {Hardware} geworden.
Unter dem Begriff „PDF to JSON“ verbergen sich zwei unterschiedliche Probleme. Das erste ist Schemagesteuerte Extraktion: Sie definieren Felder und ein Modell füllt sie mit Werten. Das zweite ist Parsen von Dokumenten: Ein Modell rekonstruiert die Seite in strukturiertes JSON oder Markdown. Die meisten Groups brauchen einen, manchmal auch beide. Die Auswahl der falschen Kategorie kostet Echtzeit.
Offene Gewichte sind hier aus Kosten- und Datenschutzgründen von Bedeutung. Proprietäre APIs können Tausende von Greenback professional Million Seiten kosten und erfordern den Versand von Dokumenten außerhalb des Unternehmens. Lokale Modelle beseitigen beide Einschränkungen. Nachfolgend finden Sie die Modelle und Toolkits, die es wert sind, bewertet zu werden, gruppiert nach ihrer tatsächlichen Funktion.
Zwei Kategorien, ein Satz
Die schemagesteuerte Extraktion benötigt ein Dokument und ein JSON-Schema und gibt dann Werte für Ihre Felder zurück. Verwenden Sie es für Rechnungen, Formulare, Verträge und Quittungen, bei denen Sie die Felder im Voraus kennen.
Beim Parsen von Dokumenten wird das Dokument selbst rekonstruiert. Es erkennt Format, Lesereihenfolge, Tabellen, Formeln und Code und exportiert dann JSON oder Markdown. Verwenden Sie es, um saubere Korpora für Retrieval-Augmented Era (RAG) und Agenten vorzubereiten.
Datalab-Elevate
Aufzug ist ein 9B-Imaginative and prescient-Modell von Datenlabordas Crew hinter Marker und Surya. Sie übergeben ein JSON-Schema und Elevate gibt JSON zurück, das dazu passt. Die schemabeschränkte Dekodierung garantiert, dass die Ausgabe gültiges JSON ist. Das Modell basiert auf Qwen 3.5 und läuft lokal über Hugging Face oder distant über einen vLLM-Server.
Es verarbeitet mehrseitige Dokumente in einem einzigen Durchgang, einschließlich seitenübergreifender Werte. Es enthält eine CLI, eine Python-API und ein Streamlit-Schema-Studio zum Erstellen und Testen von Schemata.
pip set up lift-pdf
# Begin the vLLM server, then extract to your schema
lift_vllm
lift_extract enter.pdf ./output --schema schema.json
from carry import extract
end result = extract("doc.pdf", "schema.json")
if end result.extraction just isn't None:
information = end result.extraction # dict matching your schema
Beim 225-Dokumenten-Benchmark von Datalab erreicht der Elevate eine Feldgenauigkeit von 90,2 % bei einer mittleren Latenz von 9,5 Sekunden. Bei der Feldgenauigkeit liegt es vor NuExtract3 (81,5 %) und Qwen3.5-9B (76,3 %). Es liegt hinter Gemini Flash 3.5 (91,3 %) und der gehosteten Datalab API (95,9 %). Beachten Sie, dass die Genauigkeit des gesamten Dokuments bei allen lokalen Modellen niedrig bleibt und bei 20,9 % liegt. Es bleibt schwierig, jedes Feld in einem Dokument richtig hinzubekommen.
Der Code ist Apache-2.0. Die Gewichte verwenden eine modifizierte OpenRAIL-M-Lizenz, die für Forschung, den persönlichen Gebrauch und Begin-ups mit weniger als 5 Millionen US-Greenback an Finanzierung oder Einnahmen kostenlos ist. Kommerzielles Selbsthosting erfordert eine Lizenz und die Gewichte können nicht konkurrenzfähig mit der Datalab-API verwendet werden.
NuExtract 3 ist ein 4B-Imaginative and prescient-Sprachmodell von NuMind. Es vereint zwei Aufgaben in einem Modell: strukturierte Extraktion (Dokument zu JSON) und Inhaltsextraktion (OCR zu Markdown). Sie stellen eine Eingabe und eine JSON-Vorlage bereit, die die benötigten Felder beschreibt. Das Modell wird mit Reinforcement Studying trainiert, um extrahierungsspezifische Argumente hinzuzufügen, die Sie je nach Anforderung ein- oder ausschalten können.
NuExtract 3 ist multimodal, mehrsprachig und basiert auf einem Qwen-Spine. Die Bereitstellung erfolgt über vLLM mit einer OpenAI-kompatiblen API, und ein Python-SDK ist über verfügbar pip set up numind. NuMind positioniert es in seiner Größe als offenes Referenzmodell sowohl für die strukturierte Extraktion als auch für die Inhaltsextraktion. Überprüfen Sie die Modellkarte Bitte informieren Sie sich vor der kommerziellen Nutzung über die genauen Lizenzbedingungen.
Kategorie 2: Parsen von Dokumenten in strukturiertes JSON und Markdown
IBM Docling
Docling begann bei IBM Analysis und wird jetzt von der LF AI & Knowledge Basis gehostet. Es analysiert PDF, DOCX, PPTX, XLSX, HTML, Bilder und mehr. Zu den Ausgabeformaten gehören Markdown, HTML, verlustfreies JSON und DocTags. Sein Kern ist die DoclingDocument-Darstellung, die Format, Lesereihenfolge, Tabellen und Formeln wie LaTeX beibehält.
Docling wird lokal für Umgebungen mit Luftspalt ausgeführt. Es lässt sich in LangChain, LlamaIndex, Crew AI und HayStack integrieren und verfügt über einen MCP-Server und einen Docling Serve-Modus. Das Projekt trägt eine freizügige MIT-Lizenz. IBM bietet über watsonx auch eine verwaltete Model an.
IBM Granite-Docling-258M
Granit-Docling-258M ist ein kompaktes 258M Imaginative and prescient-Language-Modell von IBM. Es führt eine einmalige Dokumentkonvertierung innerhalb von Docling-Pipelines durch. Trotz seiner Größe verarbeitet es OCR, Format, Tabellen, Code und Gleichungen und gibt DocTags aus. Auf einer A100-GPU sind es durchschnittlich etwa 0,35 Sekunden professional Seite.
Das Modell basiert auf der Idefics3-Architektur mit einem SigLIP2-Encoder und einem Granite 165M-Sprach-Spine. Es wird unter Apache 2.0 veröffentlicht. IBM gibt an, dass es für die Dokumentenkonvertierung und nicht für das allgemeine Bildverständnis konzipiert ist.
OpenDataLab MinerU
MinerUvon OpenDataLab und Shanghai AI Laboratory, konvertiert PDF-, Bild-, DOCX-, PPTX- und XLSX-Eingaben in Markdown und JSON. Es kombiniert eine Verarbeitungspipeline mit einem Imaginative and prescient-Sprachmodell. Das aktuelle Modell MinerU2.5-Professional zielt auf das hochauflösende Parsen komplexer Layouts, einschließlich seitenübergreifender Tabellen und Diagramme, ab.
MinerU hat kürzlich seine Lizenz geändert. Es wurde von AGPL-3.0 auf die „MinerU Open Supply License“ umgestellt, eine benutzerdefinierte Lizenz basierend auf Apache 2.0 mit zusätzlichen Bedingungen. Diese Änderung verringert die Reibungsverluste bei der kommerziellen Bereitstellung.
Datalab-Marker
Marker ist die Pipeline von Datalab zum Konvertieren von Dokumenten in Markdown, JSON, Chunks und HTML. Es unterstützt PDF, Bilder, PPTX, DOCX, XLSX, HTML und EPUB. Es formatiert Tabellen, Formulare, Gleichungen, Inline-Mathematik, Hyperlinks und Code. Eine optionale --use_llm Flag fügt ein Sprachmodell hinzu, um Tabellen und Formulare zu verbessern.
In der olmOCR-Bench-Suite eines Drittanbieters erreicht Marker einen Wert von etwa 76,1. Sein Code ist GPL-3.0 und seine Modellgewichte verwenden eine modifizierte OpenRAIL-M-Lizenz von AI Pubs. Diese Gewichtslizenz ist für Forschung, den persönlichen Gebrauch und Begin-ups mit weniger als 2 Millionen US-Greenback an Finanzierung oder Einnahmen kostenlos. Auf der verwalteten Plattform von Datalab läuft jetzt ein neueres OCR-Modell. Chandradas Apache-2.0 ist und HTML, Markdown und JSON ausgibt.
Ai2 olmOCR 2
olmOCR 2 ist ein auf 7B OCR spezialisiertes Imaginative and prescient-Sprachmodell des Allen Institute for AI (Ai2). Es wandelt PDFs in sauberen Textual content und Markdown um und behält dabei die Lesereihenfolge bei. Es verarbeitet Tabellen, Gleichungen und Handschrift in komplexen mehrspaltigen Layouts. Das Modell wird mit verstärkendem Lernen aus überprüfbaren Belohnungen trainiert, wobei synthetische Unit-Exams als Belohnungssignal verwendet werden.
olmOCR 2 erzielt auf seinem eigenen olmOCR-Bench einen Wert von 82,4 und gehört damit zu den höheren veröffentlichten Ergebnissen dieser Suite. Ai2 schätzt die Kosten auf Ihren eigenen GPUs auf etwa 178 US-Greenback professional Million Seiten. Das Toolkit und das allenai/olmOCR-2-7B-1025 Gewichte sind Apache-2.0. Das aktuelle Modell ist auf Englisch ausgerichtet.
DeepSeek DeepSeek-OCR
DeepSeek-OCR ist ein offenes OCR-Modell von DeepSeek, das im Oktober 2025 veröffentlicht wurde. Es führt die „optische Kontextkomprimierung“ ein, die textreiche Seiten als kompakte Imaginative and prescient-Token darstellt und sie dann wieder in Textual content dekodiert. Dadurch können lange Dokumente mit weitaus weniger Tokens verarbeitet werden als bei typischen Imaginative and prescient-Language-Modellen.
Es verwendet einen DeepEncoder und einen 3B Combination-of-Consultants-Decoder, der etwa 570 Millionen Parameter professional Token aktiviert. Abhängig von der Eingabeaufforderung gibt es einfachen Textual content, Markdown, HTML-Tabellen oder strukturiertes JSON aus und unterstützt über 100 Sprachen. Der Code wird unter der MIT-Lizenz veröffentlicht. Ein Nachfolger, DeepSeek-OCR2, erschien im Januar 2026.
Die Allzweckoption: Qwen3-VL
Qwen3-VL von Alibaba ist kein dokumentenspezifisches Modell. Es handelt sich um eine allgemeine multimodale Reihe, die vielen Extraktionsmodellen als Grundlage dient. Sie können es auffordern, Markdown, JSON oder Code von einer Seite zurückzugeben. Die meisten Größen werden unter Apache 2.0 ausgeliefert. Es handelt sich um eine versatile Different, wenn ein spezielles Modell nicht passt, erfordert jedoch eine schnellere Entwicklung und bietet weniger Leistungsgarantien.
Vergleich der Optionen
| Modell | Org | Größe | Was es bewirkt | Primärer Output | Lizenz |
|---|---|---|---|---|---|
| Aufzug | Datenlabor | 9B | Schemagesteuerte Extraktion | JSON zu Ihrem Schema | Apache-2.0-Code / OpenRAIL-M-Gewichte |
| NuExtract 3 | NuMind | 4B | Schemaextraktion + OCR | JSON + Markdown | Offene Gewichte (siehe Karte) |
| Docling | IBM / LF KI & Daten | Pipeline | Format-Analyse | Markdown, JSON, DocTags | MIT |
| Granit-Docling | IBM | 258M | One-Shot-Konvertierung | DocTags, Markdown | Apache-2.0 |
| MinerU | OpenDataLab | ~1,2B VLM | Format-Analyse | Markdown, JSON | MinerU Open-Supply-Lizenz |
| Marker | Datenlabor | Pipeline | Format-Analyse | Markdown, JSON, HTML | GPL-3.0-Code / OpenRAIL-M-Gewichte |
| olmOCR 2 | Ai2 | 7B | OCR zu Textual content | Klartext, Markdown | Apache-2.0 |
| DeepSeek-OCR | DeepSeek | 3 Milliarden MoE (~570 Millionen aktiv) | OCR mit Token-Komprimierung | Textual content, Markdown, JSON | MIT (Code) |
| Qwen3-VL | Alibaba | 2B–235B | Allgemeines VLM | Markdown, JSON, Code | Apache-2.0 (die meisten Größen) |
Hinweis zu Benchmarks: Diese Zahlen stammen aus verschiedenen Suiten und sind nicht direkt vergleichbar. Die 90,2 % des Lifts entsprechen der Feldgenauigkeit im Schema-Extraktions-Benchmark von Datalab. Die olmOCR-Bench-Scores für olmOCR 2 (82,4) und Marker (76,1) messen die Inhaltsextraktion mit Unit-Take a look at-Scoring. Gehen Sie jeden Kandidaten mit Ihren eigenen Unterlagen durch, bevor Sie eine Entscheidung treffen.
Markttechpost-Erklärer
„PDF to JSON“ verbirgt zwei verschiedene Jobs. Die schemagesteuerte Extraktion füllt von Ihnen definierte Felder. Beim Parsen des Dokuments wird die Seite in JSON oder Markdown neu erstellt. Filtern Sie nach Aufgabe und Lizenz und öffnen Sie dann ein beliebiges Repo.
Schemagesteuerte Extraktion
Dokumentanalyse
Allzweck-VLM
Benchmarks sind nicht direkt vergleichbar. Die 90,2 % des Lifts entsprechen der Feldgenauigkeit im Schema-Benchmark von Datalab. Die olmOCR-Bench-Scores für olmOCR 2 (82,4) und Marker (76,1) messen die Inhaltsextraktion mit Unit-Exams. Führen Sie Ihre eigenen Dokumente aus, bevor Sie auswählen.
Wichtige Erkenntnisse
- Die schemagesteuerte Extraktion (Felder in Werte) und das Parsen von Dokumenten (Format in JSON) sind unterschiedliche Aufgaben.
- Aufzug Und NuExtract 3 Zielschemagesteuertes JSON; Der Relaxation analysiert das Zieldokument.
- Docling, MinerU, Marker, olmOCR 2Und DeepSeek-OCR Analysieren Sie Dokumente in strukturiertes Markdown oder JSON.
- Die Lizenzen variieren stark; MinerU hat AGPL-3.0 im Jahr 2026 aufgegeben und Elevate- und Marker-Break up-Code- und Mannequin-Weight-Lizenzen eingeführt.
- Veröffentlichte Benchmarks stammen aus verschiedenen Suiten. Behandeln Sie die modellübergreifenden Ergebnisse daher als Richtwerte und nicht als Vergleichbarkeit.
Michal Sutter ist ein Knowledge-Science-Experte mit einem Grasp of Science in Knowledge Science von der Universität Padua. Mit einer soliden Grundlage in statistischer Analyse, maschinellem Lernen und Datentechnik ist Michal hervorragend darin, komplexe Datensätze in umsetzbare Erkenntnisse umzuwandeln.

