Das Baidu Qianfan-Staff stellt sich vor Qianfan-OCRein 4B-Parameter-Finish-to-Finish-Modell, das entwickelt wurde, um Dokumentparsing, Layoutanalyse und Dokumentverständnis in einer einzigen Imaginative and prescient-Language-Architektur zu vereinen. Im Gegensatz zu herkömmlichen mehrstufigen OCR-Pipelines, die separate Module zur Layouterkennung und Texterkennung verketten, führt Qianfan-OCR eine direkte Bild-zu-Markdown-Konvertierung durch und unterstützt eingabeaufforderungsgesteuerte Aufgaben wie Tabellenextraktion und Beantwortung von Dokumentfragen.


Architektur und technische Spezifikationen
Qianfan-OCR nutzt die multimodale Bridging-Architektur des Qianfan-VL-Frameworks. Das System besteht aus drei Hauptkomponenten:
- Imaginative and prescient-Encoder (Qianfan-ViT): Beschäftigt einen Jede Auflösung Design, das Bilder in 448 x 448 Felder kachelt. Es unterstützt Eingaben mit variabler Auflösung bis zu 4K und erzeugt bis zu 4.096 visuelle Token professional Bild, um die räumliche Auflösung für kleine Schriftarten und dichten Textual content beizubehalten.
- Cross-Modal-Adapter: Ein leichtes zweischichtiges MLP mit GELU-Aktivierung, das visuelle Funktionen in den Einbettungsraum des Sprachmodells projiziert.
- Sprachmodell-Spine (Qwen3-4B): Ein 4.0B-Parametermodell mit 36 Ebenen und einem nativen 32K-Kontextfenster. Es nutzt Grouped-Question Consideration (GQA), um die KV-Cache-Speichernutzung um das Vierfache zu reduzieren.
„Format-as-Thought“-Mechanismus
Das Hauptmerkmal des Modells ist Format als Gedankeeine optionale Denkphase, ausgelöst durch <suppose> Token. Während dieser Section generiert das Modell strukturierte Layoutdarstellungen – einschließlich Begrenzungsrahmen, Elementtypen und Lesereihenfolge –, bevor die endgültige Ausgabe erstellt wird.
- Funktioneller Nutzen: Dieser Prozess stellt explizite Format-Analysefunktionen (Elementlokalisierung und Typklassifizierung) wieder her, die in Finish-to-Finish-Paradigmen oft verloren gehen.
- Leistungsmerkmale: Auswertung am OmniDocBench v1.5 weist darauf hin, dass die Aktivierung der Denkphase einen konsistenten Vorteil bei Dokumenten mit hoher „Format-Label-Entropie“ bietet – solchen, die heterogene Elemente wie gemischten Textual content, Formeln und Diagramme enthalten.
- Effizienz: Begrenzungsrahmenkoordinaten werden als dedizierte Spezialtoken dargestellt (
<COORD_0>Zu<COORD_999>), wodurch die Länge der Denkausgabe im Vergleich zu einfachen Ziffernfolgen um etwa 50 % reduziert wird.
Empirische Leistung und Benchmarks
Qianfan-OCR wurde sowohl anhand spezialisierter OCR-Systeme als auch allgemeiner Imaginative and prescient-Language-Modelle (VLMs) evaluiert.
Dokumentenanalyse und allgemeine OCR
Das Modell belegt bei mehreren wichtigen Benchmarks den ersten Platz unter den Finish-to-Finish-Modellen:
- OmniDocBench v1.5: Erreicht eine Punktzahl von 93.12übertrifft DeepSeek-OCR-v2 (91,09) und Gemini-3 Professional (90,33).
- OlmOCR-Financial institution: Gepunktet 79,8führend in der Finish-to-Finish-Kategorie.
- OCRBench: Erreicht eine Punktzahl von 880Platz eins unter allen getesteten Modellen.
Bei öffentlichen KIE-Benchmarks erreichte Qianfan-OCR den höchsten Durchschnittswert (87,9) und übertraf damit deutlich größere Modelle.
| Modell | Gesamtmittelwert (KIE) | OCRBench KIE | Nanonetze KIE (F1) |
| Qianfan-OCR (4B) | 87,9 | 95,0 | 86,5 |
| Qwen3-4B-VL | 83,5 | 89,0 | 83,3 |
| Qwen3-VL-235B-A22B | 84,2 | 94,0 | 83,8 |
| Gemini-3.1-Professional | 79,2 | 96,0 | 76.1 |
Dokumentverständnis
Vergleichstests ergaben, dass zweistufige OCR+LLM-Pipelines häufig bei Aufgaben versagen, die räumliches Denken erfordern. So punkteten beispielsweise alle getesteten zweistufigen Systeme 0,0 An CharXiv Benchmarks, da in der Textextraktionsphase der für die Diagramminterpretation erforderliche visuelle Kontext (Achsenbeziehungen, Datenpunktpositionen) verworfen wird.


Bereitstellung und Inferenz
Die Inferenzeffizienz wurde in gemessen Seiten professional Sekunde (PPS) mit einer einzelnen NVIDIA A100 GPU.
- Quantisierung: Mit W8A8 (AWQ) QuantisierungQianfan-OCR erreicht 1,024 KKSeine 2-fache Beschleunigung gegenüber der W16A16-Basislinie mit vernachlässigbarem Genauigkeitsverlust.
- Architekturvorteil: Im Gegensatz zu Pipeline-Systemen, die auf einer CPU-basierten Format-Analyse basieren – was zu einem Engpass werden kann – ist dies bei Qianfan-OCR der Fall GPU-zentriert. Dies vermeidet Verzögerungen bei der Verarbeitung zwischen den Phasen und ermöglicht eine effiziente Inferenz bei großen Mengen.
Kasse Papier, Repo Und Modell auf HF. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 120.000+ ML SubReddit und Abonnieren Unser Publication. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.
Michal Sutter ist ein Knowledge-Science-Experte mit einem Grasp of Science in Knowledge Science von der Universität Padua. Mit einer soliden Grundlage in statistischer Analyse, maschinellem Lernen und Datentechnik ist Michal hervorragend darin, komplexe Datensätze in umsetzbare Erkenntnisse umzuwandeln.

