Für die Entwicklung von Texterkennungsanwendungen stehen zahlreiche Open-Supply-Datensätze zur Verfügung. Einige der besten 22 sind
NIST-Datenbank (Verknüpfung)
Das NIST oder das Nationwide Institute of Science bietet eine kostenlose Sammlung von über 3600 Handschriftproben mit mehr als 810.000 Zeichenbildern an
MNIST-Datenbank (Verknüpfung)
Die MNIST-Datenbank wurde aus den Spezialdatenbanken 1 und 3 des NSIT abgeleitet und ist eine kompilierte Sammlung von 60.000 handgeschriebenen Zahlen für den Trainingssatz und 10.000 Beispielen für den Testsatz. Diese Open-Supply-Datenbank hilft dabei, Modelle zu trainieren, Muster zu erkennen, während weniger Zeit für die Vorverarbeitung aufgewendet wird.
Texterkennung (Verknüpfung)
Der Textual content Detection-Datensatz ist eine Open-Supply-Datenbank und enthält etwa 500 Innen- und Außenbilder von Schildern, Türschildern, Warnschildern und mehr.
Stanford OCR (Verknüpfung)
Dieser kostenlos nutzbare Datensatz wurde von Stanford veröffentlicht und ist eine handschriftliche Wortsammlung der MIT Spoken Language Techniques Group.
Road View-Textual content (Verknüpfung)
Dieser aus Google Road View-Bildern zusammengestellte Datensatz enthält Texterkennungsbilder, hauptsächlich von Tafeln und Straßenschildern.
Dokumentdatenbank (Verknüpfung)
Die Dokumentendatenbank ist eine Sammlung von 941 handschriftlichen Dokumenten, darunter Tabellen, Formeln, Zeichnungen, Diagramme, Hear und mehr von 189 Autoren.
Mathematische Ausdrücke (Verknüpfung)
„Arithmetic Expressions“ ist eine Datenbank, die 101 mathematische Symbole und 10.000 Ausdrücke enthält.
Road View Hausnummern (Verknüpfung)
Diese aus Google Road View gewonnenen Road View-Hausnummern sind eine Datenbank mit 73.257 Straßen- und Hausnummernziffern.
OCR für die natürliche Umwelt (Verknüpfung)
Pure Setting OCR ist ein Datensatz mit quick 660 Bildern aus aller Welt und 5238 Textanmerkungen.
Mathematische Ausdrücke (Verknüpfung)
Über 10.000 Ausdrücke mit mehr als 101 mathematischen Symbolen.
Handgeschriebene chinesische Schriftzeichen (Verknüpfung)
Ein Datensatz mit 909.818 handgeschriebenen Bildern chinesischer Schriftzeichen, was etwa 10 Nachrichtenartikeln entspricht.
Gedruckter arabischer Textual content (Verknüpfung)
Ein Lexikon mit 113.284 Wörtern in 10 arabischen Schriftarten.
Handgeschriebener englischer Textual content (Verknüpfung)
Handgeschriebener englischer Textual content auf einem Whiteboard mit über 1700 Einträgen.
3000 Umgebungen Bilder (Verknüpfung)
3000 Bilder aus verschiedenen Umgebungen, darunter Außen- und Innenszenen bei unterschiedlicher Beleuchtung.
Chars74K Daten (Verknüpfung)
74.000 Bilder von englischen und Kannada-Ziffern.
IAM (IAM-Handschrift) (Verknüpfung)
Die IAM-Datenbank enthält 13.353 handschriftliche Textbilder von 657 Autoren aus dem Lancaster-Oslo/Bergen-Korpus des britischen Englisch.
FUNSD (Formularverständnis in verrauschten gescannten Dokumenten) (Verknüpfung)
FUNSD umfasst 199 kommentierte, gescannte Formulare mit unterschiedlichem und unruhigem Erscheinungsbild, die das Verständnis der Formulare erschweren.
TextOCR (Verknüpfung)
TextOCR vergleicht die Texterkennung von Szenentexten beliebiger Type in natürlichen Bildern.
Twitter100k (Verknüpfung)
Twitter100k ist ein großer Datensatz für schwach überwachtes medienübergreifendes Abrufen.
SSIG-SegPlate – Nummernschild-Zeichensegmentierung (LPCS) (Verknüpfung)
Dieser Datensatz wertet die License Plate Character Segmentation (LPCS) mit 101 Fahrzeugbildern bei Tageslicht aus.
105.941 Bilder Natürliche Szenen OCR-Daten in 12 Sprachen (Verknüpfung)
Die Daten umfassen 12 Sprachen (6 asiatische, 6 europäische) und verschiedene natürliche Szenen und Winkel. Sie verfügen über Begrenzungsrahmen auf Zeilenebene und Texttranskriptionen. Sie sind für mehrsprachige OCR-Aufgaben nützlich.
Indischer Schilderbild-Datensatz (Verknüpfung)
Der Datensatz enthält zur Klassifizierung und Erkennung Bilder indischer Verkehrszeichen, die bei unterschiedlichen Wetterbedingungen tagsüber, abends und nachts aufgenommen wurden.
Dies waren einige der besten Open-Supply-Datensätze zum Trainieren von ML-Modellen für Texterkennungsanwendungen. Die Auswahl des Datensatzes, der Ihren Geschäfts- und Anwendungsanforderungen entspricht, kann Zeit und Mühe kosten. Sie müssen jedoch mit diesen Datensätzen experimentieren, bevor Sie sich für den geeigneten entscheiden.
Um Ihnen bei der Entwicklung einer zuverlässigen und effizienten Texterkennungsanwendung zu helfen, ist Shaip – der hochrangige Anbieter von Technologielösungen – der richtige Ansprechpartner. Wir nutzen unsere technische Erfahrung, um anpassbare, optimierte und effiziente OCR-Trainingsdatensätze für verschiedene Kundenprojekte. Um unsere Fähigkeiten vollständig kennenzulernen, nehmen Sie noch heute Kontakt mit uns auf.