OCR und ICR im Praxischeck

Texterkennung ist ein zentrales Element der digitalen Dokumentenverarbeitung. OCR erkennt gedruckte Inhalte in Scans und Fotos und wandelt sie in maschinenlesbaren Text um. ICR erweitert diesen Ansatz auf Handschrift und auf Formulare mit variablen Layouts. In vielen Umgebungen arbeiten beide Verfahren zusammen und sind in eine Pipeline eingebettet, die Dokumente erfasst, aufbereitet, erkennt, klassifiziert, validiert und an nachgelagerte Systeme übergibt. So entstehen durchsuchbare und fachlich verwertbare Daten, die sich in Dokumentenmanagementsysteme, ERP oder Workflowplattformen integrieren lassen.

Einsatzbereich OCR

OCR steht für Optical Character Recognition (also optische Zeichenerkennung) und ist geeignet, wenn die Vorlagen klar lesbar sind. Dazu zählen Verträge, Bescheide, Berichte und viele Rechnungen. Gute Ergebnisse hängen stark von der Bildqualität ab. Entscheidend sind ausreichende Auflösung, scharfer Kontrast und eine Kompression, die keine Artefakte erzeugt. Wörterbücher, domänenspezifische Muster und eine solide Nachkorrektur heben die Qualität zusätzlich. In stabilen, wiederkehrenden Belegarten liefert OCR zuverlässig verwertbaren Volltext und eine solide Basis für spätere Feldextraktionen.

Einsatzbereich ICR

ICR steht für Intelligent Character Recognition (also intelligente Zeichenerkennung) und kommt zum Einsatz, wenn Handschrift oder stark variierende Layouts auftreten. Die Erkennung arbeitet mit trainierbaren Modellen und verbessert sich durch Feedback aus dem Betrieb. Diese Lernfähigkeit ist besonders nützlich bei Formularen, die frei ausgefüllt werden, bei Mischbelegen aus Drucktext und Annotationen und bei Dokumenten, deren Struktur häufig wechselt. In Kombination mit Verfahren wie Intelligent Word Recognition können auch ganze Wortbilder zuverlässig erkannt werden. Der Aufwand für Datenaufbereitung und Training ist höher als bei reiner OCR. Dafür steigt die Robustheit gegenüber realen, unaufgeräumten Dokumenten.

Die Pipeline von der Erfassung bis zum Archiv

Am Beginn steht die Erfassung. Typische Quellen sind Batch Scanner, Multifunktionsgeräte, mobile Apps, E Mail Postfächer und API Endpunkte. Es folgt die Bildaufbereitung. Dazu gehören Zuschneiden, Entzerren, Entrauschen und Binarisieren. In der Praxis bewährt sich eine Normalisierung auf ungefähr 300 DPI für gewöhnliche Textdokumente. Für feine Formulare kann eine höhere Auflösung sinnvoll sein. Bereits an dieser Stelle entscheidet sich, wie viel die Erkennung später leisten kann. Schlecht aufbereitete Bilder liefern selten gute Ergebnisse.

Nach der Aufbereitung folgt die Seitenanalyse. Sie segmentiert Textblöcke, Tabellen, Stempel und ggf. Barcodes oder Ankreuzfelder. Diese Zonen sind wichtige Ankerpunkte für die weitere Extraktion. Bei festen Formularen unterstützt Template Matching, das konkrete Layouts zuordnet. Die eigentliche Texterkennung kombiniert OCR für Drucktext und ICR für Handschrift. Danach kommen Nachkorrekturen zum Zug. Wörterbücher, domänenspezifische Regeln und Character Replacement korrigieren typische Fehler. Die Systeme berechnen Konfidenzwerte auf Zeichen, Wort oder Feldebene. Diese Werte steuern, ob ein Feld als sicher gilt oder ob ein manueller Blick notwendig ist.

Sobald der Text steht, folgt die Klassifikation. Sie ordnet Dokumente bekannten Typen zu, etwa Rechnung, Lieferschein, Vertrag oder Reklamation. Auf Basis dieser Typen werden Felder extrahiert. Rechnungsnummer, Beträge, Steuern, Daten, Referenzen oder Ansprechpartner sind gängige Beispiele. Validierungsregeln prüfen die Plausibilität. Dazu zählen Prüfungen für IBAN, USt IdNr. oder formale Datumsformate. Ein Abgleich mit Stammdaten reduziert Fehlinterpretationen. Felder mit niedriger Konfidenz landen in einer Sichtungsmaske für Human in the Loop. Felder mit hoher Konfidenz werden ohne Unterbrechung weitergereicht. Der Export erzeugt durchsuchbare PDFs oder PDF/A, legt Metadaten an und übergibt alles an das Dokumentenmanagementsystem oder ERP-System. Protokolle sichern die Nachvollziehbarkeit.

Qualität und Metriken

Vier Faktoren bestimmen die Qualität. Erstens die Dokument und Bildqualität. Schärfe, Kontrast, saubere Ränder und ausreichende Auflösung haben den größten Hebel. Zweitens das Sprach und Domänenwissen. Wörterbücher und branchenspezifische Muster sind wichtig, damit die Systeme typische Schreibweisen erkennen. Drittens die Fähigkeiten der Engine. Dazu gehören Multifont- oder Omnifont-Erkennung, Tabellenerkennung, Rotationskorrektur und ein robustes Layout Parsing. Viertens die Systemleistung. Hohe Genauigkeit nützt wenig, wenn der Durchsatz im Batch Betrieb zu niedrig ist.

Die passenden Metriken orientieren sich an der Fachlichkeit. Zeichen oder Wortgenauigkeit ist hilfreich, reicht aber nicht aus. Für betriebliche Prozesse sind feldbezogene Metriken maßgeblich. Precision und Recall pro Feld zeigen, wie gut eine Rechnungssumme, eine Bestellnummer oder ein Datum erkannt wird. Die Straight Through Processing Rate gibt an, wie viele Vorgänge ohne manuelle Nacharbeit durchlaufen. Zeit bis zum Ergebnis und der Anteil manuell zu prüfender Felder machen transparent, wie wirtschaftlich die Lösung arbeitet.

Typische Anwendungsfelder

Im Rechnungseingang werden Kopf- und Positionsdaten extrahiert und gegen Bestellung sowie Wareneingang abgeglichen. Prüf- und Freigabeprozesse lassen sich darauf aufbauen. Im digitalen Posteingang ordnet Klassifikation eingehende Schreiben zu und verteilt sie an die richtigen Stellen. Im HR Kontext geht es um Anträge, Bescheinigungen und Akten, die verschlagwortet und rechtssicher abgelegt werden. In vielen Szenarien spielen Barcodes und Markierungen eine Rolle. OBR (Optical Barcode Recognition) und OMR (Optical Mark Recognition) unterstützen die Steuerung, etwa wenn Checkboxen den Prozesspfad bestimmen. Die Erkennung von Visitenkarten und die Verarbeitung ganzer Wortbilder über IWR (Intelligent Word Recognition) sind ergänzende Bausteine, die den Alltag spürbar beschleunigen.

Datenschutz, Compliance und Archivierung

Bei personenbezogenen Daten gilt die DSGVO. Eine tragfähige Rechtsgrundlage, ein Auftragsverarbeitungsvertrag, technisch organisatorische Maßnahmen und klare Lösch- und Sperrkonzepte sind verbindlich. Rollen, Rechte und Verschlüsselung sichern den Betrieb. Für die Nachvollziehbarkeit sorgt ein Audit Trail, der Erkennung, Korrekturen und Freigaben dokumentiert. Für die Langzeitlesbarkeit empfiehlt sich PDF/A. Wer buchhalterische Prozesse berührt, richtet die Verfahrensdokumentation GoBD konform aus und berücksichtigt Unveränderbarkeit, Protokollierung und nachvollziehbare Prozesslogik.

Auswahlkriterien für die richtige Lösung

Vor einer Entscheidung lohnt der Blick auf die Basisfähigkeit. Die Lösung sollte die relevanten Sprachen und Schriften sauber erkennen und eine API First Architektur bieten. On-Prem- und Cloud-Varianten erhöhen die Flexibilität. PDF oder PDF/A Export, Mandantenfähigkeit, Rechte und Logging sind Pflicht. Darüber hinaus zahlt sich eine präzise Seiten Segmentierung aus. Eine gute Zerlegung komplexer Layouts spart Nacharbeit. Batch Steuerung und klare Durchsatzangaben sind wichtig, damit Lastspitzen beherrschbar bleiben.

Für die manuelle Korrektur überzeugt eine Oberfläche, die auf Wort oder sogar Pixel Ebene korrigieren lässt und Konfidenzen verständlich darstellt. Barcodes, Markierungen und Visitenkartenerkennung erweitern den Handlungsspielraum. Aussagen zur Genauigkeit sollten immer mit eigenen Dokumenten überprüft werden. Marketingwerte sind nur ein grober Anhalt. Relevanter ist ein Test mit Echtdaten, der auch schwierige Scans enthält. Wichtig ist neben der Genauigkeit der gemessene Durchsatz pro Minute und der echte Korrekturaufwand.

Proof of Concept richtig anlegen

Ein POC ist mehr als ein Pflichtschritt. Er zeigt, wie die Lösung im Alltag funktioniert. Ein gutes Testset enthält typische Dokumente und bewusste Problemfälle. Dazu zählen Stempel, Randnotizen, Schatten, gedrehte Seiten und Fax Artefakte. Vor dem Start werden KPIs festgelegt. Beispiele sind ein Zielwert für die Straight Through Processing Rate, maximale zulässige Korrekturzeit pro Dokument und Mindestwerte für Precision und Recall bei Schlüsselfeldern. Zwei oder drei Anbieter sollten parallel mit denselben Daten getestet werden. So entsteht ein belastbarer Vergleich. Die Ergebnisse fließen in das Prozessdesign. Es legt fest, ab welchen Konfidenzwerten Felder automatisch akzeptiert werden, wie Ausnahmen eskaliert werden und welche Sichtungsoberfläche die Prüfer benötigen. Diese Entscheidungen haben großen Einfluss auf Skalierbarkeit und Betriebskosten.

Einführung und Skalierung

Nach dem POC beginnt ein fokussierter Pilot. Er sollte in einer Fachabteilung mit klaren Dokumenttypen, messbaren Volumina und eindeutigen Zielen stattfinden. Ein Monitoring beobachtet Genauigkeit, Durchsatz und Fehlerbilder. Modellpflege ist ein kontinuierlicher Prozess. Feedback aus Korrekturen dient als Lernmaterial für neue Modellversionen. Regressionstests stellen sicher, dass Verbesserungen in einem Feld nicht zu Verschlechterungen an anderer Stelle führen. Mit einem strukturierten Rollout lassen sich weitere Bereiche schrittweise anbinden. Wichtig ist, dass Regeln, Trainingsdaten und Modelle eindeutig verantwortet werden. Unklare Zuständigkeiten führen oft zu Stillstand und zu einer steigenden manuellen Last.

Fazit

OCR liefert das Fundament für die Texterkennung in klaren Druckbelegen. ICR erweitert den Ansatz auf Handschrift und variable Layouts und erhöht damit die Robustheit im Alltag. Entscheidend ist eine Pipeline, die Erfassung, Aufbereitung, Erkennung, Klassifikation, Validierung und Export sauber verbindet. Qualität entsteht nicht allein im Erkennungsschritt, sondern aus dem Zusammenspiel von Bildaufbereitung, Engine Fähigkeiten, fachlichen Regeln, Konfidenzsteuerung und einer schlanken Korrekturoberfläche. Wer die Auswahl systematisch angeht, einen realistischen POC durchführt und das Zusammenspiel von Mensch und Maschine klar definiert, erreicht hohe feldbezogene Genauigkeit, stabile Durchsatzwerte und eine niedrige Nacharbeitsquote. So entsteht ein Prozess, der zuverlässig Daten liefert, die in DMS, ERP und Workflows unmittelbar Mehrwert erzeugen.

Johanna

Ich bin Johanna, leidenschaftliche Technologie-Enthusiastin und Autorin bei "Addis Techblog". Mein besonderer Fokus liegt auf Innovationen und den neuesten Entwicklungen in der Tech-Welt. Es begeistert mich, komplexe Themen verständlich und zugänglich zu machen, damit meine Leser bestens über die dynamische Welt der Technologie informiert sind. In meiner Freizeit experimentiere ich gerne mit neuen Gadgets und Software, um immer am Puls der Zeit zu bleiben.

OCR und ICR im Praxischeck

Highlights auf Addis Techblog

3D Druck Blog

Themenseiten

Die neusten Tests und Tech Reviews

3D Grafiken und Animationen