OCR – Was ist OCR?
OCR steht für „Optical Character Recognition‟, auf Deutsch also optische Zeichenerkennung. Es dient dem digitalen Erfassen von gedruckten oder geschriebenen Texten durch eine Computer-Software.
Der große Vorteil der OCR-Technologie ist das dadurch ermöglichte digitale Bearbeiten der erfassten Dokumente.
Wie funktioniert OCR?
1. Scannen/Fotografieren
Zunächst wird ein Text gescannt oder abfotografiert und so in den Computer oder auch das Mobilgerät eingelesen. Bei den erfassten Dateien handelt es sich zu dem Zeitpunkt jedoch noch um Bilddateien, welche erst in den folgenden Schritten in tatsächlichen Text umgewandelt werden.
2. Layout-Analyse
Die erfassten Bilddateien werden dann von der OCR-Software in ihre verschiedenen Elemente unterteilt, z.B. Grafiken und Text. Letzterer wird dann wiederum in einzelne Absätze, Sätze, Wörter und dann die individuellen Zeichen aufgegliedert.
3. Zeichenerkennung
Nun geht es an die eigentliche Buchstabenerkennung. Dazu nutzen OCR-Softwares verschiedene Methoden, wobei hauptsächlich zwischen zwei Arten unterschieden wird:
Merkmalserkennung („Feature Matching"): Jedes Zeichen kann anhand bestimmter Merkmale identifiziert werden - auch dann, wenn der Text beispielsweise kursiv ist. (So besteht ein großes „H‟ grundsätzlich aus zwei relativ senkrechten Linien, die in der Mitte durch eine kürzere, horizontale Linie verbunden sind.)
Mustererkennung („Pattern Matching“): Hier verwendet die Software die eigene Zeichen-Datenbank, um die zu erkennenden Zeichen damit abzugleichen - wobei jedoch eine 100 %ige Übereinstimmung mit einem Buchstaben aus der Datenbank nötig ist.
4. Texterstellung
Sind alle Zeichen identifiziert, setzt die Software diese mithilfe von integrierten Lexika in Wörter zusammen und diese dann - bei manchen Programmen anhand von Funktionen zur Grammatikprüfung - in Sätze.
Was ist der Vorteil von OCR?
Ein großer Vorteil von OCR ist die Geschwindigkeit, mit der die Softwares - im Gegensatz zum manuellen Abtippen durch einen Menschen - Texte erfassen. Dank dieser Technologie spart man Zeit und vermeidet eintönige Arbeitsvorgänge.
Weiterhin ermöglicht es uns, große Mengen an Text zu durchsuchen und zu bearbeiten. Dies findet beispielsweise in der Literaturwissenschaft Anwendung: Ein mithilfe von OCR-Technologie digitalisierter Roman aus dem 19. Jahrhundert kann dann per Suchfunktion analysiert werden, wodurch man z. B. herauszufinden kann, wie oft ein bestimmter Begriff darin vorkommt.
Wo wird OCR eingesetzt?
OCR wird in einer Vielzahl von Bereichen eingesetzt, zum Beispiel:
bei der Beförderung von Post, um die Adressen der Adressaten zu erfassen,
von Bibliotheken zur digitalen Archivierung ihrer Bestände,
in bestimmten Apps, um beispielsweise Kreditkarten einzulesen,
oder bei der Verkehrsüberwachung zum Erkennen von Kfz-Zeichen an Fahrzeugen.
Ausgabenerfassung mit OCR - Was muss beachtet werden?
Auch Kleinunternehmer nutzen oft OCR, vor allem zur Erfassung ihrer Ausgaben.
Hier sollten Sie im Vorfeld die Qualität der jeweiligen Rechnung überprüfen und ggf. optimieren, um eine erfolgreiche Erfassung zu ermöglichen. Das Dokument sollte wenn möglich:
nicht gefaltet oder zerknittert sein,
einen starken Kontrast zwischen Schrift und Hintergrund aufweisen,
und keine Flecken, Markierungen (wie z.B. unterstrichene Wörter) oder Ähnliches haben.
Beim Abfotografieren eines Belegs sollte man weiterhin:
für gute Lichtverhältnisse sorgen,
die Kamera des Mobilgeräts gerade über das Papier halten,
und eine ruhige Hand behalten.
So erleichtern Sie sich Ihre Buchhaltung - auch ganz einfach unterwegs.