OCR (Texterkennung)

OCR steht für „Optical Character Recognition“, also die optische Zeichenerkennung, sie wird auf deutsch Texterkennung genannt. OCR wird benutzt, wenn eingescannte oder abfotografierte Dokumente maschinell weiterverarbeitet werden sollen. Die Aufgabe eines OCR-Programmes ist es, in der Ansammlung von Bildpunkten eines digitalen Bildes, das als PDF, JPG, PNG, o.a. vorliegt, den Original-Text wiederzuerkennen. Diese Aufgabe ist sehr rechenintensiv und in mehrere Teilaufgaben unterteilt, von der Layoutanalyse über die eigentliche Zeichenerkennung bis zum Zusammenfügen der Zeichen zu Wörtern und ganzen Sätzen. Dank dieser Technologie können wir jede PDF-Datei, also auch Scans, in Text umwandeln, der bearbeitet oder durchsucht werden kann.