Irgendwann ist Texterkennung (engl. OCR) ein Hightechthema. Inzwischen liegen entsprechende Programme fast jedem Scanner ohne Aufpreis bei. Obwohl ich einen leistungsfähigen Scanner habe, habe ich solche Software nicht installiert, weil ich sie einfach zu selten benötige. Doch gerade bittet mich mein Vater einen alten Artikel fürs Archiv zu scannen und ärgert sich, daß er den Text wohl noch abtippen müsse.
Einer geübten Schreibkraft ringen 60 Zeilen Texterfassung nur ein müdes Lächeln ab, aber Texte abschreiben können nur einige Journalisten. — Wie dem auch sei, da gibt’s bestimmt auch was im Internet. Nach Google und zwei Blogempfehlungen stoße ich auf die Website “Free OCR“.
Es handelt sich um eine Online-Texterkennung. Dabei wird ein gescannter Text als “Bilddatei” hochgeladen und in Text verwandelt. Auf dieser Website werden PDF, JPG, GIF, TIFF und BMP als Input akzeptiert (max. 2 Megabyte), das Ergebnis wird in einem Textfeld auf der Seite ausgegeben und muß dann via
Klemmbrett (auch Zwischenablage oder Clipboard) in eine Textverarbeitung kopiert werden.
Texterkennung online.
Obwohl es sicher noch eine Menge anderer Anbieter gibt, probiere ich “Free OCR” aus, weil es eine Spracheinstellung zuläßt. Dies ist nötig, um deutsche Sonderzeichen erkennen zu können: damit also beispielsweise die Pünktchen auf dem “ü” nicht als “Fliegenschiß” ignoriert werden. — Andere Texterkennungen nutzen die Sprachinformation außerdem zum Abgleich mit einem entsprechenden Wörterbuch, was manchmal die Trefferquote erhöht, bei Übereifer aber auch zu unsinnigen Resultaten führt.
Die Erkennung von Free OCR bei der Buchstaben ist sehr gut, lediglich mit “m” und “rn” steht das Programm auf Kriegsfuß. Außerdem muß der zweispaltige Text
geteilt werden, weil sie sonst zeilenweise zusammengesetzt werden.
Das Ergebnis der Texterkennung.
Das Ergebnis zeigt auch Schwächen für die das Programm nichts kann und die OCR m. E. wenig effektiv machen: Die vielen Trennzeichen im Spaltensatz werden zwar richtig erkannt, müssen aber zur weiteren Verwendung des Textes von Hand entfernt werden. Das ist nur bedingt automatisch machbar, um nicht versehentlich Kopplungen und Gedankenstriche mit zu tilgen. Darüber hinaus wird aus manchen Pünktchen des etwas groben Zeitungsdrucks doch noch zum Akzent gemacht.
Fazit: Ein interessantes Experiment, aber auf Grund der generellen Schwächen einer OCR nur bei speziellen Texten effektiv, z. B. Buchseiten mit wenigen oder keinen Trennzeichen und möglichst ohne grafisches Beiwerk.
Tipp: Die Inputdatei sollte mit 200 bis 300 dpi gescannt und anschließend in “schwarzweiß” umgewandelt werden. Grafiken, Schmucklinien und Flecken/Pünktchen sollte man vorher ebenfalls entfernen.
[Update]
Unter OnOCR gibt es noch ein deutsche Website des Anbieters. Die Erkennungsrate ist aber identisch.
Kurzinfo
- Mit dem Onlinedienst “Free OCR” kann man Texte aus gescannten Vorlagen erkennen lassen und sich so das Abtippen ersparen. Je nach Art der Vorlage ist allerdings noch etwas Nachbearbeitung notwendig.
- Autor: T. Reinhardt | Sprache: englisch (deutsch) u. a. | online | Lizenz: Opensource / freie Benutzung | Homepage: http://t-reinhardt.ch/
One Comment
Your must be logged in to comment.
10.22 on August 16th, 2009
[...] SoftHelp » Blog Archive » Texterkennung online [...]