Zum Hauptinhalt Zur Navigation

OCRopus: Deutsche Forscher entwickeln freie OCRs für Google

Software basiert unter anderem auf Tesseract. Im Auftrag von Google arbeitet die Arbeitsgruppe " Bildverstehen und Mustererkennung(öffnet im neuen Fenster) " um Prof. Dr. Thomas Breuel am Deutschen Forschungszentrum für künstliche Intelligenz an einem neuen OCR-System. Nun wurde eine erste Vorabversion der OCRopus genannten Texterkennung veröffentlicht. Auch eine Desktop-Applikation auf Basis von OCRopus ist geplant.
/ Jens Ihlenfeld
7 Kommentare News folgen (öffnet im neuen Fenster)

Ziel des Projekts OCRopus(öffnet im neuen Fenster) ist es, eine OCR-Software zur Dokumentenerfassung, für elektronische Bibliotheken, zur Unterstützung von Sehbehinderten sowie zur Analyse historischer Dokumente zu schaffen. Zudem soll die Software für den gewöhnlichen Desktop-Einsatz geeignet sein und sich leicht von anderen Wissenschaftlern für ihre Zwecke anpassen lassen.

Die OCRopus-Engine basiert dabei auf zwei Forschungsprojekten: zum einen auf der Handschriften-Erkennung Tesseract , die Mitte der 90er-Jahre entwickelt und vom US Census Bureau (Statisitkamt) genutzt wurde. Google hatte die Software im September 2006 bereits als Open Source freigegeben. Zum anderen kommt eine recht leistungsfähige Methode zur Layout-Analyse zum Einsatz, kann Tesseract das Layout von Dokumenten doch nicht analysieren.

Das OCRopus-Projekt soll über drei Jahre laufen und drei Doktoranden finanzieren. Eine Vorabversion der Software steht via SVN zum Download bereit, allerdings nur für Dokumente in englischer Sprache. Lizenziert ist sie unter der Apache-Lizenz in der Version 2.0. Entwickelt wird die Software zunächst unter Ubuntu Linux, sollte aber auch auf anderen Linux-Distributionen nutzbar sein.

Künftig sollen weitere Sprachen unterstützt und zusätzliche Zeichenerkennungssysteme integriert werden. Zudem soll es eine Desktop-Applikation für Gnome geben und die Texterkennung in die Desktop-Suche von Gnome integriert werden. Google verspricht, diese Arbeiten auch weiterhin als Open Source zur Verfügung zu stellen.


Relevante Themen