OCRopus: Deutsche Forscher entwickeln freie OCRs für Google
Ziel des Projekts OCRopus(öffnet im neuen Fenster) ist es, eine OCR-Software zur Dokumentenerfassung, für elektronische Bibliotheken, zur Unterstützung von Sehbehinderten sowie zur Analyse historischer Dokumente zu schaffen. Zudem soll die Software für den gewöhnlichen Desktop-Einsatz geeignet sein und sich leicht von anderen Wissenschaftlern für ihre Zwecke anpassen lassen.
Die OCRopus-Engine basiert dabei auf zwei Forschungsprojekten: zum einen auf der Handschriften-Erkennung Tesseract , die Mitte der 90er-Jahre entwickelt und vom US Census Bureau (Statisitkamt) genutzt wurde. Google hatte die Software im September 2006 bereits als Open Source freigegeben. Zum anderen kommt eine recht leistungsfähige Methode zur Layout-Analyse zum Einsatz, kann Tesseract das Layout von Dokumenten doch nicht analysieren.
Das OCRopus-Projekt soll über drei Jahre laufen und drei Doktoranden finanzieren. Eine Vorabversion der Software steht via SVN zum Download bereit, allerdings nur für Dokumente in englischer Sprache. Lizenziert ist sie unter der Apache-Lizenz in der Version 2.0. Entwickelt wird die Software zunächst unter Ubuntu Linux, sollte aber auch auf anderen Linux-Distributionen nutzbar sein.
Künftig sollen weitere Sprachen unterstützt und zusätzliche Zeichenerkennungssysteme integriert werden. Zudem soll es eine Desktop-Applikation für Gnome geben und die Texterkennung in die Desktop-Suche von Gnome integriert werden. Google verspricht, diese Arbeiten auch weiterhin als Open Source zur Verfügung zu stellen.



