OCRopus: Deutsche Forscher entwickeln freie OCRs für Google
Software basiert unter anderem auf Tesseract
Im Auftrag von Google arbeitet die Arbeitsgruppe "Bildverstehen und Mustererkennung" um Prof. Dr. Thomas Breuel am Deutschen Forschungszentrum für künstliche Intelligenz an einem neuen OCR-System. Nun wurde eine erste Vorabversion der OCRopus genannten Texterkennung veröffentlicht. Auch eine Desktop-Applikation auf Basis von OCRopus ist geplant.
Ziel des Projekts OCRopus ist es, eine OCR-Software zur Dokumentenerfassung, für elektronische Bibliotheken, zur Unterstützung von Sehbehinderten sowie zur Analyse historischer Dokumente zu schaffen. Zudem soll die Software für den gewöhnlichen Desktop-Einsatz geeignet sein und sich leicht von anderen Wissenschaftlern für ihre Zwecke anpassen lassen.
Die OCRopus-Engine basiert dabei auf zwei Forschungsprojekten: zum einen auf der Handschriften-Erkennung Tesseract, die Mitte der 90er-Jahre entwickelt und vom US Census Bureau (Statisitkamt) genutzt wurde. Google hatte die Software im September 2006 bereits als Open Source freigegeben. Zum anderen kommt eine recht leistungsfähige Methode zur Layout-Analyse zum Einsatz, kann Tesseract das Layout von Dokumenten doch nicht analysieren.
Das OCRopus-Projekt soll über drei Jahre laufen und drei Doktoranden finanzieren. Eine Vorabversion der Software steht via SVN zum Download bereit, allerdings nur für Dokumente in englischer Sprache. Lizenziert ist sie unter der Apache-Lizenz in der Version 2.0. Entwickelt wird die Software zunächst unter Ubuntu Linux, sollte aber auch auf anderen Linux-Distributionen nutzbar sein.
Künftig sollen weitere Sprachen unterstützt und zusätzliche Zeichenerkennungssysteme integriert werden. Zudem soll es eine Desktop-Applikation für Gnome geben und die Texterkennung in die Desktop-Suche von Gnome integriert werden. Google verspricht, diese Arbeiten auch weiterhin als Open Source zur Verfügung zu stellen.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed







Ja, selbstverständlich sind Computerspiele nur für Jungendlich unter 16 Jahren zu...
Google gibt Geld für die deutsche Forschung und finanziert ein open source Projekt, das...