Zum Hauptinhalt Zur Navigation

Freie OCR-Software von Google

Tesseract-Software wurde von Hewlett-Packard entwickelt. Google hat die OCR-Software Tesseract als Open Source freigegeben. Die ursprünglich von Hewlett-Packard entwickelte Software ist allerdings nur eine rohe Engine, kommt also ohne Benutzeroberfläche daher. Auch fehlen ihr einige Funktionen, Google plant jedoch, Tesseract weiter zu verbessern.
/ Julius Stiebert
40 Kommentare News folgen (öffnet im neuen Fenster)

Die unter der Apache-Lizenz 2.0 veröffentlichte OCR-Engine (Optical Character Recognition) tauchte bereits vor einiger Zeit bei Slashdot auf, wurde aber erst jetzt von Google offiziell angekündigt. Tatsächlich handelt es sich dabei nicht einmal um die erste Veröffentlichung der Software als Open Source. OCR-Software wird zur elektronischen Texterkennung eingesetzt.

Vielmehr wurde Tesseract zwischen 1985 und 1995 von Hewlett-Packard entwickelt, die sich dann aber aus dem OCR-Geschäft zurückzogen. Also entschloss sich die Firma später, Tesseract zusammen mit der Universität Nevada(öffnet im neuen Fenster) als Open Source zu veröffentlichen. Dies geschah auch, die Universität bat Google aber um Hilfe bei einigen Fehlern.

Nach weiterer Arbeit an dem Programm erklärte Google die Software nun als stabil genug und veröffentlichte sie erneut. Tesseract ist dabei allerdings nur eine Engine, die ohne Benutzeroberfläche auskommt. Ferner unterstützt sie nur englische Dokumente und kann das Seiten-Layout nicht analysieren, was bei mehrspaltigen Texten zu Problemen führt. Bei Graustufen und Farben kommt es ebenfalls zu Problemen und die Software sei keinesfalls mit kommerziellen Lösungen vergleichbar, so Google.

Das Google Code Blog(öffnet im neuen Fenster) verweist aber gleich auf eine Stellenanzeige, mit der der Suchmaschinenanbieter OCR-Spezialisten sucht. Mit weiteren Verbesserungen der Software kann also gerechnet werden.

Tesseract 1.0 steht ab sofort bei Sourceforge(öffnet im neuen Fenster) zum Download bereit. Die Installation wird in der im Archiv enthaltenen Anleitung erklärt, zumindest auf Unix-Systemen sollte sich Tesseract kompilieren lassen.


Relevante Themen