Freie OCR-Software von Google
Tesseract-Software wurde von Hewlett-Packard entwickelt
Google hat die OCR-Software Tesseract als Open Source freigegeben. Die ursprünglich von Hewlett-Packard entwickelte Software ist allerdings nur eine rohe Engine, kommt also ohne Benutzeroberfläche daher. Auch fehlen ihr einige Funktionen, Google plant jedoch, Tesseract weiter zu verbessern.
Die unter der Apache-Lizenz 2.0 veröffentlichte OCR-Engine (Optical Character Recognition) tauchte bereits vor einiger Zeit bei Slashdot auf, wurde aber erst jetzt von Google offiziell angekündigt. Tatsächlich handelt es sich dabei nicht einmal um die erste Veröffentlichung der Software als Open Source. OCR-Software wird zur elektronischen Texterkennung eingesetzt.
Vielmehr wurde Tesseract zwischen 1985 und 1995 von Hewlett-Packard entwickelt, die sich dann aber aus dem OCR-Geschäft zurückzogen. Also entschloss sich die Firma später, Tesseract zusammen mit der Universität Nevada als Open Source zu veröffentlichen. Dies geschah auch, die Universität bat Google aber um Hilfe bei einigen Fehlern.
Nach weiterer Arbeit an dem Programm erklärte Google die Software nun als stabil genug und veröffentlichte sie erneut. Tesseract ist dabei allerdings nur eine Engine, die ohne Benutzeroberfläche auskommt. Ferner unterstützt sie nur englische Dokumente und kann das Seiten-Layout nicht analysieren, was bei mehrspaltigen Texten zu Problemen führt. Bei Graustufen und Farben kommt es ebenfalls zu Problemen und die Software sei keinesfalls mit kommerziellen Lösungen vergleichbar, so Google.
Das Google Code Blog verweist aber gleich auf eine Stellenanzeige, mit der der Suchmaschinenanbieter OCR-Spezialisten sucht. Mit weiteren Verbesserungen der Software kann also gerechnet werden.
Tesseract 1.0 steht ab sofort bei Sourceforge zum Download bereit. Die Installation wird in der im Archiv enthaltenen Anleitung erklärt, zumindest auf Unix-Systemen sollte sich Tesseract kompilieren lassen.






naja, das ist relativ. z.B. ist gmail nicht mehrbenutzer fähig.
Du hast picasa, googletrends, gmail, google calendar, google newsarchiv, google notebook...
Recht hat er. Man kann dich ausspionieren. Es ist kein Geheimnis, dass einige Behörden...
wenn google daten über mich sammelt, dann vertraue ich darauf, dass sie damit nur die...
Kommentieren