• IT-Karriere:
  • Services:

Freie OCR-Software von Google

Tesseract-Software wurde von Hewlett-Packard entwickelt

Google hat die OCR-Software Tesseract als Open Source freigegeben. Die ursprünglich von Hewlett-Packard entwickelte Software ist allerdings nur eine rohe Engine, kommt also ohne Benutzeroberfläche daher. Auch fehlen ihr einige Funktionen, Google plant jedoch, Tesseract weiter zu verbessern.

Artikel veröffentlicht am , Julius Stiebert

Die unter der Apache-Lizenz 2.0 veröffentlichte OCR-Engine (Optical Character Recognition) tauchte bereits vor einiger Zeit bei Slashdot auf, wurde aber erst jetzt von Google offiziell angekündigt. Tatsächlich handelt es sich dabei nicht einmal um die erste Veröffentlichung der Software als Open Source. OCR-Software wird zur elektronischen Texterkennung eingesetzt.

Stellenmarkt
  1. Actian Germany GmbH, Hamburg
  2. Ecoclean GmbH, Monschau, Filderstadt

Vielmehr wurde Tesseract zwischen 1985 und 1995 von Hewlett-Packard entwickelt, die sich dann aber aus dem OCR-Geschäft zurückzogen. Also entschloss sich die Firma später, Tesseract zusammen mit der Universität Nevada als Open Source zu veröffentlichen. Dies geschah auch, die Universität bat Google aber um Hilfe bei einigen Fehlern.

Nach weiterer Arbeit an dem Programm erklärte Google die Software nun als stabil genug und veröffentlichte sie erneut. Tesseract ist dabei allerdings nur eine Engine, die ohne Benutzeroberfläche auskommt. Ferner unterstützt sie nur englische Dokumente und kann das Seiten-Layout nicht analysieren, was bei mehrspaltigen Texten zu Problemen führt. Bei Graustufen und Farben kommt es ebenfalls zu Problemen und die Software sei keinesfalls mit kommerziellen Lösungen vergleichbar, so Google.

Das Google Code Blog verweist aber gleich auf eine Stellenanzeige, mit der der Suchmaschinenanbieter OCR-Spezialisten sucht. Mit weiteren Verbesserungen der Software kann also gerechnet werden.

Tesseract 1.0 steht ab sofort bei Sourceforge zum Download bereit. Die Installation wird in der im Archiv enthaltenen Anleitung erklärt, zumindest auf Unix-Systemen sollte sich Tesseract kompilieren lassen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Top-Angebote
  1. (Spiele bis zu 90% reduziert)
  2. ab 30,00€
  3. (aktuell u. a. Xiaomi Mi Note 10 128GB Handy für 499,00€ und HP 25x LED-Monitor für 179,90€)

blablab 19. Mai 2008

naja, das ist relativ. z.B. ist gmail nicht mehrbenutzer fähig.

Dr.M.D.Naddaf 19. Mai 2008

asdfghjklöä 05. Sep 2006

Mal ganz abgesehen davon das google eventuell das böseste etwas der Welt sein könnte und...

Jörg Dennis Krüger 05. Sep 2006

Auch zu Stasi-Zeiten gab es schon recht gute OCR-Software. Aber die hatten wohl nicht die...


Folgen Sie uns
       


HP Pavilion Gaming 15 - Fazit

Das Pavilion Gaming 15 ist für 1.000 Euro ein gut ausgestattetes und durchaus flottes Spiele-Notebook.

HP Pavilion Gaming 15 - Fazit Video aufrufen
Videospiellokalisierung: Lost in Translation
Videospiellokalisierung
Lost in Translation

Damit Videospiele in möglichst viele Länder verkauft werden können, müssen sie übersetzt beziehungsweise lokalisiert werden. Ein kniffliger Job, denn die Textdatei eines Games hat oft auf den ersten Blick keine logische Struktur - dafür aber Hunderte Seiten.
Von Nadine Emmerich

  1. Spielebranche Entwickler können bis 2023 mit Millionenförderung rechnen
  2. Planet Zoo im Test Tierische Tüftelei
  3. Förderung Spielentwickler sollen 2020 nur einen "Ausgaberest" bekommen

Social Engineering: Die Mitarbeiter sind unsere Verteidigung
Social Engineering
"Die Mitarbeiter sind unsere Verteidigung"

Prävention reicht nicht gegen Social Engineering und die derzeitigen Trainings sind nutzlos, sagt der Sophos-Sicherheitsexperte Chester Wisniewski. Seine Lösung: Mitarbeiter je nach Bedrohungslevel schulen - und so schneller sein als die Kriminellen.
Ein Interview von Moritz Tremmel

  1. Social Engineering Mit künstlicher Intelligenz 220.000 Euro erbeutet
  2. Social Engineering Die unterschätzte Gefahr

Indiegames-Rundschau: Der letzte Kampf des alten Cops
Indiegames-Rundschau
Der letzte Kampf des alten Cops

Rollenspiel deluxe mit einem abgehalfterten Polizisten in Disco Elysium, unmöglich-verdrehte Architektur in Manifold Garden und eine höllische Feier in Afterparty: Golem.de stellt die aktuellen Indiegames vor.
Von Rainer Sigl

  1. Indiegames-Rundschau Killer trifft Gans
  2. Indiegames-Rundschau Überleben im Dschungel und tausend Tode im Dunkeln
  3. Indiegames-Rundschau Epische ASCII-Abenteuer und erlebnishungrige Astronauten

    •  /