Abo
  • Services:

Freie OCR-Software von Google

Tesseract-Software wurde von Hewlett-Packard entwickelt

Google hat die OCR-Software Tesseract als Open Source freigegeben. Die ursprünglich von Hewlett-Packard entwickelte Software ist allerdings nur eine rohe Engine, kommt also ohne Benutzeroberfläche daher. Auch fehlen ihr einige Funktionen, Google plant jedoch, Tesseract weiter zu verbessern.

Artikel veröffentlicht am , Julius Stiebert

Die unter der Apache-Lizenz 2.0 veröffentlichte OCR-Engine (Optical Character Recognition) tauchte bereits vor einiger Zeit bei Slashdot auf, wurde aber erst jetzt von Google offiziell angekündigt. Tatsächlich handelt es sich dabei nicht einmal um die erste Veröffentlichung der Software als Open Source. OCR-Software wird zur elektronischen Texterkennung eingesetzt.

Stellenmarkt
  1. Software AG, Darmstadt
  2. SSA SoftSolutions GmbH, Augsburg

Vielmehr wurde Tesseract zwischen 1985 und 1995 von Hewlett-Packard entwickelt, die sich dann aber aus dem OCR-Geschäft zurückzogen. Also entschloss sich die Firma später, Tesseract zusammen mit der Universität Nevada als Open Source zu veröffentlichen. Dies geschah auch, die Universität bat Google aber um Hilfe bei einigen Fehlern.

Nach weiterer Arbeit an dem Programm erklärte Google die Software nun als stabil genug und veröffentlichte sie erneut. Tesseract ist dabei allerdings nur eine Engine, die ohne Benutzeroberfläche auskommt. Ferner unterstützt sie nur englische Dokumente und kann das Seiten-Layout nicht analysieren, was bei mehrspaltigen Texten zu Problemen führt. Bei Graustufen und Farben kommt es ebenfalls zu Problemen und die Software sei keinesfalls mit kommerziellen Lösungen vergleichbar, so Google.

Das Google Code Blog verweist aber gleich auf eine Stellenanzeige, mit der der Suchmaschinenanbieter OCR-Spezialisten sucht. Mit weiteren Verbesserungen der Software kann also gerechnet werden.

Tesseract 1.0 steht ab sofort bei Sourceforge zum Download bereit. Die Installation wird in der im Archiv enthaltenen Anleitung erklärt, zumindest auf Unix-Systemen sollte sich Tesseract kompilieren lassen.



Anzeige
Hardware-Angebote
  1. täglich neue Deals bei Alternate.de
  2. (Neuware für kurze Zeit zum Sonderpreis bei Mindfactory)

blablab 19. Mai 2008

naja, das ist relativ. z.B. ist gmail nicht mehrbenutzer fähig.

Dr.M.D.Naddaf 19. Mai 2008

asdfghjklöä 05. Sep 2006

Mal ganz abgesehen davon das google eventuell das böseste etwas der Welt sein könnte und...

Jörg Dennis Krüger 05. Sep 2006

Auch zu Stasi-Zeiten gab es schon recht gute OCR-Software. Aber die hatten wohl nicht die...


Folgen Sie uns
       


Asus ROG Phone - Hands On auf der Computex 2018

Das ROG ist ein interessantes Konzept, das sich schon beim an Gamer gerichteten Design von anderen Telefonen unterscheidet. Außergewöhnlich sind die vielen Zubehörteile: darunter ein Handheld-Adapter, ein Desktop-Dock, ein Anstecklüfter und ein Controllermodul. Wir haben es uns angeschaut.

Asus ROG Phone - Hands On auf der Computex 2018 Video aufrufen
Elektromobilität: Regierung bremst bei Anspruch auf private Ladesäulen
Elektromobilität
Regierung bremst bei Anspruch auf private Ladesäulen

Die Anschaffung eines Elektroautos scheitert häufig an der fehlenden Lademöglichkeit am heimischen Parkplatz. Doch die Bundesregierung will vorerst keinen eigenen Gesetzesentwurf für einen Anspruch von Wohnungseigentümern und Mietern vorlegen.
Ein Bericht von Friedhelm Greis

  1. ID Buzz und Crozz Volkswagen will Elektroautos in den USA bauen
  2. PFO Pininfarina plant Elektrosupersportwagen mit 400 km/h
  3. Einride Holzlaster T-Log fährt im Wald elektrisch und autonom

Segelschiff: Das Vindskip steckt in der Flaute
Segelschiff
Das Vindskip steckt in der Flaute

Hochseeschiffe gelten als große Umweltverschmutzer. Neue saubere Antriebe sind gefragt. Der Norweger Terje Lade hat ein futuristisches Segelschiff entwickelt. Doch solch ein neuartiges Konzept umzusetzen, ist nicht so einfach.
Ein Bericht von Werner Pluta

  1. Energy Observer Toyota unterstützt Weltumrundung von Brennstoffzellenschiff
  2. Hyseas III Schottische Werft baut Hochseefähre mit Brennstoffzelle
  3. Kreuzschifffahrt Wie Brennstoffzellen Schiffe sauberer machen

Razer Huntsman im Test: Rattern mit Infrarot
Razer Huntsman im Test
Rattern mit Infrarot

Razers neue Gaming-Tastatur heißt Huntsman, eine klare Andeutung, für welchen Einsatzzweck sie sich eignen soll. Die neuen optomechanischen Switches reagieren schnell und leichtgängig - der Geräuschpegel dürfte für viele Nutzer aber gewöhnungsbedürftig sein.
Ein Test von Tobias Költzsch

  1. Huntsman Razer präsentiert Tastatur mit opto-mechanischen Switches
  2. Razer Abyssus Essential Symmetrische Gaming-Maus für Einsteiger
  3. Razer Nommo Chroma im Test Blinkt viel, klingt weniger

    •  /