Freie OCR-Software von Google

Tesseract-Software wurde von Hewlett-Packard entwickelt

Google hat die OCR-Software Tesseract als Open Source freigegeben. Die ursprünglich von Hewlett-Packard entwickelte Software ist allerdings nur eine rohe Engine, kommt also ohne Benutzeroberfläche daher. Auch fehlen ihr einige Funktionen, Google plant jedoch, Tesseract weiter zu verbessern.

Anzeige

Die unter der Apache-Lizenz 2.0 veröffentlichte OCR-Engine (Optical Character Recognition) tauchte bereits vor einiger Zeit bei Slashdot auf, wurde aber erst jetzt von Google offiziell angekündigt. Tatsächlich handelt es sich dabei nicht einmal um die erste Veröffentlichung der Software als Open Source. OCR-Software wird zur elektronischen Texterkennung eingesetzt.

Vielmehr wurde Tesseract zwischen 1985 und 1995 von Hewlett-Packard entwickelt, die sich dann aber aus dem OCR-Geschäft zurückzogen. Also entschloss sich die Firma später, Tesseract zusammen mit der Universität Nevada als Open Source zu veröffentlichen. Dies geschah auch, die Universität bat Google aber um Hilfe bei einigen Fehlern.

Nach weiterer Arbeit an dem Programm erklärte Google die Software nun als stabil genug und veröffentlichte sie erneut. Tesseract ist dabei allerdings nur eine Engine, die ohne Benutzeroberfläche auskommt. Ferner unterstützt sie nur englische Dokumente und kann das Seiten-Layout nicht analysieren, was bei mehrspaltigen Texten zu Problemen führt. Bei Graustufen und Farben kommt es ebenfalls zu Problemen und die Software sei keinesfalls mit kommerziellen Lösungen vergleichbar, so Google.

Das Google Code Blog verweist aber gleich auf eine Stellenanzeige, mit der der Suchmaschinenanbieter OCR-Spezialisten sucht. Mit weiteren Verbesserungen der Software kann also gerechnet werden.

Tesseract 1.0 steht ab sofort bei Sourceforge zum Download bereit. Die Installation wird in der im Archiv enthaltenen Anleitung erklärt, zumindest auf Unix-Systemen sollte sich Tesseract kompilieren lassen.


blablab 19. Mai 2008

naja, das ist relativ. z.B. ist gmail nicht mehrbenutzer fähig.

Dr.M.D.Naddaf 19. Mai 2008

Sicaine 06. Sep 2006

Du hast picasa, googletrends, gmail, google calendar, google newsarchiv, google notebook...

davar 05. Sep 2006

Recht hat er. Man kann dich ausspionieren. Es ist kein Geheimnis, dass einige Behörden...

AlgorithMan 05. Sep 2006

wenn google daten über mich sammelt, dann vertraue ich darauf, dass sie damit nur die...

Kommentieren


Entwickler Blog / 05. Sep 2006

Google gibt OCR-Software frei



Anzeige
  1. Projekt- / Softwareingenieur (m/w) Manufacturing Execution Systems (MES)
    Brückner Servtec, Siegsdorf
  2. Consultant Finance Processes & Applications (m/w)
    Fresenius Netcare GmbH, Bad Homburg
  3. Java / J2EE Softwareentwickler (m/w)
    Commerz Finanz GmbH, München
  4. Wissenschaftliche/r Mitarbeiterin / Mitarbeiter
    Universität Passau, Passau

 

Detailsuche


Folgen Sie uns
       


Meistgelesen
  1. Gema-Vermerk

    Youtube sperrt irrtümlich Acta-Video von Bruno Kramm

  2. IBM-Mainframe

    Nasa schaltet letzten Großrechner ab

  3. Spielebranche

    Diskussion über "stinkende Gamer"

  4. Samsung Galaxy Tab 2

    7-Zoll-Tablet mit Android 4.0 und Glonass-Unterstützung

  5. Tablet-Nachfolger

    iPad-3-Teile aufgetaucht


Meistkommentiert
  1. Kommentare: 270 | letzter Beitrag 13.02. 23:28

  2. Kommentare: 189 | letzter Beitrag 08:18 Uhr

  3. Kommentare: 178 | letzter Beitrag 13.02. 22:01

  4. Kommentare: 116 | letzter Beitrag 13.02. 18:47

  5. Kommentare: 96 | letzter Beitrag 13.02. 16:40

Mehr


  1. Eye-Tracking

    Bewegungsabhängige Bildschirmoberfläche von Apple

  2. Linux-Handbuch

    Umfassendes Nachschlagewerk als Openbook erhältlich

  3. Samsung

    Fernseher mit Gesichtserkennung für Zuschauer

  4. Tablet-Nachfolger

    iPad-3-Teile aufgetaucht

  5. Jugendschutz

    Filtersoftware von Jusprog und Telekom staatlich anerkannt

  6. Gema-Vermerk

    Youtube sperrt irrtümlich Acta-Video von Bruno Kramm

  7. Deutsche Post

    Zusatzfunktionen beim E-Postbrief dauern länger

  8. Gnome

    Neue Spezifikation für Fensterlayout

  9. Samsung Galaxy Tab 2

    7-Zoll-Tablet mit Android 4.0 und Glonass-Unterstützung

  10. IBM-Mainframe

    Nasa schaltet letzten Großrechner ab



Haben wir etwas übersehen?

E-Mail an news@golem.de


Test X-Plane 10: Flugsimulator mit Openstreetmap und vielen Rechnern
Test X-Plane 10
Flugsimulator mit Openstreetmap und vielen Rechnern

Ernsthafte Flugsimulationen gibt es kaum noch. Eine der letzten verbliebenen ist X-Plane 10 für Windows, Mac OS X und Linux. Golem.de hat sich ins virtuelle Cockpit gesetzt und den Flugsimulator mit mehreren Rechnern und iPads als Instrumente gespielt.


IMHO: Windows 8 - Microsofts Befreiungsschlag
IMHO
Windows 8 - Microsofts Befreiungsschlag

"Windows Reimagined", so bezeichnet Microsoft Windows 8. Es ist die größte Veränderung von Microsofts Betriebssystem seit Windows 95 und soll mit neuem UI und dem neuen API WinRT zum großen Befreiungsschlag für Microsoft werden.

  1. Beta Consumer Preview von Windows 8 am 29. Februar 2012
  2. Windows Explorer Windows 8 Beta mit weiteren Verbesserungen
  3. Sensor-Fusion Windows 8 soll Sensornutzung vereinfachen

Origami: Roboteraktoren nach dem Vorbild japanischer Faltkunst
Origami
Roboteraktoren nach dem Vorbild japanischer Faltkunst

Softbots sind biegsame Roboter aus Kunststoff. US-Wissenschaftler geben ihnen mehr Form, indem sie traditionelle japanische Papierfalttechniken anwenden.

  1. Transportroboter Darpa testet Alpha Dog im Gelände
  2. Smartphone-Roboter Romotive wirbt 1,5 Millionen US-Dollar für Romo ein
  3. Umfrage Roboter sollen schleppen, aufpassen, Fenster putzen

Zum Artikel