Freie Texterkennung OCropus in erster Alpha veröffentlicht
Beta-Version ist für das erste Quartal 2008 geplant
Die freie Texterkennungssoftware OCropus wurde in einer ersten Alpha-Version veröffentlicht, die einige neue Funktionen enthält. Die Software wird von der Arbeitsgruppe "Bildverstehen und Mustererkennung" am Deutschen Forschungszentrum für künstliche Intelligenz im Auftrag von Google entwickelt.
OCropus kann in der Version 0.1 in eingescannten Dokumenten Bilder und Texte voneinander trennen und bringt verbesserte Testwerkzeuge mit. Zudem werden nun mehr Informationen zum Dokumentenlayout angezeigt. Darüber hinaus überarbeiteten die Entwickler ihren Quelltext, so dass dieser nun ordentlicher aufgebaut sein soll. Die Konfiguration und Skriptsteuerung erfolgt nun mit Lua.
Die Version 0.1 von OCropus lässt sich ab sofort bei Google Code herunterladen. Während die Version 0.1 weiter gepflegt wird, gelangen neue Entwicklungen ab sofort in die Version 0.2. Das Ergebnis soll die erste Beta-Version sein, die im ersten Quartal 2008 erwartet wird. Nützliche neue Funktionen werden unter Umständen auf die Version 0.1 zurückportiert.
Das Projekt OCropus soll letztlich zu einer OCR-Software zur Dokumentenerfassung, für elektronische Bibliotheken, zur Unterstützung von Sehbehinderten sowie zur Analyse historischer Dokumente führen. Es basiert auf Tesseract und einer Methode zur Layout-Analyse. Die Software wird unter der Apache-Lizenz 2.0 veröffentlicht.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
... naja, unter Windows würde auch niemand auf die Idee kommen, dieses Programm zu...
bei meinen Texten war die Erkennungsrate recht hoch, allerdings hab ich auch nur schnell...