Freie Texterkennung erzeugt durchsuchbare PDF-Dateien
Archivierungssoftware ArchivistaBox 2008/IX veröffentlicht
Die Schweizer Firma Archivista hat die neue Version ihrer webbasierten Open-Source-Archivierungslösung "ArchivistaBox" veröffentlicht. Die neue Version kann durchsuchbare PDF-Dateien erzeugen.
ArchivistaBox ist eine Open-Source-Archivierungslösung, die Funktionen wie verlustfreies Drehen von JPEG-Bildern unterstützt und über einen Ajax-Webclient bedient wird. Die Bilddaten berechnet die Software für die Bildschirmgröße neu und gibt Schwarz-Weiß-TIFF-Bilder als 2-Bit-Graustufenbilder im PNG-Format aus, da nach Aussage von Archivista aktuelle Browser Schwarz-Weiß-Bilder nicht optimal darstellen. Schon länger gehört auch eine freie Texterkennung zum Umfang der Software.
Die neue Version 2008/IX kann gescannte Seiten nun in durchsuchbare PDF-Dateien exportieren. Mehr als 20 Sprachen werden unterstützt. Nach Angaben von Archivista soll die Erkennungsquote über 99 Prozent liegen.
Die erzeugten PDF-Dateien legt die Software direkt in einer Datenbank ab und versieht sie mit Schlagworten. So lässt sich im Dokumentenbestand suchen. Die Dokumente lassen sich über den Browser abrufen, wobei Daten auch verschlüsselt werden können.
Die ArchivistaBox wird unter der GPLv2 veröffentlicht. Die Texterkennung übernehmen Tesseract (Apache-Lizenz) oder Cuneiform (BSD-Lizenz). Die PDF-Dateien werden mit hocr2pdf von Exactcode erzeugt. Die 700 MByte große Installations-CD steht bei Sourceforge zum Download bereit.






Wozu andere freie OCR Software? Funktioniert die Vorgestellte nicht so wie du sie brauchst?
FREE-OCR funzt ganz gut! Für die Erkennung deutscher Texte mit Umlauten sollte man aber...
Die Angabe ist sowieso ziemlich vage. Es könnte ebenso gut "jedes hundertste Wort wird...
ocrad, clara
99% ist schlecht - jedes hundertste Zeichen im Eimer ergibt eine Menge zu korrigieren bei...
Kommentieren