Freie Texterkennung erzeugt durchsuchbare PDF-Dateien

Archivierungssoftware ArchivistaBox 2008/IX veröffentlicht

Die Schweizer Firma Archivista hat die neue Version ihrer webbasierten Open-Source-Archivierungslösung "ArchivistaBox" veröffentlicht. Die neue Version kann durchsuchbare PDF-Dateien erzeugen.

Artikel veröffentlicht am , Julius Stiebert

ArchivistaBox ist eine Open-Source-Archivierungslösung, die Funktionen wie verlustfreies Drehen von JPEG-Bildern unterstützt und über einen Ajax-Webclient bedient wird. Die Bilddaten berechnet die Software für die Bildschirmgröße neu und gibt Schwarz-Weiß-TIFF-Bilder als 2-Bit-Graustufenbilder im PNG-Format aus, da nach Aussage von Archivista aktuelle Browser Schwarz-Weiß-Bilder nicht optimal darstellen. Schon länger gehört auch eine freie Texterkennung zum Umfang der Software.

Stellenmarkt
  1. Technischer Consultant - IT (m/w/d)
    Diamant Software GmbH, Bielefeld
  2. Informatikerin / Informatiker (m/w/d)
    Bundeskriminalamt, Wiesbaden
Detailsuche

Die neue Version 2008/IX kann gescannte Seiten nun in durchsuchbare PDF-Dateien exportieren. Mehr als 20 Sprachen werden unterstützt. Nach Angaben von Archivista soll die Erkennungsquote über 99 Prozent liegen.

Die erzeugten PDF-Dateien legt die Software direkt in einer Datenbank ab und versieht sie mit Schlagworten. So lässt sich im Dokumentenbestand suchen. Die Dokumente lassen sich über den Browser abrufen, wobei Daten auch verschlüsselt werden können.

Die ArchivistaBox wird unter der GPLv2 veröffentlicht. Die Texterkennung übernehmen Tesseract (Apache-Lizenz) oder Cuneiform (BSD-Lizenz). Die PDF-Dateien werden mit hocr2pdf von Exactcode erzeugt. Die 700 MByte große Installations-CD steht bei Sourceforge zum Download bereit.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Texter 22. Sep 2008

Wozu andere freie OCR Software? Funktioniert die Vorgestellte nicht so wie du sie brauchst?

Krczmrtr 22. Sep 2008

Die Angabe ist sowieso ziemlich vage. Es könnte ebenso gut "jedes hundertste Wort wird...

archinutzer 20. Sep 2008

Als Server steckt heute aber Hi Urs, das meinte ich, früher lief der Server ja lokal auf...



Aktuell auf der Startseite von Golem.de
Cloud-Ausfall
Eine AWS-Region als Single Point of Failure

Ein stundenlanger Ausfall der AWS-Cloud legte zentrale Dienste und sogar Amazon selbst teilweise lahm. Das zeigt die Grenzen der Cloud-Versprechen.
Ein Bericht von Sebastian Grüner

Cloud-Ausfall: Eine AWS-Region als Single Point of Failure
Artikel
  1. Ampelkoalition: Das Verkehrsministerium wird zum Digitalministerium
    Ampelkoalition
    Das Verkehrsministerium wird zum Digitalministerium

    Aus dem geplanten Ministerium für Verkehr und Digitales wird ein Ministerium für Digitales und Verkehr. Minister Wissing erhält zusätzliche Kompetenzen.

  2. Bundesnetzagentur: 30 Messungen an drei unterschiedlichen Kalendertagen
    Bundesnetzagentur
    30 Messungen an drei unterschiedlichen Kalendertagen

    Die Bundesnetzagentur hat festgelegt, wann der Netzbetreiber/Provider den Vertrag nicht erfüllt. Es muss viel gemessen werden.

  3. Euro NCAP: Renault Zoe mit katastrophalem Crash-Ergebnis
    Euro NCAP
    Renault Zoe mit katastrophalem Crash-Ergebnis

    Mit dem Renault Zoe sollte man keinen Unfall bauen. Im Euro-NCAP-Crashtest erhielt das Elektroauto null Sterne.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Acer-Monitore zu Bestpreisen (u. a. 27" FHD 165Hz OC 199€) • Kingston PCIe-SSD 1TB 69,90€ & 2TB 174,90€ • Samsung Smartphones & Watches günstiger • Saturn: Xiaomi Redmi Note 9 Pro 128GB 199€ • Alternate (u. a. Razer Opus Headset 69,99€) • Release: Halo Infinite 68,99€ [Werbung]
    •  /