IBM

Nutzer helfen bei der Buchdigitalisierung

Eine von IBM entwickelte OCR-Software setzt auf die Hilfe der Nutzer bei der Erkennung von alten Schrifttypen. Das System wird eingesetzt, um die Bestände von europäischen Bibliotheken zu digitalisieren.

Anzeige

IBM hat eine Technik entwickelt, mit deren Hilfe alte Bücher schneller und mit weniger Fehlern digitalisiert werden können. Diese Technik wird im Rahmen des EU-Projekts Impact (Improving Access to Text) eingesetzt. Dessen Ziel ist es, die Bestände europäischer Bibliotheken in eine digitale Form zu überführen.

Alte Bücher

Ein Problem bei der Digitalisierung stellen alte Bücher dar: Die Farbe der Buchstaben verblasst mit der Zeit, das Papier verändert sich und die Texte sind oft in nicht mehr gebräuchlichen Schrifttypen wie Fraktur gedruckt, mit denen die Texterkennungssoftware (Optical Character Recognition, OCR) oft überfordert ist. Entsprechend aufwendig ist die Nachbearbeitung. Eine von IBM Research im israelischen Haifa entwickelte OCR-Software soll damit besser klarkommen.

Die Software ist internetfähig und ermöglicht es, dass Internetnutzer bei der Fehlererkennung und -korrektur helfen. Das System präsentiert dem Nutzer zunächst zweifelhafte Buchstaben. Eine häufige Fehlerquelle etwa ist die Kombination der Buchstaben "r" und "n", die OCR-Software gern als "m" interpretiert. Der Nutzer bekommt nun die Buchstabengruppe und eine Vergleichsreihe des Buchstaben "m" vorgesetzt. Er muss nun entscheiden, ob es sich bei dem infrage stehenden Zeichen um ein "m" oder ein "rn" handelt.

Wortwahl

Versteht die Software ein Wort nicht, listet sie die Fundstelle zusammen mit verschiedenen möglichen Auflösungen auf. Der Nutzer markiert dann die richtige Variante. Sind Buchstaben oder Worte auch dann noch unklar, werden sie auf der Seite des Buches gezeigt. Der Nutzer soll sie dann aus dem Kontext heraus erkennen. Das System merkt sich alle Ergebnisse und lernt so die verschiedenen bestimmten Schrifttypen besser kennen. Entsprechend wird auch die Texterkennung mit der Zeit besser.

Impact sei das erste Digitalisierungssystem, das Crowdcomputing und eine adaptive OCR-Korrekturlösung zusammen nutze, erklärt Tal Drory von IBM Research in Haifa. Deshalb sei das System deutlich effizienter als herkömmliche Texterkennungssysteme. Das gelte wohl für die Geschwindigkeit ebenso wie für die Fehlerrate. Das System sei in der Lage, so Drory, gedruckte Texte aus der Zeit des 15. bis zum 19. Jahrhundert zu entziffern.

Wissenschaftler aus den USA spannen bereits seit einigen Jahren Nutzer für die Digitalisierung von Büchern ein: Sie setzen ihnen als Captchas Buchstabenfolgen aus gescannten Texten vor, die die OCR-Software nicht entziffern konnte. So dienen die Buchstabenfolgen nicht nur dem Spamschutz, sondern auch dazu, OCR-Fehler zu beseitigen.


Einsteins Erbe 26. Aug 2010

Es macht allerdings keinen guten Eindruck, wenn man seine Kritik an der heutigen...

Ralph 26. Aug 2010

damit ist es auf den punkt gebracht.

Tripod 25. Aug 2010

Ohne jetzt auf Details eingehen zu wollen, möchte ich hier mal ein Lob loswerden. Der...

Kommentieren




Anzeige
  1. IT-Specialist Finanzen (Nationale IT) (m/w)
    ALDI SÜD, Mülheim an der Ruhr
  2. Anwendungsberater/in Salesforce
    Schaeffler Technologies AG & Co. KG, Herzogenaurach
  3. Leiter Softwareentwicklung (m/w)
    Universität Zürich über HRM Consulting GmbH, Zürich
  4. Truck Architekt (m/w)
    Continental AG, Villingen-Schwenningen

 

Detailsuche


Folgen Sie uns
       


Meistgelesen
  1. Samsung Galaxy S3

    Siri braucht sich nicht zu fürchten

  2. Schmerzlos

    MIT-Forscher entwickeln Injektor mit Lorentzkraft-Antrieb

  3. CSU-Vizechefin

    Aussagen zur Internetsucht sind absurd

  4. iOS

    Untethered Jailbreak für iOS 5.1.1 erschienen

  5. USB-Sticks und Speicherkarten

    Hersteller wehren sich gegen neue "Mondtarife"


Meistkommentiert
  1. Kommentare: 385 | letzter Beitrag 10:32 Uhr

  2. Kommentare: 221 | letzter Beitrag 09:51 Uhr

  3. Kommentare: 215 | letzter Beitrag 25.05. 11:40

  4. Kommentare: 139 | letzter Beitrag 11:55 Uhr

  5. Kommentare: 94 | letzter Beitrag 25.05. 12:13

Mehr


  1. SpaceX

    Dockingmanöver an der ISS abgeschlossen

  2. iOS

    Untethered Jailbreak für iOS 5.1.1 erschienen

  3. CSU-Vizechefin

    Aussagen zur Internetsucht sind absurd

  4. Schmerzlos

    MIT-Forscher entwickeln Injektor mit Lorentzkraft-Antrieb

  5. Sony

    Music Unlimited nun auch fürs iPhone

  6. Samsung Galaxy S3

    Siri braucht sich nicht zu fürchten

  7. Gewerkschaft

    Entlassungen werden bei HP-Deutschland voll durchschlagen

  8. Tex Murphy

    Privatermittler sucht Privatinvestoren

  9. Studie

    Fast jeder zweite Nutzer hört legal Musik im Netz

  10. Funcom

    The Secret World mit neuen Plänen bis zum Start



Haben wir etwas übersehen?

E-Mail an news@golem.de


Lockheed Martin: US-Soldaten in Afghanistan bekommen Exoskelett
Lockheed Martin
US-Soldaten in Afghanistan bekommen Exoskelett

Lockheed Martin hat eine neue Version des Exoskeletts Hulc vorgestellt, das es einem Menschen ermöglicht, schwere Lasten zu heben und zu tragen. Der Hersteller will das System im Spätsommer testen und, wenn alles gutgeht, danach an US-Soldaten in Afghanistan ausliefern.

  1. Rüstung Ramsch-Technik aus China in US-Waffensystemen

Kingdoms of Amalur: 38 Studios entlässt alle Mitarbeiter
Kingdoms of Amalur
38 Studios entlässt alle Mitarbeiter

Das vom US-Baseballstar Curt Schilling gegründete Entwicklerstudio 38 Studios ist so gut wie pleite: Nach einer Reihe von Finanzproblemen hat die Firma jetzt alle Beschäftigen entlassen.

  1. MMXII D.W. Bradley plant Neuauflage von Dungeon Lords
  2. Legend of Grimrock im Test-Video Das Anti-Skyrim
  3. Wasteland 2 Kreativhilfe durch Obsidian ab 2,1 Millionen US-Dollar

F2, F8, F12: Windows 8 startet zu schnell
F2, F8, F12
Windows 8 startet zu schnell

Windows 8 kann auf entsprechender Hardware in weniger als 8 Sekunden booten. Dabei bleibt zu wenig Zeit, um den Bootvorgang zum Sprung ins Bios, ins UEFI-Menü oder in die Startauswahl von Windows zu unterbrechen.

  1. Dice Einige Frostbite-2-Spiele nur mit 64-Bit-Betriebssystem
  2. Windows RT Windows-Tablet-Lizenz soll angeblich 100 US-Dollar kosten
  3. Windows 8 Release Preview Microsoft verbessert Multi-Monitor-Unterstützung

Zum Artikel