Abo
  • IT-Karriere:

IBM

Nutzer helfen bei der Buchdigitalisierung

Eine von IBM entwickelte OCR-Software setzt auf die Hilfe der Nutzer bei der Erkennung von alten Schrifttypen. Das System wird eingesetzt, um die Bestände von europäischen Bibliotheken zu digitalisieren.

Artikel veröffentlicht am ,
IBM: Nutzer helfen bei der Buchdigitalisierung

IBM hat eine Technik entwickelt, mit deren Hilfe alte Bücher schneller und mit weniger Fehlern digitalisiert werden können. Diese Technik wird im Rahmen des EU-Projekts Impact (Improving Access to Text) eingesetzt. Dessen Ziel ist es, die Bestände europäischer Bibliotheken in eine digitale Form zu überführen.

Alte Bücher

Stellenmarkt
  1. Wirecard Issuing Technologies GmbH, Aschheim bei München
  2. inovex GmbH, verschiedene Standorte

Ein Problem bei der Digitalisierung stellen alte Bücher dar: Die Farbe der Buchstaben verblasst mit der Zeit, das Papier verändert sich und die Texte sind oft in nicht mehr gebräuchlichen Schrifttypen wie Fraktur gedruckt, mit denen die Texterkennungssoftware (Optical Character Recognition, OCR) oft überfordert ist. Entsprechend aufwendig ist die Nachbearbeitung. Eine von IBM Research im israelischen Haifa entwickelte OCR-Software soll damit besser klarkommen.

Die Software ist internetfähig und ermöglicht es, dass Internetnutzer bei der Fehlererkennung und -korrektur helfen. Das System präsentiert dem Nutzer zunächst zweifelhafte Buchstaben. Eine häufige Fehlerquelle etwa ist die Kombination der Buchstaben "r" und "n", die OCR-Software gern als "m" interpretiert. Der Nutzer bekommt nun die Buchstabengruppe und eine Vergleichsreihe des Buchstaben "m" vorgesetzt. Er muss nun entscheiden, ob es sich bei dem infrage stehenden Zeichen um ein "m" oder ein "rn" handelt.

Wortwahl

Versteht die Software ein Wort nicht, listet sie die Fundstelle zusammen mit verschiedenen möglichen Auflösungen auf. Der Nutzer markiert dann die richtige Variante. Sind Buchstaben oder Worte auch dann noch unklar, werden sie auf der Seite des Buches gezeigt. Der Nutzer soll sie dann aus dem Kontext heraus erkennen. Das System merkt sich alle Ergebnisse und lernt so die verschiedenen bestimmten Schrifttypen besser kennen. Entsprechend wird auch die Texterkennung mit der Zeit besser.

Impact sei das erste Digitalisierungssystem, das Crowdcomputing und eine adaptive OCR-Korrekturlösung zusammen nutze, erklärt Tal Drory von IBM Research in Haifa. Deshalb sei das System deutlich effizienter als herkömmliche Texterkennungssysteme. Das gelte wohl für die Geschwindigkeit ebenso wie für die Fehlerrate. Das System sei in der Lage, so Drory, gedruckte Texte aus der Zeit des 15. bis zum 19. Jahrhundert zu entziffern.

Wissenschaftler aus den USA spannen bereits seit einigen Jahren Nutzer für die Digitalisierung von Büchern ein: Sie setzen ihnen als Captchas Buchstabenfolgen aus gescannten Texten vor, die die OCR-Software nicht entziffern konnte. So dienen die Buchstabenfolgen nicht nur dem Spamschutz, sondern auch dazu, OCR-Fehler zu beseitigen.



Anzeige
Top-Angebote
  1. 129,00€
  2. (u. a. Mario Kart 8 Deluxe, New Super Mario Bros. U Deluxe)
  3. 89,99€
  4. (aktuell u. a. Silverstone RGB LED Hub 20,99€, Lenovo IdeaPad 449,00€)

Einsteins Erbe 26. Aug 2010

Es macht allerdings keinen guten Eindruck, wenn man seine Kritik an der heutigen...

Ralph 26. Aug 2010

damit ist es auf den punkt gebracht.

Tripod 25. Aug 2010

Ohne jetzt auf Details eingehen zu wollen, möchte ich hier mal ein Lob loswerden. Der...


Folgen Sie uns
       


Intel NUC8 (Crimson Canyon) - Test

Der NUC8 alias Crimson Canyon ist der erste Mini-PC mit einem 10-nm-Chip von Intel. Dessen Grafikeinheit ist aber deaktiviert, weshalb Intel noch eine Radeon RX 540 verlötet. Leider steckt im System eine Festplatte, weshalb der NUC8 sehr träge reagiert und vergleichsweise laut wird.

Intel NUC8 (Crimson Canyon) - Test Video aufrufen
Technologie: Warum Roboter in Japan so beliebt sind
Technologie
Warum Roboter in Japan so beliebt sind

Japaner produzieren nicht nur mehr Roboter als jede andere Nation, sie gehen auch selbstverständlicher mit ihnen um. Das liegt an der besonderen Geschichte und Religion des Inselstaats - und an Astro Boy.
Von Miroslav Stimac

  1. Kreativität Roboterdame Ai-Da soll zeichnen und malen
  2. Automatisierung Roboterhotel entlässt Roboter
  3. Cimon Die ISS bekommt einen sensiblen Kommunikationsroboter

Raspi-Tastatur und -Maus im Test: Die Basteltastatur für Bastelrechner
Raspi-Tastatur und -Maus im Test
Die Basteltastatur für Bastelrechner

Für die Raspberry-Pi-Platinen gibt es eine offizielle Tastatur und Maus, passenderweise in Weiß und Rot. Im Test macht die Tastatur einen anständigen Eindruck, die Maus hingegen hat uns eher kaltgelassen. Das Keyboard ist zudem ein guter Ausgangspunkt für Bastelprojekte.
Ein Test von Tobias Költzsch

  1. Bastelcomputer Offizielle Maus und Tastatur für den Raspberry Pi
  2. Kodi mit Raspberry Pi Pimp your Stereoanlage
  3. Betriebssystem Windows 10 on ARM kann auf Raspberry Pi 3 installiert werden

Jobporträt: Wenn die Software für den Anwalt kurzen Prozess macht
Jobporträt
Wenn die Software für den Anwalt kurzen Prozess macht

IT-Anwalt Christian Solmecke arbeitet an einer eigenen Jura-Software, die sogar automatisch auf Urheberrechtsabmahnungen antworten kann. Dass er sich damit seiner eigenen Arbeit beraubt, glaubt er nicht. Denn die KI des Programms braucht noch Betreuung.
Von Maja Hoock

  1. Struktrurwandel IT soll jetzt die Kohle nach Cottbus bringen
  2. IT-Jobporträt Spieleprogrammierer "Ich habe mehr Code gelöscht als geschrieben"
  3. Recruiting Wenn die KI passende Mitarbeiter findet

    •  /