• IT-Karriere:
  • Services:

IBM

Nutzer helfen bei der Buchdigitalisierung

Eine von IBM entwickelte OCR-Software setzt auf die Hilfe der Nutzer bei der Erkennung von alten Schrifttypen. Das System wird eingesetzt, um die Bestände von europäischen Bibliotheken zu digitalisieren.

Artikel veröffentlicht am ,
IBM: Nutzer helfen bei der Buchdigitalisierung

IBM hat eine Technik entwickelt, mit deren Hilfe alte Bücher schneller und mit weniger Fehlern digitalisiert werden können. Diese Technik wird im Rahmen des EU-Projekts Impact (Improving Access to Text) eingesetzt. Dessen Ziel ist es, die Bestände europäischer Bibliotheken in eine digitale Form zu überführen.

Alte Bücher

Stellenmarkt
  1. WFB Wirtschaftsförderung Bremen GmbH, Bremen
  2. AKKA Deutschland GmbH, München

Ein Problem bei der Digitalisierung stellen alte Bücher dar: Die Farbe der Buchstaben verblasst mit der Zeit, das Papier verändert sich und die Texte sind oft in nicht mehr gebräuchlichen Schrifttypen wie Fraktur gedruckt, mit denen die Texterkennungssoftware (Optical Character Recognition, OCR) oft überfordert ist. Entsprechend aufwendig ist die Nachbearbeitung. Eine von IBM Research im israelischen Haifa entwickelte OCR-Software soll damit besser klarkommen.

Die Software ist internetfähig und ermöglicht es, dass Internetnutzer bei der Fehlererkennung und -korrektur helfen. Das System präsentiert dem Nutzer zunächst zweifelhafte Buchstaben. Eine häufige Fehlerquelle etwa ist die Kombination der Buchstaben "r" und "n", die OCR-Software gern als "m" interpretiert. Der Nutzer bekommt nun die Buchstabengruppe und eine Vergleichsreihe des Buchstaben "m" vorgesetzt. Er muss nun entscheiden, ob es sich bei dem infrage stehenden Zeichen um ein "m" oder ein "rn" handelt.

Wortwahl

Versteht die Software ein Wort nicht, listet sie die Fundstelle zusammen mit verschiedenen möglichen Auflösungen auf. Der Nutzer markiert dann die richtige Variante. Sind Buchstaben oder Worte auch dann noch unklar, werden sie auf der Seite des Buches gezeigt. Der Nutzer soll sie dann aus dem Kontext heraus erkennen. Das System merkt sich alle Ergebnisse und lernt so die verschiedenen bestimmten Schrifttypen besser kennen. Entsprechend wird auch die Texterkennung mit der Zeit besser.

Impact sei das erste Digitalisierungssystem, das Crowdcomputing und eine adaptive OCR-Korrekturlösung zusammen nutze, erklärt Tal Drory von IBM Research in Haifa. Deshalb sei das System deutlich effizienter als herkömmliche Texterkennungssysteme. Das gelte wohl für die Geschwindigkeit ebenso wie für die Fehlerrate. Das System sei in der Lage, so Drory, gedruckte Texte aus der Zeit des 15. bis zum 19. Jahrhundert zu entziffern.

Wissenschaftler aus den USA spannen bereits seit einigen Jahren Nutzer für die Digitalisierung von Büchern ein: Sie setzen ihnen als Captchas Buchstabenfolgen aus gescannten Texten vor, die die OCR-Software nicht entziffern konnte. So dienen die Buchstabenfolgen nicht nur dem Spamschutz, sondern auch dazu, OCR-Fehler zu beseitigen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Top-Angebote
  1. 34,99€/49,99€ (mit/ohne Spezialangebote)
  2. (u. a. Acer KG241P 144-Hz-Monitor für 159€)
  3. (aktuell u. a. Mushkin Pilot-E 2 TB für 219,90€ + Versand)

Einsteins Erbe 26. Aug 2010

Es macht allerdings keinen guten Eindruck, wenn man seine Kritik an der heutigen...

Ralph 26. Aug 2010

damit ist es auf den punkt gebracht.

Tripod 25. Aug 2010

Ohne jetzt auf Details eingehen zu wollen, möchte ich hier mal ein Lob loswerden. Der...


Folgen Sie uns
       


HP Pavilion Gaming 15 - Fazit

Das Pavilion Gaming 15 ist für 1.000 Euro ein gut ausgestattetes und durchaus flottes Spiele-Notebook.

HP Pavilion Gaming 15 - Fazit Video aufrufen
Mi Note 10 im Hands on: Fünf Kameras, die sich lohnen
Mi Note 10 im Hands on
Fünf Kameras, die sich lohnen

Mit dem Mi Note 10 versucht Xiaomi, der Variabilität von Huaweis Vierfachkameras noch eins draufzusetzen - mit Erfolg: Die Fünffachkamera bietet in fast jeder Situation ein passendes Objektiv, auch die Bildqualität kann sich sehen lassen. Der Preis dafür ist ein recht hohes Gewicht.
Ein Hands on von Tobias Költzsch

  1. Xiaomi Neues Redmi Note 8T mit Vierfachkamera kostet 200 Euro
  2. Mi Note 10 Xiaomis neues Smartphone mit 108 Megapixeln kostet 550 Euro
  3. Mi Watch Xiaomi bringt Smartwatch mit Apfelgeschmack

Surface Laptop 3 (15 Zoll) im Test: Das 15-Zoll-Macbook mit Windows 10 und Ryzen
Surface Laptop 3 (15 Zoll) im Test
Das 15-Zoll-Macbook mit Windows 10 und Ryzen

Was passiert, wenn ein 13-Zoll-Notebook ein 15-Zoll-Panel erhält? Es entsteht der Surface Laptop 3. Er ist leicht, sehr gut verarbeitet und hat eine exzellente Tastatur. Das bereitet aber nur Freude, wenn wir die wenigen Anschlüsse und den recht kleinen Akku verkraften können.
Ein Test von Oliver Nickel

  1. Surface Laptop 3 mit 15 Zoll Microsoft könnte achtkernigen Ryzen verbauen

Need for Speed Heat im Test: Temporausch bei Tag und Nacht
Need for Speed Heat im Test
Temporausch bei Tag und Nacht

Extrem schnelle Verfolgungsjagden, eine offene Welt und viel Abwechslung dank Tag- und Nachtmodus: Mit dem Arcade-Rennspiel Heat hat Electronic Arts das beste Need for Speed seit langem veröffentlicht. Und das sogar ohne Mikrotransaktionen!
Von Peter Steinlechner

  1. Electronic Arts Need for Speed Heat saust durch Miami

    •  /