Abo
  • IT-Karriere:

IBM

Nutzer helfen bei der Buchdigitalisierung

Eine von IBM entwickelte OCR-Software setzt auf die Hilfe der Nutzer bei der Erkennung von alten Schrifttypen. Das System wird eingesetzt, um die Bestände von europäischen Bibliotheken zu digitalisieren.

Artikel veröffentlicht am ,
IBM: Nutzer helfen bei der Buchdigitalisierung

IBM hat eine Technik entwickelt, mit deren Hilfe alte Bücher schneller und mit weniger Fehlern digitalisiert werden können. Diese Technik wird im Rahmen des EU-Projekts Impact (Improving Access to Text) eingesetzt. Dessen Ziel ist es, die Bestände europäischer Bibliotheken in eine digitale Form zu überführen.

Alte Bücher

Stellenmarkt
  1. LOTTO Hamburg GmbH, Hamburg
  2. Computacenter AG & Co. oHG, München

Ein Problem bei der Digitalisierung stellen alte Bücher dar: Die Farbe der Buchstaben verblasst mit der Zeit, das Papier verändert sich und die Texte sind oft in nicht mehr gebräuchlichen Schrifttypen wie Fraktur gedruckt, mit denen die Texterkennungssoftware (Optical Character Recognition, OCR) oft überfordert ist. Entsprechend aufwendig ist die Nachbearbeitung. Eine von IBM Research im israelischen Haifa entwickelte OCR-Software soll damit besser klarkommen.

Die Software ist internetfähig und ermöglicht es, dass Internetnutzer bei der Fehlererkennung und -korrektur helfen. Das System präsentiert dem Nutzer zunächst zweifelhafte Buchstaben. Eine häufige Fehlerquelle etwa ist die Kombination der Buchstaben "r" und "n", die OCR-Software gern als "m" interpretiert. Der Nutzer bekommt nun die Buchstabengruppe und eine Vergleichsreihe des Buchstaben "m" vorgesetzt. Er muss nun entscheiden, ob es sich bei dem infrage stehenden Zeichen um ein "m" oder ein "rn" handelt.

Wortwahl

Versteht die Software ein Wort nicht, listet sie die Fundstelle zusammen mit verschiedenen möglichen Auflösungen auf. Der Nutzer markiert dann die richtige Variante. Sind Buchstaben oder Worte auch dann noch unklar, werden sie auf der Seite des Buches gezeigt. Der Nutzer soll sie dann aus dem Kontext heraus erkennen. Das System merkt sich alle Ergebnisse und lernt so die verschiedenen bestimmten Schrifttypen besser kennen. Entsprechend wird auch die Texterkennung mit der Zeit besser.

Impact sei das erste Digitalisierungssystem, das Crowdcomputing und eine adaptive OCR-Korrekturlösung zusammen nutze, erklärt Tal Drory von IBM Research in Haifa. Deshalb sei das System deutlich effizienter als herkömmliche Texterkennungssysteme. Das gelte wohl für die Geschwindigkeit ebenso wie für die Fehlerrate. Das System sei in der Lage, so Drory, gedruckte Texte aus der Zeit des 15. bis zum 19. Jahrhundert zu entziffern.

Wissenschaftler aus den USA spannen bereits seit einigen Jahren Nutzer für die Digitalisierung von Büchern ein: Sie setzen ihnen als Captchas Buchstabenfolgen aus gescannten Texten vor, die die OCR-Software nicht entziffern konnte. So dienen die Buchstabenfolgen nicht nur dem Spamschutz, sondern auch dazu, OCR-Fehler zu beseitigen.



Anzeige
Top-Angebote
  1. (u. a. D24f FHD/144 Hz für 149€ + Versand statt 193,94€ im Vergleich)
  2. (u. a. Acer KG241QP FHD/144 Hz für 169€ und Samsung GQ55Q70 QLED-TV für 999€)
  3. (u. a. mit Gaming-Monitoren, z. B. Acer ED323QURA Curved/WQHD/144 Hz für 299€ statt 379€ im...
  4. (u. a. Apple iPhone 6s Plus 32 GB für 299€ und 128 GB für 449€ - Bestpreise!)

Einsteins Erbe 26. Aug 2010

Es macht allerdings keinen guten Eindruck, wenn man seine Kritik an der heutigen...

Ralph 26. Aug 2010

damit ist es auf den punkt gebracht.

Tripod 25. Aug 2010

Ohne jetzt auf Details eingehen zu wollen, möchte ich hier mal ein Lob loswerden. Der...


Folgen Sie uns
       


Google Game Builder ausprobiert

Mit dem Game Builder von Google können Anwender kleine, aber durchaus komplexe Spiele entwickeln. Der Editor richtet sich an neugierige Einsteiger, aber auch an professionelle Entwickler etwa für das Prototyping.

Google Game Builder ausprobiert Video aufrufen
SEO: Der Google-Algorithmus benachteiligt Frauen
SEO
Der Google-Algorithmus benachteiligt Frauen

Websites von Frauen werden auf Google schlechter gerankt als die von Männern - und die deutsche Sprache ist schuld. Was lässt sich dagegen tun?
Von Kathi Grelck

  1. Google LED von Nest-Kameras lässt sich nicht mehr ausschalten
  2. FIDO Google führt Logins ohne Passwort ein
  3. Nachhaltigkeit 2022 sollen Google-Geräte Recycling-Kunststoff enthalten

Nachhaltigkeit: Bauen fürs Klima
Nachhaltigkeit
Bauen fürs Klima

In Städten sind Gebäude für gut die Hälfte der Emissionen von Treibhausgasen verantwortlich, in Metropolen wie London, Los Angeles oder Paris sogar für 70 Prozent. Klimafreundliche Bauten spielen daher eine wichtige Rolle, um die Klimaziele in einer zunehmend urbanisierten Welt zu erreichen.
Ein Bericht von Jan Oliver Löfken

  1. Klimaschutz Großbritannien probt für den Kohleausstieg
  2. Energie Warum Japan auf Wasserstoff setzt

Ryzen 5 3400G und Ryzen 3 3200G im Test: Picasso passt
Ryzen 5 3400G und Ryzen 3 3200G im Test
Picasso passt

Vier Zen-CPU-Kerne plus integrierte Vega-Grafikeinheit: Der Ryzen 5 3400G und der Ryzen 3 3200G sind zwar im Prinzip nur höher getaktete Chips, in ihrem Segment aber weiterhin konkurrenzlos. Das schnellere Modell hat jedoch trotz verlötetem Extra für Übertakter ein Preisproblem.
Ein Test von Marc Sauter

  1. Agesa 1003abb Viele ältere Platinen erhalten aktuelles UEFI für Ryzen 3000
  2. Ryzen 3000 Agesa 1003abb behebt RDRAND- und PCIe-Gen4-Bug
  3. Ryzen 5 3600(X) im Test Sechser-Pasch von AMD

    •  /