Abo
  • Services:
Anzeige
IBM: Nutzer helfen bei der Buchdigitalisierung

IBM

Nutzer helfen bei der Buchdigitalisierung

Eine von IBM entwickelte OCR-Software setzt auf die Hilfe der Nutzer bei der Erkennung von alten Schrifttypen. Das System wird eingesetzt, um die Bestände von europäischen Bibliotheken zu digitalisieren.

IBM hat eine Technik entwickelt, mit deren Hilfe alte Bücher schneller und mit weniger Fehlern digitalisiert werden können. Diese Technik wird im Rahmen des EU-Projekts Impact (Improving Access to Text) eingesetzt. Dessen Ziel ist es, die Bestände europäischer Bibliotheken in eine digitale Form zu überführen.

Anzeige

Alte Bücher

Ein Problem bei der Digitalisierung stellen alte Bücher dar: Die Farbe der Buchstaben verblasst mit der Zeit, das Papier verändert sich und die Texte sind oft in nicht mehr gebräuchlichen Schrifttypen wie Fraktur gedruckt, mit denen die Texterkennungssoftware (Optical Character Recognition, OCR) oft überfordert ist. Entsprechend aufwendig ist die Nachbearbeitung. Eine von IBM Research im israelischen Haifa entwickelte OCR-Software soll damit besser klarkommen.

Die Software ist internetfähig und ermöglicht es, dass Internetnutzer bei der Fehlererkennung und -korrektur helfen. Das System präsentiert dem Nutzer zunächst zweifelhafte Buchstaben. Eine häufige Fehlerquelle etwa ist die Kombination der Buchstaben "r" und "n", die OCR-Software gern als "m" interpretiert. Der Nutzer bekommt nun die Buchstabengruppe und eine Vergleichsreihe des Buchstaben "m" vorgesetzt. Er muss nun entscheiden, ob es sich bei dem infrage stehenden Zeichen um ein "m" oder ein "rn" handelt.

Wortwahl

Versteht die Software ein Wort nicht, listet sie die Fundstelle zusammen mit verschiedenen möglichen Auflösungen auf. Der Nutzer markiert dann die richtige Variante. Sind Buchstaben oder Worte auch dann noch unklar, werden sie auf der Seite des Buches gezeigt. Der Nutzer soll sie dann aus dem Kontext heraus erkennen. Das System merkt sich alle Ergebnisse und lernt so die verschiedenen bestimmten Schrifttypen besser kennen. Entsprechend wird auch die Texterkennung mit der Zeit besser.

Impact sei das erste Digitalisierungssystem, das Crowdcomputing und eine adaptive OCR-Korrekturlösung zusammen nutze, erklärt Tal Drory von IBM Research in Haifa. Deshalb sei das System deutlich effizienter als herkömmliche Texterkennungssysteme. Das gelte wohl für die Geschwindigkeit ebenso wie für die Fehlerrate. Das System sei in der Lage, so Drory, gedruckte Texte aus der Zeit des 15. bis zum 19. Jahrhundert zu entziffern.

Wissenschaftler aus den USA spannen bereits seit einigen Jahren Nutzer für die Digitalisierung von Büchern ein: Sie setzen ihnen als Captchas Buchstabenfolgen aus gescannten Texten vor, die die OCR-Software nicht entziffern konnte. So dienen die Buchstabenfolgen nicht nur dem Spamschutz, sondern auch dazu, OCR-Fehler zu beseitigen.


eye home zur Startseite
Einsteins Erbe 26. Aug 2010

Es macht allerdings keinen guten Eindruck, wenn man seine Kritik an der heutigen...

Ralph 26. Aug 2010

damit ist es auf den punkt gebracht.

Tripod 25. Aug 2010

Ohne jetzt auf Details eingehen zu wollen, möchte ich hier mal ein Lob loswerden. Der...



Anzeige

Stellenmarkt
  1. Robert Bosch GmbH, Reutlingen
  2. Videmo Intelligente Videoanalyse GmbH & Co. KG, Karlsruhe
  3. DRÄXLMAIER Group, Garching
  4. DPD Deutschland GmbH, Aschaffenburg, Hamburg


Anzeige
Blu-ray-Angebote
  1. (u. a. Hobbit Trilogie Blu-ray 43,89€ und Batman Dark Knight Trilogy Blu-ray 17,99€)

Folgen Sie uns
       


  1. Kabelnetz

    Vodafone setzt bereits Docsis 3.1 beim Endkunden ein

  2. Neuer Standort

    Amazon sucht das zweite Hauptquartier

  3. Matt Booty

    Mr. Minecraft wird neuer Spiele-Chef bei Microsoft

  4. Gerichtsurteil

    Internet- und Fernsehkunden müssen bei Umzug weiterzahlen

  5. Sicherheitsupdate

    Microsoft-Compiler baut Schutz gegen Spectre

  6. Facebook Messenger

    Bug lässt iPhone-Nutzer nur wenige Wörter tippen

  7. Multi-Shot-Kamera

    Hasselblad macht 400-Megapixel-Fotos mit 2,4 GByte Größe

  8. Mitsubishi

    Rückkamera identifiziert Verkehrsteilnehmer

  9. Otherside Entertainment

    Underworld Ascendant soll mehr Licht ins Dunkle bringen

  10. Meltdown und Spectre

    "Dann sind wir performancemäßig wieder am Ende der 90er"



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Nachbarschaftsnetzwerke: Nebenan statt mittendrin
Nachbarschaftsnetzwerke
Nebenan statt mittendrin
  1. Loki App zeigt Inhalte je nach Stimmung des Nutzers an
  2. Nextdoor Das soziale Netzwerk für den Blockwart
  3. Hasskommentare Neuer Eco-Chef Süme will nicht mit AfD reden

Sgnl im Hands on: Sieht blöd aus, funktioniert aber
Sgnl im Hands on
Sieht blöd aus, funktioniert aber
  1. NGSFF alias M.3 Adata zeigt seine erste SSD mit breiterer Platine
  2. Displaytechnik Samsung soll faltbares Smartphone auf CES gezeigt haben
  3. Vuzix Blade im Hands on Neue Datenbrille mit einem scharfen und hellen Bild

EU-Urheberrechtsreform: Abmahnungen treffen "nur die Dummen"
EU-Urheberrechtsreform
Abmahnungen treffen "nur die Dummen"
  1. Leistungsschutzrecht EU-Kommission hält kritische Studie zurück
  2. Leistungsschutzrecht EU-Staaten uneins bei Urheberrechtsreform

  1. Re: Ganz krasse Idee!

    486dx4-160 | 00:33

  2. Die Kündigungsfristen sind ok.

    mrgenie | 00:28

  3. Re: Definition Umzug?

    crazypsycho | 00:25

  4. Re: 20.000 neue Jobs, aber nicht ein Steve...

    AntiiHeld | 00:23

  5. Re: Welche Hardware?

    Matty194 | 00:15


  1. 19:09

  2. 16:57

  3. 16:48

  4. 16:13

  5. 15:36

  6. 13:15

  7. 13:00

  8. 12:45


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel