IBM

Nutzer helfen bei der Buchdigitalisierung

Eine von IBM entwickelte OCR-Software setzt auf die Hilfe der Nutzer bei der Erkennung von alten Schrifttypen. Das System wird eingesetzt, um die Bestände von europäischen Bibliotheken zu digitalisieren.

Anzeige

IBM hat eine Technik entwickelt, mit deren Hilfe alte Bücher schneller und mit weniger Fehlern digitalisiert werden können. Diese Technik wird im Rahmen des EU-Projekts Impact (Improving Access to Text) eingesetzt. Dessen Ziel ist es, die Bestände europäischer Bibliotheken in eine digitale Form zu überführen.

Alte Bücher

Ein Problem bei der Digitalisierung stellen alte Bücher dar: Die Farbe der Buchstaben verblasst mit der Zeit, das Papier verändert sich und die Texte sind oft in nicht mehr gebräuchlichen Schrifttypen wie Fraktur gedruckt, mit denen die Texterkennungssoftware (Optical Character Recognition, OCR) oft überfordert ist. Entsprechend aufwendig ist die Nachbearbeitung. Eine von IBM Research im israelischen Haifa entwickelte OCR-Software soll damit besser klarkommen.

Die Software ist internetfähig und ermöglicht es, dass Internetnutzer bei der Fehlererkennung und -korrektur helfen. Das System präsentiert dem Nutzer zunächst zweifelhafte Buchstaben. Eine häufige Fehlerquelle etwa ist die Kombination der Buchstaben "r" und "n", die OCR-Software gern als "m" interpretiert. Der Nutzer bekommt nun die Buchstabengruppe und eine Vergleichsreihe des Buchstaben "m" vorgesetzt. Er muss nun entscheiden, ob es sich bei dem infrage stehenden Zeichen um ein "m" oder ein "rn" handelt.

Wortwahl

Versteht die Software ein Wort nicht, listet sie die Fundstelle zusammen mit verschiedenen möglichen Auflösungen auf. Der Nutzer markiert dann die richtige Variante. Sind Buchstaben oder Worte auch dann noch unklar, werden sie auf der Seite des Buches gezeigt. Der Nutzer soll sie dann aus dem Kontext heraus erkennen. Das System merkt sich alle Ergebnisse und lernt so die verschiedenen bestimmten Schrifttypen besser kennen. Entsprechend wird auch die Texterkennung mit der Zeit besser.

Impact sei das erste Digitalisierungssystem, das Crowdcomputing und eine adaptive OCR-Korrekturlösung zusammen nutze, erklärt Tal Drory von IBM Research in Haifa. Deshalb sei das System deutlich effizienter als herkömmliche Texterkennungssysteme. Das gelte wohl für die Geschwindigkeit ebenso wie für die Fehlerrate. Das System sei in der Lage, so Drory, gedruckte Texte aus der Zeit des 15. bis zum 19. Jahrhundert zu entziffern.

Wissenschaftler aus den USA spannen bereits seit einigen Jahren Nutzer für die Digitalisierung von Büchern ein: Sie setzen ihnen als Captchas Buchstabenfolgen aus gescannten Texten vor, die die OCR-Software nicht entziffern konnte. So dienen die Buchstabenfolgen nicht nur dem Spamschutz, sondern auch dazu, OCR-Fehler zu beseitigen.


Einsteins Erbe 26. Aug 2010

Es macht allerdings keinen guten Eindruck, wenn man seine Kritik an der heutigen...

Ralph 26. Aug 2010

damit ist es auf den punkt gebracht.

Tripod 25. Aug 2010

Ohne jetzt auf Details eingehen zu wollen, möchte ich hier mal ein Lob loswerden. Der...

Kommentieren




Anzeige
  1. Senior Web Developer (m/w)
    Zieltraffic AG, München
  2. Referent (m/w) - Technischer Marktzugang
    Siemens AG, München
  3. Business- / Service-Analyst (m/w)
    ADAC e. V., München
  4. Qualitätssicherungs-Verantwo- rtliche/r IT-Projekte
    Dr. Ing. h.c. F. Porsche AG, Stuttgart

 

Detailsuche


Folgen Sie uns
       


Meistgelesen
  1. Youporn-Betreiber

    Hacker will 350.000 Datensätze bei Pornoseite erbeutet haben

  2. Nortel Networks

    Nortel war fast zehn Jahre lang gehackt

  3. Unity Technologies

    Bessere Grafik und KI mit Unity 3.5 verfügbar

  4. Tim Schafer

    40.000 US-Dollar für einen Konsolenpatch

  5. Abmahnabzocke

    Maximal 100 Euro Abmahngebühr für Urheberrechtsverstöße


Meistkommentiert
  1. Kommentare: 270 | letzter Beitrag 13.02. 23:28

  2. Kommentare: 200 | letzter Beitrag 14.02. 22:07

  3. Kommentare: 194 | letzter Beitrag 14.02. 13:50

  4. Kommentare: 117 | letzter Beitrag 14.02. 12:39

  5. Kommentare: 101 | letzter Beitrag 02:39 Uhr

Mehr


  1. Youporn-Betreiber

    Hacker will 350.000 Datensätze bei Pornoseite erbeutet haben

  2. TZ77XE4

    Biostar zeigt Mainboard für Ivy Bridge und Sandy Bridge

  3. Unity Technologies

    Bessere Grafik und KI mit Unity 3.5 verfügbar

  4. Fifa Street

    Last Man Standing auf dem Bolzplatz

  5. Isis Web Browser

    Neuer Browser für HPs WebOS

  6. Nortel Networks

    Nortel war fast zehn Jahre lang gehackt

  7. Thermosensor

    Schmetterlingsflügel macht Wärme sichtbar

  8. Deutsche Gamestage

    Call for Papers der Quo Vadis verlängert

  9. Vodafone

    LTE auf dem Smartphone kostet monatlich 10 Euro mehr

  10. Abmahnabzocke

    Maximal 100 Euro Abmahngebühr für Urheberrechtsverstöße



Haben wir etwas übersehen?

E-Mail an news@golem.de


Eye-Tracking: Bewegungsabhängige Bildschirmoberfläche von Apple
Eye-Tracking
Bewegungsabhängige Bildschirmoberfläche von Apple

Apple hat in den USA einen Patentantrag eingereicht, der eine Benutzeroberfläche beschreibt, die sich der Position des Nutzers vor dem Bildschirm anpassen kann. Die Frontkamera erfasst den Blick des Anwenders und ändert zum Beispiel den Schattenwurf der Icons.

  1. Nicht-Abwerbe-Pakt Google hat mit Apple und Intel gemauschelt
  2. John Browett Apple will mit neuem Chef seine Ladenkette ausweiten
  3. Airport Utility 6 Apple reduziert Funktionsumfang seiner Routersoftware

Test PS Vita: Ausstattungswunder mit Speicherproblem
Test PS Vita
Ausstattungswunder mit Speicherproblem

Zwei Analogsticks und starke Grafik, Berührungs- und Bewegungssteuerung, UMTS und Bluetooth: Sony Computer Entertainment packt in den Nachfolger der Playstation Portable so gut wie alles, was irgendwie Sinn ergibt - nur Speicher etwa für Savegames fehlt der PS Vita von Haus aus.

  1. Playstation Network Umbenennung der Konten und neue Firmware

Bing, Blekko, Duck Duck Go: Googeln ohne Google?
Bing, Blekko, Duck Duck Go
Googeln ohne Google?

Die überarbeitete Version der Google-Suche "Search, plus Your World" hat heftige Debatten ausgelöst. Vor allem der Datenschutz steht mal wieder im Vordergrund der Kritik. "Geht es eigentlich auch ohne Google?", fragen sich daher viele Nutzer. Der Blogger Marcel Weiß hat es 18 Monate lang getestet.

  1. "Focus on the User" Facebook und Twitter zeigen Google, wie soziale Suche geht
  2. Neuer Algorithmus Google straft Seiten mit zu viel Werbung ab
  3. Theseus-Projekt Quote soll die erste Zitate-Suchmaschine Deutschlands werden

Zum Artikel