Über 17.000 Bücher mit Recaptcha transkribiert

Initiatoren ziehen nach einem Jahr positive Bilanz des Projektes

Im Frühjahr 2007 haben Wissenschaftler der Carnegie Mellon Universität reCAPTCHA ins Leben gerufen, ein System, um Bücher mit Hilfe von Spamschutzmaßnahmen zu digitalisieren. In einem Aufsatz im Wissenschaftsmagazin Science ziehen sie jetzt eine erste Bilanz des Projekts.

Anzeige

Captcha heißen die Bilder mit den merkwürdig verformten Buchstaben, die Nutzer auf vielen Websites bei der Anmeldung eingeben müssen. Ausgeschrieben bedeutet das "Completely Automated Public Turing Test to tell Computers and Humans Apart", auf Deutsch etwa: voll automatischer öffentlicher Turing-Test, um Computer und Menschen zu unterscheiden, und stellte eine halbwegs wirksame Maßnahme zum Schutz vor Spam dar. Die Idee dahinter ist, dass nur Menschen, nicht aber Maschinen in der Lage sind, die Buchstaben zu erkennen und einzugeben. Das soll verhindern, dass Computerprogramme sich in Webangeboten wie Blogs anmelden und dort unerwünschte Werbebotschaften hinterlassen. Immer funktioniert dies nicht.

Im Jahr 2007 hatte Luis von Ahn, einer der Erfinder der Captchas, die Idee, die Abfragen noch zu einem weiteren Zweck einzusetzen: Statt willkürlich generierter Buchstabenfolgen bekommen Nutzer Buchstabenfolgen aus digitalisierten Texten eingeblendet, die Texterkennungssoftware (Optical Character Recognition, OCR) nicht lesen konnte. Die Textbrocken stammen aus alten Büchern und Zeitungen, die das Internet Archive im Rahmen der Open Content Alliance scannt. Lösen sie das Puzzle, tragen sie nicht nur zum Spamschutz bei, sondern helfen auch dabei, Bücher zu digitalisieren.

Die Betreiber von mehreren tausend Webseiten auf der ganzen Welt setzten inzwischen die reCAPTCHA genannte Variante der Spamschutzpuzzles ein, schreiben die Informatiker um Luis von Ahn von der Carnegie Mellon Universität in Pittsburgh, Pennsylvania, in der aktuellen Ausgabe des US-Wissenschaftsmagazins Science. An jedem Tag würden über 100 Millionen dieser Tests gelöst. Das seien mehr als vier Millionen Wörter. Die Fehlerquote liege bei unter einem Prozent.

Das Ergebnis des ersten Jahres kann sich sehen lassen, berichtet von Ahn: Seit Projektbeginn haben die Nutzer mehr als 1,2 Milliarden Recaptchas gelöst und dabei 440 Millionen für Computer unlesbare Wörter entschlüsselt. Das entspricht einer stattlichen Bibliothek mit 17.600 Bänden. Und jeden Tag, so von Ahn, "führen mehr Websites Recaptchas ein, so dass die Zahl der Umschreibungen kontinuierlich wächst."

Allerdings geht es von Ahn nur bedingt darum, alte Bücher und Zeitungen vom Papier in die digitale Welt zu überführen. Er hat Größeres im Sinn: "Wir zeigen, dass wir menschliche Anstrengung, menschliche Rechenleistung, die sonst verschwendet würde, dazu nutzen können, um Aufgaben zu erfüllen, an denen Computer noch scheitern", erklärt er das Ziel seines Projektes. Eine solche Aufgabe ist beispielsweise, Fotos oder Audioaufzeichnungen zu analysieren und mit Beschreibungen zu versehen. Auch hierfür spannen die Wissenschaftler der Carnegie Mellon Universität menschliche Nutzer ein, die diese Aufgaben in Onlinespielen lösen.


fvys53gv 12. Aug 2010

Es sind 2 Wörter: Ein Wort kennt er, eins nicht.

pcmkr 16. Sep 2009

"Rein wirtschaftlich".... was soll das denn sein? Klar, wenn in der dritten Welt das...

JTL 18. Aug 2008

Und weil wir nicht mal daran denken sollten, tun das die "pösen Puben" nicht? Gerade an...

MarvinM 18. Aug 2008

Sorry, hätte erst die anderen threads lesen sollen ;-) thx 4 the info

MarvinM 18. Aug 2008

Hmmm, wenn der Einsatz für reCaptcha hilfreich sein soll, muss es sich ja wohl um einen...

Kommentieren


Blogaddict / 17. Aug 2008

Bücher mit CAPTCHAs digitalisieren

Developer's Guide / 16. Aug 2008

reCAPTCHA

Suchmaschinenoptimierung & Marketing | Seo-news.at / 15. Aug 2008

REcaptcha erreicht neuen Bücherrekord



Anzeige
  1. Softwareentwickler (m/w) TargetLink Code-Generator
    dSPACE GmbH, Paderborn
  2. Teamleiter Entwicklung / Applikation (m/w)
    über Steinbach & Partner Executive Consultants, Süddeutschland
  3. Projekt- / Softwareingenieur (m/w) Manufacturing Execution Systems (MES)
    Brückner Servtec, Siegsdorf
  4. Wissenschaftliche/r Mitarbeiterin / Mitarbeiter
    Universität Passau, Passau

 

Detailsuche


Folgen Sie uns
       


Meistgelesen
  1. Paypal

    Nutzern von Kino.to drohen Strafverfahren

  2. Desktop-Roadmap

    Mozilla hat mit Firefox 2012 viel vor

  3. Spielebranche

    Diskussion über "stinkende Gamer"

  4. Gerüchte

    Apple will alle Notebooks dünner machen

  5. Tilt-Shift-Effekt

    Generator für Spielzeuglandschaften


Meistkommentiert
  1. Kommentare: 268 | letzter Beitrag 17:59 Uhr

  2. Kommentare: 173 | letzter Beitrag 18:24 Uhr

  3. Kommentare: 166 | letzter Beitrag 18:51 Uhr

  4. Kommentare: 116 | letzter Beitrag 18:47 Uhr

  5. Kommentare: 96 | letzter Beitrag 16:40 Uhr

Mehr


  1. Gema-Vermerk

    Youtube sperrt irrtümlich Acta-Video von Bruno Kramm

  2. Deutsche Post

    Zusatzfunktionen beim E-Postbrief dauern länger

  3. Gnome

    Neue Spezifikation für Fensterlayout

  4. Samsung Galaxy Tab 2

    7-Zoll-Tablet mit Android 4.0 und Glonass-Unterstützung

  5. IBM-Mainframe

    Nasa schaltet letzten Großrechner ab

  6. Appmenu Runner

    Head-Up Display auch in KDE

  7. Galaxy S2 mit Android 2.3.6

    Update wegen Abstürzen zurückgezogen?

  8. Fair Labor Association

    Apple lässt Foxconn überprüfen

  9. 802.11ac

    Broadcom will Chips für Gigabit-WLAN noch 2012 liefern

  10. Nutzer in Deutschland

    Immer mehr Onlinezeit im sozialen Netzwerk



Haben wir etwas übersehen?

E-Mail an news@golem.de


WOA: Windows 8 für ARM im Detail
WOA
Windows 8 für ARM im Detail

Mit Windows on ARM (WOA) will Microsoft ein neues System mit einer ganz neuen Art von PCs etablieren. Damit Windows 8 auf ARM performant läuft und lange Akkulaufzeiten ermöglicht, musste Microsoft einige Kompromisse machen.

  1. Windows 8 auf ARM Microsoft zeigt Office 15

Test X-Plane 10: Flugsimulator mit Openstreetmap und vielen Rechnern
Test X-Plane 10
Flugsimulator mit Openstreetmap und vielen Rechnern

Ernsthafte Flugsimulationen gibt es kaum noch. Eine der letzten verbliebenen ist X-Plane 10 für Windows, Mac OS X und Linux. Golem.de hat sich ins virtuelle Cockpit gesetzt und den Flugsimulator mit mehreren Rechnern und iPads als Instrumente gespielt.


Bing, Blekko, Duck Duck Go: Googeln ohne Google?
Bing, Blekko, Duck Duck Go
Googeln ohne Google?

Die überarbeitete Version der Google-Suche "Search, plus Your World" hat heftige Debatten ausgelöst. Vor allem der Datenschutz steht mal wieder im Vordergrund der Kritik. "Geht es eigentlich auch ohne Google?", fragen sich daher viele Nutzer. Der Blogger Marcel Weiß hat es 18 Monate lang getestet.

  1. "Focus on the User" Facebook und Twitter zeigen Google, wie soziale Suche geht
  2. Neuer Algorithmus Google straft Seiten mit zu viel Werbung ab
  3. Theseus-Projekt Quote soll die erste Zitate-Suchmaschine Deutschlands werden

Zum Artikel