• IT-Karriere:
  • Services:

Über 17.000 Bücher mit Recaptcha transkribiert

Initiatoren ziehen nach einem Jahr positive Bilanz des Projektes

Im Frühjahr 2007 haben Wissenschaftler der Carnegie Mellon Universität reCAPTCHA ins Leben gerufen, ein System, um Bücher mit Hilfe von Spamschutzmaßnahmen zu digitalisieren. In einem Aufsatz im Wissenschaftsmagazin Science ziehen sie jetzt eine erste Bilanz des Projekts.

Artikel veröffentlicht am ,

Captcha heißen die Bilder mit den merkwürdig verformten Buchstaben, die Nutzer auf vielen Websites bei der Anmeldung eingeben müssen. Ausgeschrieben bedeutet das "Completely Automated Public Turing Test to tell Computers and Humans Apart", auf Deutsch etwa: voll automatischer öffentlicher Turing-Test, um Computer und Menschen zu unterscheiden, und stellte eine halbwegs wirksame Maßnahme zum Schutz vor Spam dar. Die Idee dahinter ist, dass nur Menschen, nicht aber Maschinen in der Lage sind, die Buchstaben zu erkennen und einzugeben. Das soll verhindern, dass Computerprogramme sich in Webangeboten wie Blogs anmelden und dort unerwünschte Werbebotschaften hinterlassen. Immer funktioniert dies nicht.

Stellenmarkt
  1. Valtech Mobility GmbH, München, Düsseldorf
  2. über KISSLING Personalberatung GmbH, Großraum Balingen

Im Jahr 2007 hatte Luis von Ahn, einer der Erfinder der Captchas, die Idee, die Abfragen noch zu einem weiteren Zweck einzusetzen: Statt willkürlich generierter Buchstabenfolgen bekommen Nutzer Buchstabenfolgen aus digitalisierten Texten eingeblendet, die Texterkennungssoftware (Optical Character Recognition, OCR) nicht lesen konnte. Die Textbrocken stammen aus alten Büchern und Zeitungen, die das Internet Archive im Rahmen der Open Content Alliance scannt. Lösen sie das Puzzle, tragen sie nicht nur zum Spamschutz bei, sondern helfen auch dabei, Bücher zu digitalisieren.

Die Betreiber von mehreren tausend Webseiten auf der ganzen Welt setzten inzwischen die reCAPTCHA genannte Variante der Spamschutzpuzzles ein, schreiben die Informatiker um Luis von Ahn von der Carnegie Mellon Universität in Pittsburgh, Pennsylvania, in der aktuellen Ausgabe des US-Wissenschaftsmagazins Science. An jedem Tag würden über 100 Millionen dieser Tests gelöst. Das seien mehr als vier Millionen Wörter. Die Fehlerquote liege bei unter einem Prozent.

Das Ergebnis des ersten Jahres kann sich sehen lassen, berichtet von Ahn: Seit Projektbeginn haben die Nutzer mehr als 1,2 Milliarden Recaptchas gelöst und dabei 440 Millionen für Computer unlesbare Wörter entschlüsselt. Das entspricht einer stattlichen Bibliothek mit 17.600 Bänden. Und jeden Tag, so von Ahn, "führen mehr Websites Recaptchas ein, so dass die Zahl der Umschreibungen kontinuierlich wächst."

Allerdings geht es von Ahn nur bedingt darum, alte Bücher und Zeitungen vom Papier in die digitale Welt zu überführen. Er hat Größeres im Sinn: "Wir zeigen, dass wir menschliche Anstrengung, menschliche Rechenleistung, die sonst verschwendet würde, dazu nutzen können, um Aufgaben zu erfüllen, an denen Computer noch scheitern", erklärt er das Ziel seines Projektes. Eine solche Aufgabe ist beispielsweise, Fotos oder Audioaufzeichnungen zu analysieren und mit Beschreibungen zu versehen. Auch hierfür spannen die Wissenschaftler der Carnegie Mellon Universität menschliche Nutzer ein, die diese Aufgaben in Onlinespielen lösen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Top-Angebote
  1. (u. a. Deal des Tages: Honor MagicBook 15 15,6" Full HD IPS Ryzen 5 3500U 8GB 256GB SSD für 528...
  2. (u. a. PSN Card 20 Euro für 18,29€, Assetto Corsa Competizione für 18,99€, Euro Truck...
  3. (u. a. Kensington ValueKeyboard für 9,79€, Xiaomi Mi Note 10 Lite 128GB für 279€, Thermaltake...
  4. 249,90€ (Bestpreis!)

fvys53gv 12. Aug 2010

Es sind 2 Wörter: Ein Wort kennt er, eins nicht.

pcmkr 16. Sep 2009

"Rein wirtschaftlich".... was soll das denn sein? Klar, wenn in der dritten Welt das...

MarvinM 18. Aug 2008

Sorry, hätte erst die anderen threads lesen sollen ;-) thx 4 the info

Lino 18. Aug 2008

Wieso ändern? Eine nicht funktionierende Schätzmethode ist nun mal genau das. Nicht...

Otis 17. Aug 2008

enben... und ich wollte nur wissen, ob es ähnliche Projekte gibt, die diesen Effekte auf...


Folgen Sie uns
       


Probefahrt mit dem Corsa-e

Wir haben den vollelektrischen Opel Corsa-e einen Tag lang in Berlin und Brandenburg Probe gefahren.

Probefahrt mit dem Corsa-e Video aufrufen
Garmin Instinct Solar im Test: Sportlich-sonniger Ausdauerläufer
Garmin Instinct Solar im Test
Sportlich-sonniger Ausdauerläufer

Die Instinct Solar sieht aus wie ein Spielzeugwecker - aber die Sportuhr von Garmin bietet Massen an Funktionen und tolle Akkulaufzeiten.
Von Peter Steinlechner

  1. Wearables Garmin Connect läuft wieder
  2. Wearables Server von Garmin Connect sind offline
  3. Fenix 6 Garmin lädt weitere Sportuhren mit Solarstrom

Campus Networks: Wenn das 5G-Netz nicht jeden reinlässt
Campus Networks
Wenn das 5G-Netz nicht jeden reinlässt

Über private 4G- und 5G-Netze gibt es meist nur Buzzwords. Wir wollten von einer Telekom-Expertin wissen, was die Campusnetze wirklich können und was noch nicht.
Von Achim Sawall

  1. Funkstrahlung Bürgermeister in Oberbayern greifen 5G der Telekom an
  2. IRT Öffentlich-rechtlicher Rundfunk schließt Forschungszentrum
  3. Deutsche Telekom 5G im UMTS-Spektrum für die Hälfte der Bevölkerung

Funkverschmutzung: Wer stört hier?
Funkverschmutzung
Wer stört hier?

Ob WLAN, Bluetooth, IoT oder Radioteleskope - vor allem in den unlizenzierten Frequenzbändern funken immer mehr elektronische Geräte. Die Folge können Störungen und eine schlechtere Performance der Geräte sein.
Ein Bericht von Jan Rähm

  1. 450 MHz Bundesnetzagentur legt sich bei neuer Frequenzvergabe fest
  2. Aus Kostengründen Tschechien schafft alle Telefonzellen ab
  3. Telekom Bis Jahresende verschwinden ISDN und analoges Festnetz

    •  /