Abo
  • Services:
Anzeige

Google übernimmt Recaptcha

Nutzer helfen, Bücher zu digitalisieren

Google kauft Recaptcha, ein Spin-off der Carnegie-Mellon-Universität, das hinter dem gleichnamigen Captcha-System steckt. Die Technik soll bei der Digitalisierung von Büchern helfen.

Das Akronym "CAPTCHA" steht für "Completely Automated Public Turing test to tell Computers and Humans Apart". Mit zufälligen, schwer zu erkennenden Buchstabenfolgen sollen Computer vom Menschen unterschieden werden. Eingesetzt wird das Verfahren insbesondere als Spamschutz für Webseiten.

Recaptcha verwendet hingegen keine zufälligen Buchstabenfolgen, sondern gescannten Text, bei dem die Texterkennung (OCR) versagt hat. So kann recht gut sichergestellt werden, dass eine Software den Text nicht erkennen kann, zugleich aber werden die Eingaben genutzt, um gescannte Texte auf diesem Weg von Menschen erkennen zu lassen.

Anzeige

Die gescannten Texte stellt bislang das Internet Archive bereit, das im Rahmen der Open Content Alliance große Buchbestände digitalisiert. Um die erfassten Texte durchsuchbar zu machen, müssen sie von einer Texterkennung erfasst werden, was aber nicht immer funktioniert. Dies sollen nun Menschen ganz nebenbei übernehmen, denen immer zwei Wörter präsentiert werden: eines, zu dem die Software bereits die Bedeutung kennt und so feststellen kann, ob der Nutzer den Text richtig erkannt hat, ein zweites, das dem System unbekannt ist und so nebenbei vom Nutzer erkannt wird. Die einzelnen Wörter werden dabei mehreren Nutzern präsentiert, um Fehler bei der Erkennung zu minimieren. Denn wenn mehrere Nutzer die gleiche Übersetzung liefern, dürfte diese wohl korrekt sein.

Gestartet ist Recaptcha im Mai 2007, heute kommt das System auf mehr als 100.000 Websites zum Einsatz. Allein im ersten Jahr haben die Nutzer mehr als 1,2 Milliarden Recaptchas gelöst und dabei 440 Millionen für Computer unlesbare Wörter entschlüsselt. Das entspricht einer stattlichen Bibliothek mit 17.600 Bänden. Täglich kommen derzeit rund 30 Millionen gelöste Recaptchas hinzu.

Künftig soll Recaptcha Google bei der Digitalisierung von Büchern helfen. Zusammen mit dem Recaptcha-Team will Google das System weiterentwickeln. Details zur Übernahme gab Google allerdings nicht bekannt.


eye home zur Startseite
Oktavian 17. Sep 2009

Ja hast du. Versuch es einfach nochmal. Kleiner Tipp: Könnte, rein prinzipiell, ein...

d2 17. Sep 2009

Sorry, das ist der größte Schwachsinn den ich in letzter Zeit gelesen habe! Was hindert...

d2 17. Sep 2009

Wie heißt die Firma bei der du arbeitest (falls du arbeitest)? Ich möchte auch gerne...

quentin 17. Sep 2009

Der Verlag der golem gekauft hat, gehört zu Holtzbrinck (u.a. Die Zeit)

Herb 17. Sep 2009

ja aber echt Dass Google ganz andere Möglichkeiten zur Verknüpfung der Daten hat, ist au...



Anzeige

Stellenmarkt
  1. operational services GmbH & Co. KG, Frankfurt am Main, München, Nürnberg
  2. T-Systems International GmbH, München, Leinfelden-Echterdingen, Nürnberg
  3. Worldline GmbH, Aachen
  4. operational services GmbH & Co. KG, Berlin


Anzeige
Hardware-Angebote
  1. ab 229,00€
  2. 94,90€ statt 109,90€
  3. (u. a. Asus GTX 1070 Strix OC, MSI GTX 1070 Gaming X 8G und Aero 8G OC)

Folgen Sie uns
       


  1. Observatory

    Mozilla bietet Sicherheitscheck für Websites

  2. Teilzeitarbeit

    Amazon probiert 30-Stunden-Woche aus

  3. Archos

    Neues Smartphone mit Fingerabdrucksensor für 150 Euro

  4. Sicherheit

    Operas Server wurden angegriffen

  5. Maru

    Quellcode von Desktop-Android als Open Source verfügbar

  6. Linux

    Kernel-Sicherheitsinitiative wächst "langsam aber stetig"

  7. VR-Handschuh

    Dexta Robotics' Exoskelett für Motion Capturing

  8. Dragonfly 44

    Eine Galaxie fast ganz aus dunkler Materie

  9. Gigabit-Breitband

    Google Fiber soll Alphabet zu teuer sein

  10. Google-Steuer

    EU-Kommission plädiert für europäisches Leistungsschutzrecht



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
­Cybersyn: Chiles Traum von der computergesteuerten Planwirtschaft
­Cybersyn
Chiles Traum von der computergesteuerten Planwirtschaft
  1. Power9 IBMs 24-Kern-Chip kann 8 TByte RAM pro Sockel nutzen
  2. Princeton Piton Open-Source-Chip soll System mit 200.000 Kernen ermöglichen
  3. Adecco IBM will Helpdesk-Geschäft in Erfurt und Leipzig loswerden

Thinkpad X1 Carbon 2013 vs 2016: Drei Jahre, zwei Ultrabooks, eine Erkenntnis
Thinkpad X1 Carbon 2013 vs 2016
Drei Jahre, zwei Ultrabooks, eine Erkenntnis
  1. Huawei Matebook im Test Guter Laptop-Ersatz mit zu starker Konkurrenz
  2. iPad Pro Case Razer zeigt flache mechanische Switches
  3. Thinkpwn Lenovo warnt vor mysteriöser Bios-Schwachstelle

Asus PG248Q im Test: 180 Hertz erkannt, 180 Hertz gebannt
Asus PG248Q im Test
180 Hertz erkannt, 180 Hertz gebannt
  1. Raspberry Pi 3 Booten über USB oder per Ethernet
  2. Autonomes Fahren Mercedes stoppt Werbespot wegen überzogener Versprechen
  3. Radeon RX 480 Dank DX12 und Vulkan reicht auch eine Mittelklasse-CPU

  1. Re: Schrott bleibt Schrott...

    deadeye | 12:24

  2. Mit eingeschaltetem Hirn ist die Suite ganz gut

    mawa | 12:23

  3. Re: "Könnte [...] ernüchternd sein[...]"

    sic | 12:18

  4. Re: 30 Stunden auf Abruf ?!?

    derKlaus | 12:12

  5. Re: Passwort geändert und Konto gelöscht

    eXXogene | 12:09


  1. 11:34

  2. 15:59

  3. 15:18

  4. 13:51

  5. 12:59

  6. 15:33

  7. 15:17

  8. 14:29


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel