Abo
  • Services:
Anzeige

reCAPTCHA: Stoppt Spam, lest Bücher

Spam-Schutz soll helfen, gescannte Texte zu digitalisieren

Wissenschaftler der Carnegie-Mellon-Universität wollen Websites mit "reCAPTCHAs" vor automatisierten Spam-Angriffen schützen und zugleich die Digitalisierung von Büchern vorantreiben. Dabei arbeiten sie mit dem Internet Archive zusammen und werden von Intel unterstützt.

So genannte CAPTCHAs werden genutzt, um zwischen Mensch und Maschine zu unterscheiden und so automatisierten Spam aus Foren und Blog-Kommentaren zu verbannen oder beim Anlegen eines neuen E-Mail-Accounts sicherzustellen, dass ein Mensch am Rechner sitzt. Verzerrte, zum Teil schwer lesbare Buchstaben müssen erkannt werden, um z.B. einen Kommentar in einem so geschützten Blog zu hinterlassen. Sind die CAPTCHAs gut gemacht, wird es für Computerprogramme schwieriger, ungewollten Werbemüll abzusetzen.

Anzeige

Die Idee steht auch hinter den "reCAPTCHAs", doch werden hier gleich zwei Fliegen mit einer Klappe geschlagen: Statt zufälliger Buchstabenfolgen kommt gescannter Text zum Einsatz, bei dem die Texterkennung (OCR) versagt hat. So kann recht gut sichergestellt werden, dass eine Software den Text nicht erkennen kann, zugleich aber werden die Eingaben genutzt, um gescannte Texte auf diesem Weg von Menschen erkennen zu lassen.

Die gescannten Texte stellt das Internet Archive bereit, das im Rahmen der Open Content Alliance große Buchbestände digitalisiert. Um die erfassten Texte durchsuchbar zu machen, müssen sie von einer Texterkennung erfasst werden, was aber nicht immer funktioniert. Dies sollen nun Menschen ganz nebenbei übernehmen.

Statt also zufälliger Texte sollen Menschen bei den reCAPTCHAs Texte erkennen, die Computer nicht auswerten konnten. Dazu werden immer zwei Wörter präsentiert: eines, zu dem die Software bereits die Bedeutung kennt und so feststellen kann, ob der Nutzer den Text richtig erkannt hat, ein zweites, das dem System unbekannt ist und so nebenbei vom Nutzer erkannt wird. Die einzelnen Wörter werden dabei mehreren Nutzern präsentiert, um Fehler bei der Erkennung zu minimieren, denn wenn mehrere Nutzer die gleiche Übersetzung liefern, dürfte diese wohl korrekt sein.

Die Wissenschaftler um Professor Manuel Blum schätzen, dass täglich rund 60 Millionen CAPTCHAs entschlüsselt werden, was im Schnitt jeweils rund 10 Sekunden in Anspruch nimmt. So werden rund 150.000 Stunden an Arbeit verschwendet, die sie mit ihren reCAPTCHAs nutzen wollen.

Mit Unterstützung von Intel haben sie dazu unter recaptcha.net einen kostenlosen Webdienst aufgesetzt, der es Site-Betreibern erlaubt, ihre Seiten mit reCAPTCHAs zu bestücken. Lediglich große Websites mit hohem Traffic sollen zur Kasse gebeten werden.

Eine Erweiterung der reCAPTCHAs ist bereits in Arbeit: eine Audio-Version, die dann auch Blinde und Sehbehinderte nutzen können. Sie soll Teile von Radiosendungen erfassen, bei denen die Spracherkennung versagt hat.


eye home zur Startseite
ATT3 16. Aug 2008

Ist ja auch nicht der Sinn. Die Sicherheit soll nur etwas erhöht werden und gleichzeitig...

Aldi_Kunde 30. Okt 2007

reCAPTCHAs hilft uns zwar Bücher zu digitalisieren, jedoch bieten sie NICHT viel MEHR...

fooasdsad 30. Mai 2007

Wenn das zweite Wort "News" heitß, und man gibt "News1" ein, wird es noch akzeptiert...

sfdfdsfsd 29. Mai 2007

Full ack. The wisdom of the crowds. Wenn über die Software "nur" eine Mio. Wörter pro...

Rapidwait 29. Mai 2007

ist, dass diese Captchas immer öfter so unleserlich sind, dass ich es selber manchmal...


memmaker / 29. Mai 2007

reCaptcha und so



Anzeige

Stellenmarkt
  1. über Hanseatisches Personalkontor Bodensee, Raum Konstanz/Bodensee
  2. Deutsche Bundesbank, München
  3. RUAG Ammotec GmbH, Fürth (Region Nürnberg)
  4. Weber Maschinenbau GmbH, Neubrandenburg, Groß Nemerow


Anzeige
Hardware-Angebote
  1. (u. a. Asus GTX 1070 Strix, MSI GTX 1070 Gaming X 8G, Inno3D GTX 1070 iChill)
  2. 308,95€ (Bestpreis)

Folgen Sie uns
       


  1. Ausfall

    Störung im Netz von Netcologne

  2. Cinema 3D

    Das MIT arbeitet an 3D-Kino ohne Brille

  3. AVM

    Hersteller für volle Routerfreiheit bei Glasfaser und Kabel

  4. Hearthstone

    Blizzard feiert eine Nacht in Karazhan

  5. Gmane

    Wichtiges Mailing-Listen-Archiv offline

  6. Olympia

    Kann der Hashtag #Rio2016 verboten werden?

  7. Containerverwaltung

    Docker für Mac und Windows ist einsatzbereit

  8. Drosselung

    Telekom schafft wegen intensiver Nutzung Spotify-Option ab

  9. Quantenkrytographie

    Chinas erster Schritt zur Quantenkommunikation per Satellit

  10. Sony

    Absatz der Playstation 4 weiter stark



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Xiaomi Mi Band 2 im Hands on: Fitness-Preisbrecher mit Hack-App
Xiaomi Mi Band 2 im Hands on
Fitness-Preisbrecher mit Hack-App
  1. Mi Notebook Air Xiaomi steigt mit Kampfpreisen ins Notebook-Geschäft ein
  2. Xiaomi Hugo Barra verkündet Premium-Smartphone
  3. Redmi 3S Xiaomis neues Smartphone kostet umgerechnet 95 Euro

Amoklauf in München: De Maizière reanimiert Killerspiel-Debatte
Amoklauf in München
De Maizière reanimiert Killerspiel-Debatte
  1. Killerspiel-Debatte ProSieben Maxx stoppt Übertragungen von Counter-Strike

Schwachstellen aufgedeckt: Der leichtfertige Umgang mit kritischen Infrastrukturen
Schwachstellen aufgedeckt
Der leichtfertige Umgang mit kritischen Infrastrukturen
  1. Keysniffer Millionen kabellose Tastaturen senden Daten im Klartext
  2. Tor Hidden Services Über 100 spionierende Tor-Nodes
  3. Pilotprojekt EU will Open Source sicherer machen

  1. Re: Klar kann #Rio2016 verboten werden!

    Hanmac | 03:46

  2. Re: Wo ist der Haken?

    Funnyzocker | 03:31

  3. Re: Laut Winfuture wollen die sogar das Wort...

    Schläfer | 03:05

  4. Re: optische Täuschung

    Baladur | 02:59

  5. Re: Gut das ich das updatesystem "deinstalliert...

    AnonymerHH | 02:30


  1. 18:21

  2. 18:05

  3. 17:23

  4. 17:04

  5. 16:18

  6. 14:28

  7. 13:00

  8. 12:28


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel