reCAPTCHA: Stoppt Spam, lest Bücher

Spam-Schutz soll helfen, gescannte Texte zu digitalisieren

Wissenschaftler der Carnegie-Mellon-Universität wollen Websites mit "reCAPTCHAs" vor automatisierten Spam-Angriffen schützen und zugleich die Digitalisierung von Büchern vorantreiben. Dabei arbeiten sie mit dem Internet Archive zusammen und werden von Intel unterstützt.

Anzeige

So genannte CAPTCHAs werden genutzt, um zwischen Mensch und Maschine zu unterscheiden und so automatisierten Spam aus Foren und Blog-Kommentaren zu verbannen oder beim Anlegen eines neuen E-Mail-Accounts sicherzustellen, dass ein Mensch am Rechner sitzt. Verzerrte, zum Teil schwer lesbare Buchstaben müssen erkannt werden, um z.B. einen Kommentar in einem so geschützten Blog zu hinterlassen. Sind die CAPTCHAs gut gemacht, wird es für Computerprogramme schwieriger, ungewollten Werbemüll abzusetzen.

Die Idee steht auch hinter den "reCAPTCHAs", doch werden hier gleich zwei Fliegen mit einer Klappe geschlagen: Statt zufälliger Buchstabenfolgen kommt gescannter Text zum Einsatz, bei dem die Texterkennung (OCR) versagt hat. So kann recht gut sichergestellt werden, dass eine Software den Text nicht erkennen kann, zugleich aber werden die Eingaben genutzt, um gescannte Texte auf diesem Weg von Menschen erkennen zu lassen.

Die gescannten Texte stellt das Internet Archive bereit, das im Rahmen der Open Content Alliance große Buchbestände digitalisiert. Um die erfassten Texte durchsuchbar zu machen, müssen sie von einer Texterkennung erfasst werden, was aber nicht immer funktioniert. Dies sollen nun Menschen ganz nebenbei übernehmen.

Statt also zufälliger Texte sollen Menschen bei den reCAPTCHAs Texte erkennen, die Computer nicht auswerten konnten. Dazu werden immer zwei Wörter präsentiert: eines, zu dem die Software bereits die Bedeutung kennt und so feststellen kann, ob der Nutzer den Text richtig erkannt hat, ein zweites, das dem System unbekannt ist und so nebenbei vom Nutzer erkannt wird. Die einzelnen Wörter werden dabei mehreren Nutzern präsentiert, um Fehler bei der Erkennung zu minimieren, denn wenn mehrere Nutzer die gleiche Übersetzung liefern, dürfte diese wohl korrekt sein.

Die Wissenschaftler um Professor Manuel Blum schätzen, dass täglich rund 60 Millionen CAPTCHAs entschlüsselt werden, was im Schnitt jeweils rund 10 Sekunden in Anspruch nimmt. So werden rund 150.000 Stunden an Arbeit verschwendet, die sie mit ihren reCAPTCHAs nutzen wollen.

Mit Unterstützung von Intel haben sie dazu unter recaptcha.net einen kostenlosen Webdienst aufgesetzt, der es Site-Betreibern erlaubt, ihre Seiten mit reCAPTCHAs zu bestücken. Lediglich große Websites mit hohem Traffic sollen zur Kasse gebeten werden.

Eine Erweiterung der reCAPTCHAs ist bereits in Arbeit: eine Audio-Version, die dann auch Blinde und Sehbehinderte nutzen können. Sie soll Teile von Radiosendungen erfassen, bei denen die Spracherkennung versagt hat.


ATT3 16. Aug 2008

Ist ja auch nicht der Sinn. Die Sicherheit soll nur etwas erhöht werden und gleichzeitig...

Aldi_Kunde 30. Okt 2007

reCAPTCHAs hilft uns zwar Bücher zu digitalisieren, jedoch bieten sie NICHT viel MEHR...

fooasdsad 30. Mai 2007

Wenn das zweite Wort "News" heitß, und man gibt "News1" ein, wird es noch akzeptiert...

sfdfdsfsd 29. Mai 2007

Full ack. The wisdom of the crowds. Wenn über die Software "nur" eine Mio. Wörter pro...

Rapidwait 29. Mai 2007

ist, dass diese Captchas immer öfter so unleserlich sind, dass ich es selber manchmal...

Kommentieren


memmaker / 29. Mai 2007

reCaptcha und so

blackBlog / 29. Mai 2007

Outsourcing einmal anders



Anzeige
  1. Webentwickler PHP / MySQL (m/w)
    Guest-One GmbH, Wuppertal
  2. Technical Consultant Mobile Anwendungen (m/w)
    BayWa AG, München
  3. Junior Test Engineer (m/w)
    NDS GmbH, Unterföhring
  4. IT-Prozessmodelliererin/IT-P- rozessmodellierer
    Otto-von-Guericke-Universität Magdeburg, Magdeburg

 

Detailsuche


Folgen Sie uns
       


Meistgelesen
  1. Gema-Vermerk

    Youtube sperrt irrtümlich Acta-Video von Bruno Kramm

  2. IBM-Mainframe

    Nasa schaltet letzten Großrechner ab

  3. Spielebranche

    Diskussion über "stinkende Gamer"

  4. Desktop-Roadmap

    Mozilla hat mit Firefox 2012 viel vor

  5. Samsung Galaxy Tab 2

    7-Zoll-Tablet mit Android 4.0 und Glonass-Unterstützung


Meistkommentiert
  1. Kommentare: 270 | letzter Beitrag 13.02. 23:28

  2. Kommentare: 188 | letzter Beitrag 04:17 Uhr

  3. Kommentare: 178 | letzter Beitrag 13.02. 22:01

  4. Kommentare: 116 | letzter Beitrag 13.02. 18:47

  5. Kommentare: 96 | letzter Beitrag 13.02. 16:40

Mehr


  1. Jugendschutz

    Filtersoftware von Jusprog und Telekom staatlich anerkannt

  2. Gema-Vermerk

    Youtube sperrt irrtümlich Acta-Video von Bruno Kramm

  3. Deutsche Post

    Zusatzfunktionen beim E-Postbrief dauern länger

  4. Gnome

    Neue Spezifikation für Fensterlayout

  5. Samsung Galaxy Tab 2

    7-Zoll-Tablet mit Android 4.0 und Glonass-Unterstützung

  6. IBM-Mainframe

    Nasa schaltet letzten Großrechner ab

  7. Appmenu Runner

    Head-Up Display auch in KDE

  8. Galaxy S2 mit Android 2.3.6

    Update wegen Abstürzen zurückgezogen?

  9. Fair Labor Association

    Apple lässt Foxconn überprüfen

  10. 802.11ac

    Broadcom will Chips für Gigabit-WLAN noch 2012 liefern



Haben wir etwas übersehen?

E-Mail an news@golem.de


Spielebranche: Gaming-Standort Bayern sucht den Reset-Knopf
Spielebranche
Gaming-Standort Bayern sucht den Reset-Knopf

Das Branchentreffen Munich Gaming fällt 2012 aus, der Deutsche Computerspielepreis wird neu verhandelt, die Förderung umstrukturiert: Das Bundesland Bayern will sich in Sachen Games neu aufstellen. Staatskanzleichef Thomas Kreuzer hat sich auf einer Besuchstour auch Kritik von Publishern angehört.

  1. Splash Damage Brink-Macher gründen Middleware-Studio
  2. Hawken Grundsätzlich kostenloser Mech-Kampf ab dem 12.12.12
  3. Clash of Realities 2012 Wissenschaftler und Computerspiele

IMHO: Windows 8 - Microsofts Befreiungsschlag
IMHO
Windows 8 - Microsofts Befreiungsschlag

"Windows Reimagined", so bezeichnet Microsoft Windows 8. Es ist die größte Veränderung von Microsofts Betriebssystem seit Windows 95 und soll mit neuem UI und dem neuen API WinRT zum großen Befreiungsschlag für Microsoft werden.

  1. Beta Consumer Preview von Windows 8 am 29. Februar 2012
  2. Windows Explorer Windows 8 Beta mit weiteren Verbesserungen
  3. Sensor-Fusion Windows 8 soll Sensornutzung vereinfachen

Test PS Vita: Ausstattungswunder mit Speicherproblem
Test PS Vita
Ausstattungswunder mit Speicherproblem

Zwei Analogsticks und starke Grafik, Berührungs- und Bewegungssteuerung, UMTS und Bluetooth: Sony Computer Entertainment packt in den Nachfolger der Playstation Portable so gut wie alles, was irgendwie Sinn ergibt - nur Speicher etwa für Savegames fehlt der PS Vita von Haus aus.

  1. Playstation Network Umbenennung der Konten und neue Firmware

Zum Artikel