reCAPTCHA: Stoppt Spam, lest Bücher

Spam-Schutz soll helfen, gescannte Texte zu digitalisieren

Wissenschaftler der Carnegie-Mellon-Universität wollen Websites mit "reCAPTCHAs" vor automatisierten Spam-Angriffen schützen und zugleich die Digitalisierung von Büchern vorantreiben. Dabei arbeiten sie mit dem Internet Archive zusammen und werden von Intel unterstützt.

Artikel veröffentlicht am ,

So genannte CAPTCHAs werden genutzt, um zwischen Mensch und Maschine zu unterscheiden und so automatisierten Spam aus Foren und Blog-Kommentaren zu verbannen oder beim Anlegen eines neuen E-Mail-Accounts sicherzustellen, dass ein Mensch am Rechner sitzt. Verzerrte, zum Teil schwer lesbare Buchstaben müssen erkannt werden, um z.B. einen Kommentar in einem so geschützten Blog zu hinterlassen. Sind die CAPTCHAs gut gemacht, wird es für Computerprogramme schwieriger, ungewollten Werbemüll abzusetzen.

Stellenmarkt
  1. IT Mitarbeiter (m/w/d) im 1st Level Support
    Grünecker Patent- und Rechtsanwälte, München
  2. Consultant (m/w/d) im Bereich Digitalisierung und Informationssicherheit
    Becker Büttner Held Rechtsanwälte Wirtschaftsprüfer Steuerberater PartGmbB, München
Detailsuche

Die Idee steht auch hinter den "reCAPTCHAs", doch werden hier gleich zwei Fliegen mit einer Klappe geschlagen: Statt zufälliger Buchstabenfolgen kommt gescannter Text zum Einsatz, bei dem die Texterkennung (OCR) versagt hat. So kann recht gut sichergestellt werden, dass eine Software den Text nicht erkennen kann, zugleich aber werden die Eingaben genutzt, um gescannte Texte auf diesem Weg von Menschen erkennen zu lassen.

Die gescannten Texte stellt das Internet Archive bereit, das im Rahmen der Open Content Alliance große Buchbestände digitalisiert. Um die erfassten Texte durchsuchbar zu machen, müssen sie von einer Texterkennung erfasst werden, was aber nicht immer funktioniert. Dies sollen nun Menschen ganz nebenbei übernehmen.

Statt also zufälliger Texte sollen Menschen bei den reCAPTCHAs Texte erkennen, die Computer nicht auswerten konnten. Dazu werden immer zwei Wörter präsentiert: eines, zu dem die Software bereits die Bedeutung kennt und so feststellen kann, ob der Nutzer den Text richtig erkannt hat, ein zweites, das dem System unbekannt ist und so nebenbei vom Nutzer erkannt wird. Die einzelnen Wörter werden dabei mehreren Nutzern präsentiert, um Fehler bei der Erkennung zu minimieren, denn wenn mehrere Nutzer die gleiche Übersetzung liefern, dürfte diese wohl korrekt sein.

Golem Karrierewelt
  1. Java EE 8 Komplettkurs: virtueller Fünf-Tage-Workshop
    11.-15.07.2022, virtuell
  2. IT-Grundschutz-Praktiker mit Zertifikat: Drei-Tage-Workshop
    04.-06.07.2022, Virtuell
Weitere IT-Trainings

Die Wissenschaftler um Professor Manuel Blum schätzen, dass täglich rund 60 Millionen CAPTCHAs entschlüsselt werden, was im Schnitt jeweils rund 10 Sekunden in Anspruch nimmt. So werden rund 150.000 Stunden an Arbeit verschwendet, die sie mit ihren reCAPTCHAs nutzen wollen.

Mit Unterstützung von Intel haben sie dazu unter recaptcha.net einen kostenlosen Webdienst aufgesetzt, der es Site-Betreibern erlaubt, ihre Seiten mit reCAPTCHAs zu bestücken. Lediglich große Websites mit hohem Traffic sollen zur Kasse gebeten werden.

Eine Erweiterung der reCAPTCHAs ist bereits in Arbeit: eine Audio-Version, die dann auch Blinde und Sehbehinderte nutzen können. Sie soll Teile von Radiosendungen erfassen, bei denen die Spracherkennung versagt hat.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


ATT3 16. Aug 2008

Ist ja auch nicht der Sinn. Die Sicherheit soll nur etwas erhöht werden und gleichzeitig...

fooasdsad 30. Mai 2007

Wenn das zweite Wort "News" heitß, und man gibt "News1" ein, wird es noch akzeptiert...

sfdfdsfsd 29. Mai 2007

Full ack. The wisdom of the crowds. Wenn über die Software "nur" eine Mio. Wörter pro...

hans12 29. Mai 2007

Ich bin mir sicher, dass auch Intel und Co. über eine sehr gute OCR-Software verfügen...



Aktuell auf der Startseite von Golem.de
US-Streaming
Abonnenten immer unzufriedener mit Netflix

Wenn Netflix-Abonnenten das Abo kündigen, wird vor allem der hohe Preis sowie ein schlechtes Preis-Leistungs-Verhältnis als Grund dafür genannt.

US-Streaming: Abonnenten immer unzufriedener mit Netflix
Artikel
  1. Machine Learning: Die eigene Stimme als TTS-Modell
    Machine Learning
    Die eigene Stimme als TTS-Modell

    Mit Machine Learning kann man ein lokal lauffähiges und hochwertiges TTS-Modell der eigenen Stimme herstellen. Dauert das lange? Ja. Braucht man das? Nein. Ist das absolut nerdig? Definitv!
    Eine Anleitung von Thorsten Müller

  2. Elektro-SUV: Drako Dragon soll Teslas Model X Plaid deutlich übertreffen
    Elektro-SUV
    Drako Dragon soll Teslas Model X Plaid deutlich übertreffen

    Das Elektroauto Drako Dragon soll mit seinen vier Motoren eine Leistung von 1.470 kW entwickeln und 320 km/h Spitze fahren.

  3. Discovery+: Neues Streamingabo in Deutschland verfügbar
    Discovery+
    Neues Streamingabo in Deutschland verfügbar

    Während etwa Netflix oder Disney werbefinanzierte Varianten ihrer Abos planen, startet Discovery+ gleich mit einem solchen Dienst.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • MSI RTX 3080 Ti Ventus 3X 12G OC 1.049€ • Alternate (u. a. Corsair Vengeance LPX 32 GB DDR4-3600 106,89€) • be quiet! Pure Rock 2 26,99€ • SanDisk microSDXC 400 GB 29€ • The Quarry + PS5-Controller 99,99€ • Samsung Galaxy Watch 3 119€ • Top-PC mit Ryzen 7 & RTX 3070 Ti 1.700€ [Werbung]
    •  /