Abo
  • Services:

reCAPTCHA: Stoppt Spam, lest Bücher

Spam-Schutz soll helfen, gescannte Texte zu digitalisieren

Wissenschaftler der Carnegie-Mellon-Universität wollen Websites mit "reCAPTCHAs" vor automatisierten Spam-Angriffen schützen und zugleich die Digitalisierung von Büchern vorantreiben. Dabei arbeiten sie mit dem Internet Archive zusammen und werden von Intel unterstützt.

Artikel veröffentlicht am ,

So genannte CAPTCHAs werden genutzt, um zwischen Mensch und Maschine zu unterscheiden und so automatisierten Spam aus Foren und Blog-Kommentaren zu verbannen oder beim Anlegen eines neuen E-Mail-Accounts sicherzustellen, dass ein Mensch am Rechner sitzt. Verzerrte, zum Teil schwer lesbare Buchstaben müssen erkannt werden, um z.B. einen Kommentar in einem so geschützten Blog zu hinterlassen. Sind die CAPTCHAs gut gemacht, wird es für Computerprogramme schwieriger, ungewollten Werbemüll abzusetzen.

Stellenmarkt
  1. Derby Cycle Werke GmbH, Cloppenburg
  2. Landratsamt Reutlingen, Reutlingen bei Stuttgart

Die Idee steht auch hinter den "reCAPTCHAs", doch werden hier gleich zwei Fliegen mit einer Klappe geschlagen: Statt zufälliger Buchstabenfolgen kommt gescannter Text zum Einsatz, bei dem die Texterkennung (OCR) versagt hat. So kann recht gut sichergestellt werden, dass eine Software den Text nicht erkennen kann, zugleich aber werden die Eingaben genutzt, um gescannte Texte auf diesem Weg von Menschen erkennen zu lassen.

Die gescannten Texte stellt das Internet Archive bereit, das im Rahmen der Open Content Alliance große Buchbestände digitalisiert. Um die erfassten Texte durchsuchbar zu machen, müssen sie von einer Texterkennung erfasst werden, was aber nicht immer funktioniert. Dies sollen nun Menschen ganz nebenbei übernehmen.

Statt also zufälliger Texte sollen Menschen bei den reCAPTCHAs Texte erkennen, die Computer nicht auswerten konnten. Dazu werden immer zwei Wörter präsentiert: eines, zu dem die Software bereits die Bedeutung kennt und so feststellen kann, ob der Nutzer den Text richtig erkannt hat, ein zweites, das dem System unbekannt ist und so nebenbei vom Nutzer erkannt wird. Die einzelnen Wörter werden dabei mehreren Nutzern präsentiert, um Fehler bei der Erkennung zu minimieren, denn wenn mehrere Nutzer die gleiche Übersetzung liefern, dürfte diese wohl korrekt sein.

Die Wissenschaftler um Professor Manuel Blum schätzen, dass täglich rund 60 Millionen CAPTCHAs entschlüsselt werden, was im Schnitt jeweils rund 10 Sekunden in Anspruch nimmt. So werden rund 150.000 Stunden an Arbeit verschwendet, die sie mit ihren reCAPTCHAs nutzen wollen.

Mit Unterstützung von Intel haben sie dazu unter recaptcha.net einen kostenlosen Webdienst aufgesetzt, der es Site-Betreibern erlaubt, ihre Seiten mit reCAPTCHAs zu bestücken. Lediglich große Websites mit hohem Traffic sollen zur Kasse gebeten werden.

Eine Erweiterung der reCAPTCHAs ist bereits in Arbeit: eine Audio-Version, die dann auch Blinde und Sehbehinderte nutzen können. Sie soll Teile von Radiosendungen erfassen, bei denen die Spracherkennung versagt hat.



Anzeige
Top-Angebote
  1. (u. a. LG OLED65W8PLA für 4.444€ statt 4.995€ im Vergleich)
  2. (u. a. Razer DeathAdder Elite Destiny 2 Edition für 29€ statt 65,99€ im Vergleich und Razer...
  3. 79,90€ + Versand (Vergleichspreis ca. 103€)
  4. (u. a. WARHAMMER für 11,99€ und WARHAMMER II für 32,99€)

ATT3 16. Aug 2008

Ist ja auch nicht der Sinn. Die Sicherheit soll nur etwas erhöht werden und gleichzeitig...

fooasdsad 30. Mai 2007

Wenn das zweite Wort "News" heitß, und man gibt "News1" ein, wird es noch akzeptiert...

sfdfdsfsd 29. Mai 2007

Full ack. The wisdom of the crowds. Wenn über die Software "nur" eine Mio. Wörter pro...

hans12 29. Mai 2007

Ich bin mir sicher, dass auch Intel und Co. über eine sehr gute OCR-Software verfügen...

Hordarc 29. Mai 2007

Ich finde es sollte der bezahlen, der seine Texte entschlüsselt bekommt.


Folgen Sie uns
       


Infiltrator Demo mit DLSS und TAA

Wir haben die Infiltrator Demo auf einer Nvidia Geforce RTX 2080 Ti mit DLSS und TAA ablaufen lassen.

Infiltrator Demo mit DLSS und TAA Video aufrufen
Norsepower: Stahlsegel helfen der Umwelt und sparen Treibstoff
Norsepower
Stahlsegel helfen der Umwelt und sparen Treibstoff

Der erste Test war erfolgreich: Das finnische Unternehmen Norsepower hat zwei weitere Schiffe mit Rotorsails ausgestattet. Der erste Neubau mit dem Windhilfsantrieb ist in Planung. Neue Regeln der Seeschifffahrtsorganisation könnten bewirken, dass künftig mehr Schiffe saubere Antriebe bekommen.
Ein Bericht von Werner Pluta

  1. Car2X Volkswagen will Ampeln zuhören
  2. Innotrans Die Schiene wird velosicher
  3. Logistiktram Frankfurt liefert Pakete mit Straßenbahn aus

Mate 20 Pro im Hands on: Huawei bringt drei Brennweiten und mehr für 1.000 Euro
Mate 20 Pro im Hands on
Huawei bringt drei Brennweiten und mehr für 1.000 Euro

Huawei hat mit dem Mate 20 Pro seine Dreifachkamera überarbeitet: Der monochrome Sensor ist einer Ultraweitwinkelkamera gewichen. Gleichzeitig bietet das Smartphone zahlreiche technische Extras wie einen Fingerabdrucksensor unter dem Display und einen sehr leistungsfähigen Schnelllader.
Ein Hands on von Tobias Költzsch

  1. Keine Spionagepanik Regierung wird chinesische 5G-Ausrüster nicht ausschließen
  2. Watch GT Huawei bringt Smartwatch ohne Wear OS auf den Markt
  3. Ascend 910/310 Huaweis AI-Chips sollen Google und Nvidia schlagen

Galaxy A9 im Hands on: Samsung bietet vier
Galaxy A9 im Hands on
Samsung bietet vier

Samsung erhöht die Anzahl der Kameras bei seinen Smartphones weiter: Das Galaxy A9 hat derer vier, zudem ist auch die restliche Ausstattung nicht schlecht. Aus verkaufspsychologischer Sicht könnte die Einstufung in die A-Mittelklasse bei einem Preis von 600 Euro ein Problem sein.
Ein Hands on von Tobias Költzsch

  1. Auftragsfertiger Samsung startet 7LPP-Herstellung mit EUV
  2. Galaxy A9 Samsung stellt Smartphone mit vier Hauptkameras vor
  3. Galaxy J4+ und J6+ Samsung stellt neue Smartphones im Einsteigerbereich vor

    •  /