Abo
  • Services:
Anzeige

reCAPTCHA: Stoppt Spam, lest Bücher

Spam-Schutz soll helfen, gescannte Texte zu digitalisieren

Wissenschaftler der Carnegie-Mellon-Universität wollen Websites mit "reCAPTCHAs" vor automatisierten Spam-Angriffen schützen und zugleich die Digitalisierung von Büchern vorantreiben. Dabei arbeiten sie mit dem Internet Archive zusammen und werden von Intel unterstützt.

So genannte CAPTCHAs werden genutzt, um zwischen Mensch und Maschine zu unterscheiden und so automatisierten Spam aus Foren und Blog-Kommentaren zu verbannen oder beim Anlegen eines neuen E-Mail-Accounts sicherzustellen, dass ein Mensch am Rechner sitzt. Verzerrte, zum Teil schwer lesbare Buchstaben müssen erkannt werden, um z.B. einen Kommentar in einem so geschützten Blog zu hinterlassen. Sind die CAPTCHAs gut gemacht, wird es für Computerprogramme schwieriger, ungewollten Werbemüll abzusetzen.

Anzeige

Die Idee steht auch hinter den "reCAPTCHAs", doch werden hier gleich zwei Fliegen mit einer Klappe geschlagen: Statt zufälliger Buchstabenfolgen kommt gescannter Text zum Einsatz, bei dem die Texterkennung (OCR) versagt hat. So kann recht gut sichergestellt werden, dass eine Software den Text nicht erkennen kann, zugleich aber werden die Eingaben genutzt, um gescannte Texte auf diesem Weg von Menschen erkennen zu lassen.

Die gescannten Texte stellt das Internet Archive bereit, das im Rahmen der Open Content Alliance große Buchbestände digitalisiert. Um die erfassten Texte durchsuchbar zu machen, müssen sie von einer Texterkennung erfasst werden, was aber nicht immer funktioniert. Dies sollen nun Menschen ganz nebenbei übernehmen.

Statt also zufälliger Texte sollen Menschen bei den reCAPTCHAs Texte erkennen, die Computer nicht auswerten konnten. Dazu werden immer zwei Wörter präsentiert: eines, zu dem die Software bereits die Bedeutung kennt und so feststellen kann, ob der Nutzer den Text richtig erkannt hat, ein zweites, das dem System unbekannt ist und so nebenbei vom Nutzer erkannt wird. Die einzelnen Wörter werden dabei mehreren Nutzern präsentiert, um Fehler bei der Erkennung zu minimieren, denn wenn mehrere Nutzer die gleiche Übersetzung liefern, dürfte diese wohl korrekt sein.

Die Wissenschaftler um Professor Manuel Blum schätzen, dass täglich rund 60 Millionen CAPTCHAs entschlüsselt werden, was im Schnitt jeweils rund 10 Sekunden in Anspruch nimmt. So werden rund 150.000 Stunden an Arbeit verschwendet, die sie mit ihren reCAPTCHAs nutzen wollen.

Mit Unterstützung von Intel haben sie dazu unter recaptcha.net einen kostenlosen Webdienst aufgesetzt, der es Site-Betreibern erlaubt, ihre Seiten mit reCAPTCHAs zu bestücken. Lediglich große Websites mit hohem Traffic sollen zur Kasse gebeten werden.

Eine Erweiterung der reCAPTCHAs ist bereits in Arbeit: eine Audio-Version, die dann auch Blinde und Sehbehinderte nutzen können. Sie soll Teile von Radiosendungen erfassen, bei denen die Spracherkennung versagt hat.


eye home zur Startseite
ATT3 16. Aug 2008

Ist ja auch nicht der Sinn. Die Sicherheit soll nur etwas erhöht werden und gleichzeitig...

fooasdsad 30. Mai 2007

Wenn das zweite Wort "News" heitß, und man gibt "News1" ein, wird es noch akzeptiert...

sfdfdsfsd 29. Mai 2007

Full ack. The wisdom of the crowds. Wenn über die Software "nur" eine Mio. Wörter pro...

hans12 29. Mai 2007

Ich bin mir sicher, dass auch Intel und Co. über eine sehr gute OCR-Software verfügen...

Hordarc 29. Mai 2007

Ich finde es sollte der bezahlen, der seine Texte entschlüsselt bekommt.


memmaker / 29. Mai 2007

reCaptcha und so



Anzeige

Stellenmarkt
  1. ALPLA Werke Alwin Lehner GmbH & Co KG, Hard (Österreich)
  2. ENERTRAG Aktiengesellschaft, Berlin
  3. Bosch SoftTec GmbH, Hildesheim
  4. Formel D GmbH, München


Anzeige
Blu-ray-Angebote
  1. (u. a. Die große Bud Spencer-Box Blu-ray 16,97€, Club der roten Bänder 1. Staffel Blu-ray 14...
  2. (u. a. John Wick, Leon der Profi, Auf der Flucht, Das Schweigen der Lämmer)
  3. (u. a. London Has Fallen, The Imitation Game, Lone Survivor, Olympus Has Fallen)

Folgen Sie uns
       


  1. Patent

    Samsung zeigt konkrete Ideen für faltbares Smartphone

  2. Smarter Lautsprecher

    Google will Home intelligenter machen

  3. Samsung 960 Evo im Test

    Die NVMe-SSD mit dem besten Preis-Leistungs-Verhältnis

  4. Projekt Titan

    Apple will Anti-Kollisionssystem für Autos patentieren

  5. Visualisierungsprogramm

    Microsoft bringt Visio für iOS

  6. Auftragsfertiger

    TSMC investiert 16 Milliarden US-Dollar in neue Fab

  7. Frontier Developments

    Weltraumspiel Elite Dangerous erscheint auch für die PS4

  8. Apple

    MacOS 10.12.2 soll Probleme beim neuen Macbook Pro beheben

  9. Smartphones

    iOS legt weltweit zu - außer in China und Deutschland

  10. Glasfaser

    EWE steckt 1 Milliarde Euro in Fiber To The Home



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Canon EOS 5D Mark IV im Test: Grundsolides Arbeitstier mit einer Portion Extravaganz
Canon EOS 5D Mark IV im Test
Grundsolides Arbeitstier mit einer Portion Extravaganz
  1. Video Youtube spielt Livestreams in 4K ab
  2. Ausgabegeräte Youtube unterstützt Videos mit High Dynamic Range
  3. Canon EOS M5 Canons neue Systemkamera hat einen integrierten Sucher

Named Data Networking: NDN soll das Internet revolutionieren
Named Data Networking
NDN soll das Internet revolutionieren
  1. Geheime Überwachung Der Kanarienvogel von Riseup singt nicht mehr
  2. Bundesförderung Bundesländer lassen beim Breitbandausbau Milliarden liegen
  3. Internet Protocol Der Adresskollaps von IPv4 kann verzögert werden

Travelers Box: Münzgeld am Flughafen tauschen
Travelers Box
Münzgeld am Flughafen tauschen
  1. Apple Siri überweist Geld per Paypal mit einem Sprachbefehl
  2. Soziales Netzwerk Paypal-Zahlungen bei Facebook und im Messenger möglich
  3. Zahlungsabwickler Paypal Deutschland bietet kostenlose Rücksendungen an

  1. Re: Das Problem sind die Käufer

    Cycl0ne | 10:40

  2. Re: Emulationen sind immer gleichbedeutend wie...

    HubertHans | 10:39

  3. Re: Naja...

    Trollversteher | 10:39

  4. Re: Haha. Und was sagen die Apple-Basher jetzt?

    Peter Brülls | 10:38

  5. Re: Sensoren die Hindernisse erkennen - GENIAL

    david_rieger | 10:37


  1. 10:40

  2. 10:23

  3. 09:00

  4. 08:48

  5. 08:00

  6. 07:43

  7. 07:28

  8. 07:15


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel