![]() |
Stellenmarkt
Test Engineers (m/w)
Projektleiter DMS- / SAP-Business-Workflow (m/w)
Solution Consultant Software-Entwicklung (m/w) Verwandte ThemenWissenschaft, Internet, OCR, Spam Verwandte ArtikelT-Online bald mit serverseitigem Viren- und Spamschutz Auch Microsoft will eine Büchersuche starten Open Content Alliance will Inhalte frei zugänglich machen Letzte MeldungenSony hofft auf das große Geld mit 3D Weg frei für 4-GByte-Module: Hynix mit 40nm-DRAMs XMLHttpRequest auf dem Weg zum Webstandard Verleiher: Nicht alle Filme auf Blu-ray bieten mehr Qualität Neues Verfahren für Herstellung von OLEDs Fedora setzt Rechte bei Software-Installation zurück Star Trek Online: Kurs auf offene Beta im Januar 2010 Canonical arbeitet für Google an Chrome OS Spieletest: Left 4 Dead 2 - untotes Multiplayergemetzel RFID-Chips machen Metallteile schlau GPL-Programm Fpflac nutzt mehrere Prozessoren CHKDSK-Bug nervt Nutzer von Windows 7 (Update) AOL kündigt 2.500 Mitarbeitern und verkauft MapQuest und ICQ AMD: Nur einige tausend Radeon 5800 pro Woche Kreditkartenumtausch: Banken fordern Entschädigung Call of Duty 6: Wirbel um gesperrte Accounts auf Steam HDMI bekommt aussagekräftige Logos Mozilla steigert Umsatz und Kosten Dell sieht Belebung bei PC-Nachfrage von Firmenkunden Regierung startet Offensive Elektroauto PHP 5.3.1 beseitigt zahlreiche Fehler Dell mit Tintenstrahl-Multifunktionssystemen in Serie Youtube untertitelt Videos per Spracherkennung automatisch LED-Multifunktionsdrucker von Oki Funktioniert trotzdem: Fernbedienung ohne Batterie Haben wir etwas übersehen? Dann Mail an news@golem.de. |
|||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||
reCAPTCHA: Stoppt Spam, lest BücherSpam-Schutz soll helfen, gescannte Texte zu digitalisieren
So genannte CAPTCHAs werden genutzt, um zwischen Mensch und Maschine zu unterscheiden und so automatisierten Spam aus Foren und Blog-Kommentaren zu verbannen oder beim Anlegen eines neuen E-Mail-Accounts sicherzustellen, dass ein Mensch am Rechner sitzt. Verzerrte, zum Teil schwer lesbare Buchstaben müssen erkannt werden, um z.B. einen Kommentar in einem so geschützten Blog zu hinterlassen. Sind die CAPTCHAs gut gemacht, wird es für Computerprogramme schwieriger, ungewollten
Werbemüll abzusetzen.
Die Idee steht auch hinter den "reCAPTCHAs", doch werden hier gleich zwei Fliegen mit einer Klappe geschlagen: Statt zufälliger Buchstabenfolgen kommt gescannter Text zum Einsatz, bei dem die Texterkennung (OCR) versagt hat. So kann recht gut sichergestellt werden, dass eine Software den Text nicht erkennen kann, zugleich aber werden die Eingaben genutzt, um gescannte Texte auf diesem Weg von Menschen erkennen zu lassen.
Die gescannten Texte stellt das Internet Archive bereit, das im Rahmen der Open Content Alliance große Buchbestände digitalisiert. Um die erfassten Texte durchsuchbar zu machen, müssen sie von einer Texterkennung erfasst werden, was aber nicht immer funktioniert. Dies sollen nun Menschen ganz nebenbei übernehmen. Statt also zufälliger Texte sollen Menschen bei den reCAPTCHAs Texte erkennen, die Computer nicht auswerten konnten. Dazu werden immer zwei Wörter präsentiert: eines, zu dem die Software bereits die Bedeutung kennt und so feststellen kann, ob der Nutzer den Text richtig erkannt hat, ein zweites, das dem System unbekannt ist und so nebenbei vom Nutzer erkannt wird. Die einzelnen Wörter werden dabei mehreren Nutzern präsentiert, um Fehler bei der Erkennung zu minimieren, denn wenn mehrere Nutzer die gleiche Übersetzung liefern, dürfte diese wohl korrekt sein. Die Wissenschaftler um Professor Manuel Blum schätzen, dass täglich rund 60 Millionen CAPTCHAs entschlüsselt werden, was im Schnitt jeweils rund 10 Sekunden in Anspruch nimmt. So werden rund 150.000 Stunden an Arbeit verschwendet, die sie mit ihren reCAPTCHAs nutzen wollen. Mit Unterstützung von Intel haben sie dazu unter recaptcha.net einen kostenlosen Webdienst aufgesetzt, der es Site-Betreibern erlaubt, ihre Seiten mit reCAPTCHAs zu bestücken. Lediglich große Websites mit hohem Traffic sollen zur Kasse gebeten werden. Eine Erweiterung der reCAPTCHAs ist bereits in Arbeit: eine Audio-Version, die dann auch Blinde und Sehbehinderte nutzen können. Sie soll Teile von Radiosendungen erfassen, bei denen die Spracherkennung versagt hat. (ji)
|
||||||||||||||||||||||||||||||||||||||||||||||

