Zum Hauptinhalt Zur Navigation

Chung-Kwei: Genforschung hilft gegen Spam

IBM-Forscher nutzen Mustererkennung aus der Genforschung für Spam-Filter. Die IBM-Forscher Isidore Rigoutsos Tien Huyn von IBMs Thomas-J-Watson-Forschungszentrum haben mit "Chung-Kwei" einen neuen Algorithmus entwickelt, mit dem sich Spam erkennen lassen soll. Chung-Kwei basiert dabei auf Methoden zur Mustererkennung, die ursprünglich in der Gen-Forschung zum Einsatz kamen.
/ Jens Ihlenfeld
Kommentare News folgen (öffnet im neuen Fenster)

Chung-Kwei soll sich sehr schnell trainieren lassen und im laufenden Betrieb schließlich selbst lernen. Das System nutzt den Teiresias-Algorithmus und ist Teil von SpamGuru, einem Anti-Spam-System, das derzeit bei IBM entwickelt wird. Die Grundidee ist dabei recht einfach: Anhand einer gegebenen Menge von Spam-Mail wird mit Hilfe des Teiresias-Algorithmus nach Mustern gesucht, die mehr als einmal in den Mails vorkommen. Anschließend wird in neuen E-Mails nach diesen Mustern gesucht. Je mehr Spam-typische Muster in einer E-Mail vorkommen, desto höher ist die Wahrscheinlichkeit, dass es sich um Spam handelt.

Die Forscher nutzten ein System auf Basis eines Pentium IV mit 2,2 GHz und trainierten es mit 87.000 Spam-E-Mails. Anschließend wurde es mit 88.000 E-Mails, sowohl normalen E-Mails als auch Spam, getestet und erkannte 96,56 Prozent aller Spam-E-Mails, nur 0,066 Prozent der Mails wurden fälschlicherweise als Spam erkannt. Dabei konnte das System 214 E-Mails pro Sekunde zuordnen.

Das System soll sich vor allem durch die Verwaltung der Muster-Datenbank von anderen Ansätzen unterscheiden und so eine bessere Fehlerrate erreichen. Details zu Chung-Kwei finden sich im Aufsatz Chung-Kwei: a Pattern-discovery-based System for the Automatic Identification of Unsolicited E-mail Messages(öffnet im neuen Fenster) .


Relevante Themen