Chung-Kwei: Genforschung hilft gegen Spam
Chung-Kwei soll sich sehr schnell trainieren lassen und im laufenden Betrieb schließlich selbst lernen. Das System nutzt den Teiresias-Algorithmus und ist Teil von SpamGuru, einem Anti-Spam-System, das derzeit bei IBM entwickelt wird. Die Grundidee ist dabei recht einfach: Anhand einer gegebenen Menge von Spam-Mail wird mit Hilfe des Teiresias-Algorithmus nach Mustern gesucht, die mehr als einmal in den Mails vorkommen. Anschließend wird in neuen E-Mails nach diesen Mustern gesucht. Je mehr Spam-typische Muster in einer E-Mail vorkommen, desto höher ist die Wahrscheinlichkeit, dass es sich um Spam handelt.
Die Forscher nutzten ein System auf Basis eines Pentium IV mit 2,2 GHz und trainierten es mit 87.000 Spam-E-Mails. Anschließend wurde es mit 88.000 E-Mails, sowohl normalen E-Mails als auch Spam, getestet und erkannte 96,56 Prozent aller Spam-E-Mails, nur 0,066 Prozent der Mails wurden fälschlicherweise als Spam erkannt. Dabei konnte das System 214 E-Mails pro Sekunde zuordnen.
Das System soll sich vor allem durch die Verwaltung der Muster-Datenbank von anderen Ansätzen unterscheiden und so eine bessere Fehlerrate erreichen. Details zu Chung-Kwei finden sich im Aufsatz Chung-Kwei: a Pattern-discovery-based System for the Automatic Identification of Unsolicited E-mail Messages(öffnet im neuen Fenster) .



