Algorithmus vermeidet ähnliche Top-Level-Domains
Erkennung von gleich aussehenden Buchstaben und Zeichenfolgen
Im Laufe des Jahres 2008 will die Internet Corporation for Assigned Names and Numbers (ICANN) neue generische Top-Level-Domains (gTLD) einführen. Um Verwirrungen zu vermeiden, hat ein Entwickler in den USA einen Algorithmus entwickelt, der helfen soll, "visuelle Ähnlichkeiten" mit bestehenden gTLDs zu vermeiden.
Zeichen wie eine "0" und ein "O" oder eine "1", ein großes "I" und ein kleines "L" sind oft nur schwer zu unterscheiden. Das Gleiche gilt für manche Zeichenkombinationen: So ähneln beispielsweise ein kleines "R" und ein kleines "N" einem kleinen "M" oder zwei "V" einem "W". Bei Nutzern können solche Ähnlichkeiten zu Verwirrungen führen. Um diese zu verhindern und um Internetbetrügern keine Möglichkeiten zu bieten, hat die Internet Corporation for Assigned Names and Numbers (ICANN) Entwickler beauftragt, einen Weg zu finden, wie sich bei der geplanten Einführung neuer generischer Top-Level-Domains (gTLD) solche Ähnlichkeiten im Aussehen vermeiden lassen.
Paul E. Black von der US-Standardisierungsbehörde National Institute of Standards and Technology (NIST) hat nun einen Algorithmus vorgestellt, mit dessen Hilfe die ICANN die neuen gTLDs mit den bereits vorhandenen, wie etwa .com, .gov oder .org, vergleichen kann.
Die Bedienung ist einfach: In ein Eingabefeld wird eine mögliche neue TLD eingegeben, und Blacks Algorithmus errechnet dann einen Ähnlichkeitswert zu anderen vorgeschlagenen oder existierenden TLDs. Daneben gibt es die Möglichkeit, in zwei Felder Buchstabenfolgen einzugeben, die der Algorithmus dann miteinander vergleicht. Dabei werden nicht nur die Ähnlichkeiten zwischen 60 Buchstabenkombinationen ermittelt, sondern auch solche, die auf Grund von Löschungen oder Einfügungen entstehen, etwa zwischen ".aaaah" und ".aaaaah", die zu 92 Prozent übereinstimmen. Eine besondere Schwierigkeit sei dabei, dass bei Domainnamen Groß- und Kleinschreibung keine Rolle spiele, schreibt Black.
Nach Angaben des NIST überprüft die ICANN die Möglichkeit, den Algorithmus dahingehend zu erweitern, dass auch TLD-Namen in anderen Schriften wie etwa Kyrillisch verglichen werden können.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed








An sich ist es, wie der Erstsemestler erwähnt hat, nur eine Frage der Scoringmatrix...
Erstaunlich, mit welchen Entwicklungen man heutzutage in die "Zeitung" kommen kann. Wenn...
was soll daran ein "algorithmus" sein? mit einer handvoll regular expressions kann man...
Nein, durch Großschreibung kennzeichnet man, dass man sich keine neue Tastatur leisten...