Kritik an Unicode und Ausblick
Der Unicode-Standard ist nicht perfekt und so gab und gibt es immer wieder Kritik an ihm. Einer der Kritikpunkte ist die Han-Vereinheitlichung. Bei ihr geht es darum, die Zeichen aus den unterschiedlichen ostasiatischen Sprachen auf ihre Grundformen zurückzuführen und entsprechend im Unicode-Standard abzubilden. Kritisiert wurde das, weil teilweise Zeichen vereinheitlicht wurden, die nicht unbedingt dieselbe Bedeutung hatten.
Aus Sicht der IT-Sicherheit wird manchmal die Nutzung von Homoglyphen kritisiert, da dort bestimmte Zeichen durch andere, ähnlich aussehende Zeichen ausgetauscht werden, um beispielsweise eine Domain einer Bank zu imitieren und Kunden so um ihre Zugangsdaten zu bringen. Ein bekanntes Beispiel ist der Austausch des Buchstabens O durch eine 0, was schon beim ASCII-Standard funktionierte. Mit dem Unicode-Standard sind viele weitere Möglichkeiten für solche Homoglyphen dazugekommen.
Auch die Sortierung und Groß- und Kleinschreibung kann sich im Codespace von Unicode und entsprechender lokaler Regelungen manchmal als schwierig erweisen. Zum Beispiel ergibt sich die Sortierreihenfolge nicht unbedingt aus der Anordnung der Zeichen innerhalb des Codespace.
Unicode ist bisher nicht überall angekommen. So wird der Standard ISO/IEC 8859-15 respektive Latin-9 als 8-Bit-Code weiterhin verwendet. Genutzt wird diese Codierung unter anderem bei amtlichen Dokumenten wie der elektronischen Gesundheitskarte.
Im Internet sind mittlerweile über 97,6 Prozent aller Webseiten als UTF-8 kodiert, 1,1 Prozent als ISO-8859-1 und rund ein Prozent entfällt auf die Codierungen Windows-1251 und Windows-1252.
Alte Zeichensätze und Codierungen werden über kurz oder lang ein Nischendasein führen und zum Großteil durch Unicode ersetzt werden, zumindest was moderne Systeme angeht.
Im Rahmen der Script Encoding Initiative, welche die Linguistin Deborah Anderson seit 2002 an der University of California in Berkeley betreibt, werden neue Schriftsysteme für den Standard vorgeschlagen, sodass auch in Zukunft weitere Zeichen in den Standard aufgenommen werden.
So zog 2016 mit Adlam ein ungewöhnliches Schriftsystem in den Standard ein. Ungewöhnlich deshalb, weil dieses System erst seit 1989 existiert. Zwei Brüder entwickelten dieses System, um ihre Sprache, Fulani, phonetisch in einem Schriftsystem abbilden zu können. Etliche Jahre später wurde das System dank der Unterstützung der Script Encoding Initiative schließlich in den Unicode-Standard übernommen und wird mittlerweile unter Windows, Chrome OS und Android unterstützt.
Unicode ist die Zukunft
Dieses Beispiel zeigt, wie Unicode als Grundlage für die Nutzung und Überführung von Schriftsystemen in die digitale Welt fungiert. Noch einige Jahrzehnte zuvor war ein Großteil des Internets und der IT auf einige lateinische Buchstaben reduziert. Dank Unicode ist es möglich, in seiner jeweiligen Muttersprache und in seinem angestammten Schriftsystem digital zu kommunizieren, sich zu informieren und teilzuhaben.
Das Unicode Consortium wird seine Arbeit fortsetzen und sich dabei auch in einem teilweise politischen Spannungsfeld bewegen. Wie Randall Munroe, Autor des xkcd-Comics dazu einmal sagte:
"Ich bin unendlich erfreut über die hoffnungslose Aufgabe, die sich das Unicode-Konsortium selbst gestellt hat. [...] Am Anfang haben sie nur versucht, ein paar verschiedene Zeichensätze zu vereinheitlichen. Und bevor sie so richtig merkten, was passierte, hatten sie mit Entscheidungen zu kämpfen, die den Kern unseres Sprachgebrauchs betrafen, egal wie sehr sie versuchten, Richtlinien zu entwickeln, um diese Probleme zu vermeiden. Es ist einfach ein lustiges Beispiel dafür, wie seltsam Sprache ist, wie schwierig die menschliche Kommunikation ist und dass man diese Probleme nicht wirklich umgehen kann."
So bietet uns Unicode lateinische Schrift, Spielkarten, Operatoren, Emojis, Schriftzeichen aus vielen menschlichen Kulturen und mehr. Und da sich Schrift und Sprache im Laufe der Zeit verändern, wird der Unicode-Standard wohl nie fertiggestellt, sondern ein lebendiger und sich weiterentwickelnder Standard sein.
Mit seinen 144.697 Zeichen und der Abbildung von über 150 Schriftsystemen liefert er einen Beitrag zum Erhalt der Schriftkultur und der Daten über die Jahrzehnte. In Zeiten von Globalisierung und weltweit miteinander interagierender Systeme ist ein gemeinsamer Zeichensatz sicherlich nicht die schlechteste Idee gewesen.
Florian Bottke ist seit vielen Jahren in der Softwareentwicklung, insbesondere im Backend, tätig. Daneben schreibt er regelmäßig zu technischen Themen und betreibt mit dem SNEScast einen Podcast rund um das Super Nintendo Entertainment System.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
So wird Unicode aktuell genutzt |
Aach.. hier hat doch niemand Pointer auf Integer gecastet... sowas würden wir nie tun...
Ich muss deinen Titel korrigieren: Nicht Unicode ist kompliziert, die menschliche Sprache...
Wenn ich den Artikel richtig verstanden habe, dann sind die Planes Exx und Fxx für...
Das konnten Platten von Seagate* schon seit Jahrzehnten. "Sie geht, oder sie geht...
Kommentieren