Wie Unicode entstand und funktioniert

Wie so viele Entwicklungen, die die IT weiterbrachten, hatte die Entwicklung von Unicode etwas mit Xerox zu tun - vom PARC Universal Packet, das maßgeblich das Design von TCP/IP beeinflusste, bis zum WIMP-Paradigma (Windows, Icons, Menus, Pointer), dem wir unsere modernen Desktop-Oberflächen und Interface-Konzepte verdanken.

Stellenmarkt
  1. Entwicklungsingenieur*in (d/m/w) Software und Datenmanagement
    OSRAM GmbH, Regensburg
  2. (Fach)informatiker als IT-Forensik Analyst (m/w/d) Cyber-Crime / Datenanalyse & eDiscovery
    FAST-DETECT GmbH, Unterhaching
Detailsuche

Dort entstand der Xerox Character Code Standard, der als inoffizieller Vorgänger des Unicode-Standards betrachtet werden kann. Der Informatiker Joseph D. Becker, der sich bei Xerox schon länger mit multilingualer Software befasst und 1984 das Paper Multilingual Word Processing dazu verfasste, ist einer der Erfinder und Gestalter von Unicode.

Die eigentliche Entwicklung von Unicode begann 1987. Neben Joseph D. Becker arbeiteten Lee Collins und Mark Davis, damals bei Apple angestellt, ebenfalls an dem neuen Standard. Sie sollten ein universelles Set von Zeichen darstellen, in dem die aktuellen Schriftsysteme der Zeit enthalten sein sollten. In der damaligen Entwurfsphase war es noch nicht das erklärte Ziel, historische Schriftsysteme abzubilden.

Dazu schrieb Joseph D. Becker im Dokument Unicode 88 (PDF), das im Rahmen des 10. Unicode-Jubiläums erschien: "Unicode räumt der Sicherung des Nutzens für die Zukunft höhere Priorität ein als der Bewahrung vergangener Antiquitäten. Unicode zielt in erster Linie auf die Zeichen ab, die in modernen Texten veröffentlicht werden [...] alle anderen können als veraltet oder selten definiert werden; diese sind bessere Kandidaten für eine private Registrierung, als dass sie die öffentliche Liste der allgemein nützlichen Unicodes verstopfen sollten."

Golem Akademie
  1. Kubernetes Dive-in-Workshop: virtueller Drei-Tage-Workshop
    19.-21.07.2022, Virtuell
  2. IT-Grundschutz-Praktiker mit Zertifikat: Drei-Tage-Workshop
    04.-06.07.2022, Virtuell
Weitere IT-Trainings

Im Laufe des Jahres 1989 stießen Mitarbeiter von Metaphor, RLG und Sun Microsystems zur Gruppe um Becker. 1990 wurde das Team um Mitstreiter von Microsoft und NEXT erweitert. Ende desselben Jahres war der Standard so weit gediehen, dass am 3. Januar 1991 das Unicode Consortium gegründet wurde. Es setzte einige Monate später, im Oktober 1991, den ersten Unicode-Standard in die Welt.

Allerdings wurde dies nicht überall so verstanden. In der Truetype-Spezifikation in Version 1.0 für das entsprechende Font-Format erhielt der Standard die Plattform-ID Apple Unicode, was allerdings ein Irrtum war, der mittlerweile korrigiert wurde.

Beim Unicode Consortium selbst handelt es sich um eine gemeinnützige Organisation mit Sitz in Mountain View in Kalifornien. Sie sorgt für die Weiterentwicklung des Standards und die Aufnahme weiterer Zeichen. Zu den Mitgliedern gehören unter anderem Adobe, Apple, Google und Netflix, aber auch Institutionen wie das Bangladesh Computer Council.

Aufbau von Unicode

Grundsätzlich definiert der Unicode-Standard einen sogenannten Codespace. Jedem Zeichen wird eine Nummer innerhalb dieses Codespace zugewiesen. Ein vergebener Wert für ein Zeichen wird als Code Point bezeichnet und stellt die Grundlage von Unicode dar. So entspricht etwa der Code Point 2126 dem Omega-Zeichen (Ω). Der Umfang dieses Codespace erstreckt sich von 0 bis 10FFFF.

Genau betrachtet stellt ein Code Point aber nicht unbedingt ein Zeichen dar, da es Zeichen gibt, die sich aus mehreren Code Points zusammensetzen. So könnte ein Ä als A mit einem Trema (die Punkte über dem Ä), also mit zwei Code Points, dargestellt werden.

Auch werden keine Repräsentationen der Zeichen durch den Unicode-Standard vorgegeben. Stattdessen handelt es sich um abstrakte Zeichen, welche definiert werden. Ihre jeweilige Ausgestaltung ist zum Beispiel entsprechenden Fonts vorbehalten.

Allerdings ist der Adressraum von Unicode nicht flach, sondern in sogenannte Planes unterteilt. Eine Plane entspricht hierbei 2^16, also 65.536 Code Points. Insgesamt sind 17 Planes (Plane 0 bis 16) im Standard definiert. Damit ist das aktuelle Limit an Zeichen in Unicode auf 1.114.112 festgelegt. Nach dem Abzug von Regionen für die private Nutzung bleiben am Ende in etwa 970.000 Code Points für die öffentliche Nutzung übrig.

Planes, Code Points, Blöcke

Die Planes sind nach bestimmten Kriterien unterteilt und definiert. Aktuell genutzt respektive definiert sind sieben dieser Planes, zwei davon für die private Nutzung. Diese haben somit im Unicode-Standard keinerlei Zeichen zugewiesen bekommen.

Die wichtigste und zuerst definierte Plane ist die Basic Multilingual Plane (BMP) mit der ID 0. In ihr sind die Zeichen für die meisten aktuell genutzten Sprachen definiert. Grundsätzlich sollten in dieser Plane alle Zeichen definiert werden, die in modernen Schriftsystemen rund um die Welt Verwendung finden. Neben Symbolen und lateinischen Buchstaben finden sich hier hauptsächlich die Zeichen aus der chinesischen, japanischen und koreanischen Sprache.

Die Golem-PCs bei Dubaro

Innerhalb der Planes werden die Code Points in Blöcken gruppiert. In der BMP existieren 164 solcher Blöcke. In ihnen werden Schriftzeichen thematisch gruppiert, beispielsweise der Block für lateinische Buchstaben, für Thai, für mathematische Operatoren (PDF) oder geometrische Formen (PDF). Die Größe eines Blocks hängt von der Anzahl der zu kodierenden Code Points ab, ist aber immer ein Vielfaches von 16.

Neben dieser Plane existieren noch die Supplementary Multilingual Plane mit der ID 1, die Supplementary Ideographic Plane mit der ID 2, die Tertiary Ideographic Plane mit der ID 3 und die Supplementary Special-purpose Plane mit der ID 14.

Auch Hieroglyphen sind dabei

In der Supplementary Multilingual Plane finden sich weitere Schriftsysteme, auch historischer Natur, wie ägyptische Hieroglyphen oder Zeichen zur Notation von Musik. Die Supplementary Ideographic Plane enthält weitere sogenannte CJK-Zeichen, also Schriftzeichen aus dem Chinesischen, Japanischen, Koreanischen und Vietnamesischen.

Neben einigen historischen Schriftsystemen wie dem Oracle bone script, einem Vorgänger der chinesischen Schrift, der auf Orakelknochen gefunden wurde, ist die Tertiary Ideographic Plane größtenteils leer. Die Supplementary Special-purpose Plane wird für bestimmte Zeichen genutzt, die zum Beispiel bei Emojis vorkommen.

Die Planes 4 bis 13 sind im Moment nicht belegt und somit für zukünftige Erweiterungen verfügbar. Die Planes 15 und 16 sind sogenannte Private Use Area Planes, mit denen Zeichen kodiert werden können, die nicht im Unicode-Standard definiert sind. Hierbei müssen sich die Anwendungen über die Bedeutung der einzelnen Zeichen bewusst sein, um sie korrekt darstellen zu können.

Teilweise sind die Zeichen innerhalb einer Plane und entsprechender Blöcke fragmentiert, da Blöcke bereits komplett belegt waren und Zeichen erst später dazukamen. Neben besagter Fragmentierung befinden sich auch historische Altlasten im Unicode.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Drei Jahrzehnte Unicode: Alles außer KlingonischAltlasten im Unicode 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7.  


Hugie 30. Mär 2022 / Themenstart

Aach.. hier hat doch niemand Pointer auf Integer gecastet... sowas würden wir nie tun...

LASERwalker 28. Mär 2022 / Themenstart

Ich muss deinen Titel korrigieren: Nicht Unicode ist kompliziert, die menschliche Sprache...

strohkoenig 28. Mär 2022 / Themenstart

Wenn ich den Artikel richtig verstanden habe, dann sind die Planes Exx und Fxx für...

maxule 28. Mär 2022 / Themenstart

Das konnten Platten von Seagate* schon seit Jahrzehnten. "Sie geht, oder sie geht...

Kommentieren



Aktuell auf der Startseite von Golem.de
US-Militär
Kernkraft im Weltall von Vernunft bis möglichem Betrug

Zwei Techniken sollen 2027 mit Satelliten fliegen, ein Fusionsreaktor und eine Radioisotopenbatterie. Nur eine davon ist glaubwürdig.
Von Frank Wunderlich-Pfeiffer

US-Militär: Kernkraft im Weltall von Vernunft bis möglichem Betrug
Artikel
  1. Nordvpn, Expressvpn, Mullvad & Co: Die Qual der VPN-Wahl
    Nordvpn, Expressvpn, Mullvad & Co
    Die Qual der VPN-Wahl

    Wer sicher im Internet unterwegs sein will, braucht ein VPN - oder doch nicht? Viele Anbieter kommen jedenfalls gar nicht erst in Frage.
    Von Moritz Tremmel

  2. United Internet: Neues Mobilfunknetz mit 500 regionalen Rechenzentren
    United Internet
    Neues Mobilfunknetz mit 500 regionalen Rechenzentren

    Ralph Dommermuth will in den Rechenzentren Serverkapazität an andere Unternehmen vermieten. Für United Internet sieht er Probleme beim Netzaufbau.

  3. Halbleiter & SMIC: Chip-Nachfrage für Smartphones und PC fällt wie ein Stein
    Halbleiter & SMIC
    Chip-Nachfrage für Smartphones und PC fällt "wie ein Stein"

    Chinesische Kunden von SMIC haben volle Lager und ordern weniger Chips. Andere Halbleiter sollen den Einbruch auffangen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5 jetzt bestellbar • Cyber Week: Bis zu 900€ Rabatt auf E-Bikes • MindStar (u. a. Intel Core i9 529€, MSI RTX 3060 Ti 609€) • Gigabyte Waterforce Mainboard günstig wie nie: 480,95€ • Razer Ornata V2 Gaming-Tastatur günstig wie nie: 54,99€ • AOC G3 Gaming-Monitor 34" 165 Hz günstig wie nie: 404€ [Werbung]
    •  /