Kapitel 2. Die schöne Welt von Unicode

Inhaltsverzeichnis

1. Was ist Unicode?
2. Der Wertebereich von Unicode
3. Unicode-Properties
4. Technische Repräsentation von Unicode
4.1. Wide Characters
4.1.1. Probleme mit Wide Characters
4.1.1.1. Auf- und Abwärtskompatibilität
4.1.1.2. Speicherverbrauch
4.1.1.3. Synchronisation
4.1.1.4. File-System-Safety
4.1.1.5. Was haben Eier mit Bytes zu tun?
4.1.2. UTF-16
4.1.3. UCS-2
4.1.4. UCS-4
4.2. Multi-Byte-Encodings
4.2.1. UTF-7
4.2.2. UTF-8
4.2.2.1. ASCII-Transparenz
4.2.2.2. Selbstsynchronisierung
4.2.2.3. Speicherverbrauch
4.2.2.4. Nachteile von UTF-8
5. Zusammenfassung

Der Schuldige für die babylonische Codeset-Verwirrung im Computerbereich ist leicht ausgemacht: Es ist die historisch bedingte Konvention, dass Computer Schriftzeichen intern als ein einziges Byte repräsentieren. Diese Konvention impliziert eine Beschränkung des Wertebereichs für Zeichencodes auf die Spanne 0-255, mit dieser Beschränkung lassen sich viele Sprachen dieser Welt nicht adäquat repräsentieren, und an eine parallele Verwendung mehrerer Sprachen innerhalb eines einzigen Dokumentes ist überhaupt nicht zu denken.

1. Was ist Unicode?

Die Lösung des Problems liegt auf der Hand: Der Wertebereich muss vergrößert werden. Und nichts anderes macht Unicode: Genau wie ASCII eine Standardzuordnung für die Codes mit den Nummern 0-127 vorgenommen hat, definiert Unicode eine weitere Standardzuordnung. Dem Unicode-Standard liegt dabei das ehrgeizige Ziel zugrunde, eine Standardzuordnung für jedes Schriftzeichen der Erde zu schaffen (für Schriften aus dem extraterristrischen siehe den Anhang A, Klingonisch (tIhIngan Hol)), nicht nur für echte Schriftzeichen, sondern beispielsweise auch für technische Symbole, musikalische Zeichen, Lautschrift, und viele weitere Graphiken. Es dürfte klar sein, dass der Unicode-Standard deshalb permanenten Änderungen unterworfen ist, weil auch permanent Vorschläge für die Aufnahme neuer Zeichen gemacht werden. Allerdings werden Zeichen in aller Regel zugefügt, Neu-Zuordnungen werden strikt vermieden, wodurch eine Abwärtskompatibilität des Standards sichergestellt ist.

Unicode ist übrigens auch als offizieller Standard ISO/IEC 10646 bekannt. Der Unicode-Standard wird vom Unicode Consortium, dem Zusammenschluss vieler führender Softwarehersteller und öffentlicher Einrichtungen in einer gemeinnützigen Organisation, gepflegt und weiterentwickelt. Zur Zeit aktuell ist [Unicode 3.0]; [Unicode 4.0] ist auf dem Weg und wird für den September 2003 erwartet.

Weitere wissenswerte Informationen können dem Artikel Was ist Unicode? auf [www.unicode.org] entnommen werden.