Wieviele Zeichen lassen sich mit Unicode repräsentieren? In [Unicode 3.0] sind 49.149 Zeichen enthalten, und ein Unicode-Zeichen hat eine Größe von 16 Bits (im Gegensatz zu 7 Bits für ASCII-Zeichen, oder 8 Bits für Zeichensätze wie ISO-8859-1). 16 Bits oder zwei Bytes bedeutet, dass theoretisch die Codes 0-65.535 (entspricht 65.536 Zeichen) verwendet werden können (s. Abschnitt 2.2, „Von Bits und Bytes“). 6.400 Codes sind für private Zwecke reserviert, 2 Codes sind illegal. Der UTF-16 Erweiterungs-Mechanismus (die sogenannten Surrogate) erlaubt die Definition weiterer 917.476 „offizieller“ und 131.068 privater Codepunkte.
Wieviele Zeichen ließen sich also theoretisch mit Unicode repräsentieren? Begnügen wir uns mit der Antwort: Sehr viele. Die Frage ist tatsächlich schwer zu beantworten, weil Unicode auch Zeichenkombinationen vorsieht, Möglichkeiten, die Schreibrichtung mitten im Text zu ändern, etc.
| Guido Flohr | Imperia AG | Impressum |