3. Unicode-Properties

Texte (nicht nur auf dem Computer) bestehen nicht nur aus einer Aneinanderreihung von Buchstaben, sondern aus einer Vielzahl von Schriftzeichen: Buchtstaben, Ziffern, Interpunktionszeichen, Steuerzeichen (Zeilenumbrüche, Tabulatoren, ...), Sonderzeichen (Prozent, Gradzeichen, Dollarzeichen), Symbolen, etc.

Dies ist in der Praxis enorm wichtig. Wird zum Beispiel ein Text für eine spätere Volltextrecherche indiziert, ist es sicherlich sinnvoll, Interpunktions- und Steuerzeichen herauszufiltern. Erwartet eine Anwendung in einer Eingabe Zahlen, muss bekannt sein, ob die eingegebenen Zeichen Ziffern repräsentieren.

Der Unicode-Standard trägt dem Rechnung, indem für jedes im Standard enthaltene Zeichen bestimmte Meta-Informationen, also Eigenschaften (Properties) gepflegt werden, die von einer Anwendung abgefragt werden können. Es lässt sich daher ermitteln, ob es sich bei einem bestimmten Unicode-Zeichen um einen Buchstaben, eine Zahl, ein Symbol, ein Interpunktionszeichen, ein Trennzeichen, eine Markierung oder ein Steuerzeichen handelt (jede dieser Kategorien hat zahlreiche Unterkategorien wie zum Beispiel Groß- und Kleinbuchstaben bei Buchstaben). Auch die Schreibrichtung - Arabisch zum Beispiel wird ja von rechts nach links geschrieben - für ein Zeichen ist abrufbar, genauso wie sich die Schriftfamilie (Lateinisch, Kyrillisch, Thailändisch, etc.) ermitteln lässt.