Unicode und UTF-8
Die c’t schreibt in einem Artikel über Editoren: „Im Unterschied zu Unicode kommt UTF-8 bei Standardbuchstaben mit einem Byte aus [...]“ Tatsächlich aber sagt Unicode gar nichts über Bytes aus, denn „Unicode gibt jedem Zeichen seine eigene Nummer“ (Zitat von der Unicode-Webseite), und nichts weiter. Wie diese Nummer schließlich in Bytes umgesetzt wird, ist eine ganz andere Geschichte.
Genauso müsste natürlich streng genommen UTF-8 auch keinen Unicode beinhalten, sondern es ist lediglich eine Abbildung von Nummern auf Bytes. Was Sie im Artikel mit Unicode bezeichnen, ist vermutlich UCS-2 oder auch UTF-16, also eine Zwei-Byte-Darstellung. Die Verwirrung ist verständlich, war doch eine solche Unterscheidung bei den alten Kodierungen nicht üblich, man sprang quasi direkt von Zeichen zu Byte; heute würde ich sagen, es wurde als Abbildung die Identität benutzt.
PS: Als Erbsenzähler muss ich noch anmerken, dass der Standard-Zeichensatz unter Windows keineswegs ISO8859-1 ist, sondern vielmehr Windows 1252, welches an Stelle der reichlich überflüssigen oberen Steuerzeichen Symbole wie das Euro-Zeichen und die deutschen Anführungszeichen enthält. Keine schlechte Idee an sich, aber halt nicht konform zu irgendwelchen Standards, und damit ein typischer Fall.
Trackback URL:
https://highbrow.twoday.net/stories/1053653/modTrackback