UTF-16 (16-Bit-Unicode-Transformationsformat) ist eine Zeichencodierung, die alle 1.112.064 Nicht-Ersatzcodepunkte von Unicode codieren kann (tatsächlich wird diese Anzahl von Codepunkten durch das Design von UTF-16 vorgegeben). Die Codierung ist längenvariabel, da Codepunkte mit einer oder zwei 16-Bit- Codeeinheiten codiert werden . UTF-16 entstand aus einer früheren 16-Bit-Codierung mit fester Breite, bekannt als UCS-2 (für 2-Byte-Universalzeichensatz), als klar wurde, dass mehr als 2 16 (65.536) Codepunkte benötigt wurden.
UTF-16 wird intern von Systemen wie Microsoft Windows, der Programmiersprache Java und JavaScript/ECMAScript verwendet. Es wird auch häufig für Klartext und für Textverarbeitungsdatendateien unter Microsoft Windows verwendet. Es wird selten für Dateien auf Unix-ähnlichen Systemen verwendet. Ab Mai 2019 scheint Microsoft den umgekehrten Weg eingeschlagen zu haben und unterstützt und empfiehlt nun die Verwendung von UTF-8.
UTF-16 ist die einzige Webcodierung, die nicht mit ASCII kompatibel ist, und hat im Web nie an Popularität gewonnen, wo es von weniger als 0,005% (weniger als 1 Hundertstel von 1 Prozent) der Webseiten verwendet wird. UTF-8 wird dagegen von 97% aller Webseiten verwendet. Die Web Hypertext Application Technology Working Group (WHATWG) betrachtet UTF-8 als „die obligatorische Kodierung für alle [Text]“ und dass Browseranwendungen aus Sicherheitsgründen UTF-16 nicht verwenden sollten.
UCS-2 steht für Unicode Character Set Codiert in 2 Bytes. UCS-2 ist ein Zeichencodierungsstandard, bei dem Zeichen durch 16 Bits (2 Bytes) fester Länge dargestellt werden. Es wird in vielen GSM-Netzen als Fallback verwendet, wenn eine Nachricht nicht mit GSM-7 kodiert werden kann oder wenn eine Sprache mehr als 128 Zeichen zur Wiedergabe benötigt.
UCS-2 und die anderen UCS-Standards werden von der International Organization for Standardization (ISO) in ISO 10646 definiert. UCS-2 steht für maximal 65.536 Zeichen, bzw. in Hexadezimalzahlen von 0000h – FFFFh (2 Byte). Die Zeichen in UCS-2 werden mit der Basic Multilingual Plane in Unicode synchronisiert.
Zeichen ist ein überladener Begriff, daher ist es eigentlich richtiger, sich auf Codepunkte zu beziehen. Codepunkte ermöglichen eine Abstraktion vom Zeichenbegriff und sind die atomare Informationsspeichereinheit in einer Codierung.
UCS-2 ist eine Codierung mit fester Breite; jeder codierte Codepunkt benötigt genau 2 Byte. Da eine SMS-Nachricht in 140 Oktetts übertragen wird, hat eine in UCS-2 verschlüsselte Nachricht maximal 70 Zeichen (eigentlich Codepunkte): (140*8) / (2*8) = 70.
Nach dem Unicode-Standard ist UCS-2 eine veraltete Kodierung, da es nicht dafür ausgelegt ist, Zeichen in den sogenannten ergänzenden oder ‘astralen’ Ebenen in Unicode zuzulassen. Ebene 0, die grundlegende mehrsprachige Ebene, enthält Zeichenkodierungen für die vermutlich am häufigsten verwendeten Zeichen in modernen Sprachen. UCS-2 ist auf FFFFh-Codepunkte oder 65.536 mögliche Zeichen beschränkt.
UTF-16 ist der Nachfolger von UCS-2. und hat die Fähigkeit, Basis- und 16 Ergänzungsebenen zu adressieren, für eine maximale Gesamtzahl von Zeichen von 10FFFFh oder 1.114.112 Codepunkten.
VERGLEICHSGRUNDLAGE | UTF-16 | UCS-2 |
Akronym | UTF steht für Unicode Transformation Format-16. | UCS-2 steht für Unicode Character Set Codiert in 2 Bytes. |
Beschreibung | UTF-16 ist eine variable Breite, die 2 Byte oder 4 Byte für jedes Zeichen verwendet. | UCS-2 ist eine 2-Byte-Zeichencodierung mit fester Breite für Unicode. |
Punkte | UTF-16 kann 1.112.064 Codepunkte codieren. | UCS-2 kann 65.536 Codepunkte (0-0XFFFF) kodieren. |
Normalisierung | UTF-16 unterstützt die Normalisierung. Bei der Normalisierung werden Wörter, die dasselbe bedeuten, aber unterschiedlich dargestellt werden, als identisch behandelt. | In UCS-2 erfolgt die Normalisierung nicht automatisch, daher muss die Anwendung eine solche Funktion selbst implementieren. |
Skripte | In UTF-16 können die Skripte die Direktionalität erkennen, sodass die Anwendung die im Code gespeicherten Wörter korrekt wiedergeben kann. | UCS-2-Skripten fehlt die Fähigkeit, die Richtung zu erkennen, daher funktionieren sie nicht mit Skripten wie Arabisch und Hebräisch, die sich von rechts nach links bewegen. |
Anwendung | Die aktuelle Windows-Version ab Windows 2000 verwendet UTF-16. | Frühe Windows-Versionen ab Windows NT 3.1 und Windows 95 verwendeten UCS-2. |
Haben Sie sich jemals gefragt, warum die Begriffe Sozialismus und Kommunismus oft in einem Atemzug…
Die Welt der Flaggensymbolik Haben Sie sich schon einmal die Zeit genommen, die Geschichte hinter…
Haben Sie schon einmal ein Passwort vergessen? Sicher, das ist uns allen schon passiert. Deshalb…
Der Hauptunterschied zwischen einem 4-Takt-Motor und einem 2-Takt-Motor besteht darin, dass ein 4-Takt-Motor vier Stufen…
Haben Sie sich jemals gefragt, ob es tatsächlich einen Unterschied zwischen japanischen und chinesischen Augen…
Abgeltungssteuer: Arten, Regelungen und wichtige Informationen zu Kapitalerträgen Die Abgeltungssteuer ist eine der zentralen Steuerarten…