UTF-16

本ほん页面有ゆう特殊とくしゅ字じ符ふ，操作そうさ系けい统及浏览器き须支持しじ特殊とくしゅ字母じぼ与あずか符号ふごう才能さいのう正せい确显示しめせ，否いや则可能かのう变成乱らん码、问号、空そら格かく等とう其它符号ふごう。

UTF-16是これUnicode 字じ符ふ编码五ご层次模型もけい的てき第だい三さん层：字じ符ふ编码表ひょう（Character Encoding Form，也称为"storage format"）的てき一いち种实现方式しき。即そく把わUnicode字じ符ふ集しゅう的てき抽象ちゅうしょう码位映うつ射い为16位い长的整数せいすう（即そく码元）的てき序列じょれつ，用よう于数据すえ存そん储或传递。Unicode字じ符ふ的てき码位，需要じゅよう1个或者しゃ2个16位い长的码元来らい表示ひょうじ，因いん此这是ぜ一いち个变长表示ひょうじ。

UTF是ぜ"Unicode/UCS Transformation Format"的てき首くび字母じぼ缩写，即そく把わUnicode字じ符ふ转换为某种格式しき之の意い。UTF-16正式せいしき定てい义于ISO/IEC 10646-1的てき附ふ录C，而RFC2781也定义了相似そうじ的てき做法。

UTF-16描述

Unicode的てき编码空そら间从U+0000到いたU+10FFFF，共有きょうゆう1,112,064个码位い（code point）可用かよう来らい映うつ射い字じ符ふ。Unicode的てき编码空そら间可以划分ぶん为17个平面めん（plane），每まい个平面めん包含ほうがん2¹⁶（65,536）个码位い。17个平面めん的てき码位可か表示ひょうじ为从U+xx0000到いたU+xxFFFF，其中xx表示ひょうじ十じゅう六ろく进制值从00₁₆到いた10₁₆，共きょう计17个平面めん。第だい一个平面称为基本きほん多た语言平面へいめん（Basic Multilingual Plane, BMP），或ある称しょう第だい零れい平面へいめん（Plane 0），其他平面へいめん称しょう为辅助平面へいめん（Supplementary Planes）。基本きほん多た语言平面へいめん内ない，从U+D800到いたU+DFFF之の间的码位区く段だん是ぜ永久えいきゅう保留ほりゅう不ふ映うつ射い到いたUnicode字じ符ふ。UTF-16就利用りよう保留ほりゅう下か来らい的てき0xD800-0xDFFF区く块的码位来らい对辅助平すけべい面めん的てき字じ符ふ的てき码位进行编码。

从U+0000至いたりU+D7FF以及从U+E000至いたりU+FFFF的てき码位

第だい一いち个Unicode平面へいめん（码位从U+0000至いたりU+FFFF）包含ほうがん了りょう最さい常用じょうよう的てき字じ符ふ。该平面めん被ひ称しょう为基本多ほんだ语言平面へいめん，缩写为BMP（Basic Multilingual Plane，BMP）。UTF-16与あずかUCS-2编码这个范围内ない的てき码位为16比ひ特とく长的单个码元，数すう值等价于对应的てき码位。BMP中ちゅう的てき这些码位是ぜ仅有的てき可か以在UCS-2中ちゅう表示ひょうじ的てき码位。

从U+10000到いたU+10FFFF的てき码位

辅助平面へいめん（Supplementary Planes）中ちゅう的てき码位，在ざいUTF-16中ちゅう被ひ编码为一いち对16比ひ特とく长的码元（即そく32位い，4字じ节），称しょう作さく代理だいり对（Surrogate Pair），具体ぐたい方法ほうほう是ぜ：

UTF-16解かい码
lead \ trail	DC00	DC01	…	DFFF
D800	10000	10001	…	103FF
D801	10400	10401	…	107FF
⋮	⋮	⋮	⋱	⋮
DBFF	10FC00	10FC01	…	10FFFF

码位减去 0x10000，得え到いた的てき值的范围为20比ひ特とく长的 0...0xFFFFF。
高位こうい的てき10比ひ特とく的てき值（值的范围为 0...0x3FF）被ひ加か上じょう 0xD800 得え到いた第だい一个码元或称作高位代理（high surrogate），值的范围是ぜ 0xD800...0xDBFF。由よし于高位い代理だいり比ひ低位ていい代理だいり的てき值要小しょう，所以ゆえん为了避免混淆こんこう使用しよう，Unicode标准现在称しょう高だか位い代理だいり为前ぜん导代理だいり（lead surrogates）。
低位ていい的てき10比ひ特とく的てき值（值的范围也是 0...0x3FF）被ひ加か上じょう 0xDC00 得え到いた第だい二个码元或称作低位代理（low surrogate），现在值的范围是ぜ 0xDC00...0xDFFF。由よし于低位い代理だいり比ひ高位こうい代理だいり的てき值要大だい，所以ゆえん为了避免混淆こんこう使用しよう，Unicode标准现在称しょう低位ていい代理だいり为后きさき尾お代理だいり（trail surrogates）。

上述じょうじゅつ算法さんぽう可か理解りかい为：辅助平面へいめん中ちゅう的てき码位从U+10000到いたU+10FFFF，共きょう计FFFFF个，即そく2²⁰=1,048,576个，需要じゅよう20位い来らい表示ひょうじ。如果用よう两个16位い长的整数せいすう组成的てき序列じょれつ来らい表示ひょうじ，第だい一いち个整数すう（称しょう为前导代理だいり）要よう容よう纳上述じょうじゅつ20位い的てき前まえ10位い，第だい二に个整数すう（称しょう为后尾お代理だいり）容よう纳上述じょうじゅつ20位い的てき后きさき10位い。还要能のう根ね据すえ16位い整数せいすう的てき值直接ちょくせつ判明はんめい属ぞく于前导整数すう代理だいり的てき值的范围（2¹⁰=1024)，还是后きさき尾お整数せいすう代理だいり的てき值的范围（也是2¹⁰=1024）。因よし此，需要じゅよう在ざい基本きほん多た语言平面へいめん中ちゅう保留ほりゅう不ふ对应于Unicode字じ符ふ的てき2048个码位い，就足以容纳前导代理だいり与あずか后きさき尾お代理だいり所しょ需要じゅよう的てき编码空そら间。这对于基本多ほんだ语言平面へいめん总计65536个码位い来らい说，仅占3.125%。

由よし于前导代理だいり、后きさき尾お代理だいり、BMP中ちゅう的てき有效ゆうこう字じ符ふ的てき码位，三者互不重叠，搜索そうさく是ぜ简单的てき：一いち个字符ふ编码的てき一部分不可能与另一个字符编码的不同部分相重叠。这意味いみ着ぎUTF-16是ぜ自じ同どう步ふ（self-synchronizing）的てき：可か以通过仅检查一个码元来判定给定字符的下一个字符的起始码元。UTF-8也有やゆう类似优点，但ただし许多早期そうき的てき编码模も式しき就不是ぜ这样，必须从头开始分析ぶんせき文ぶん本ほん才能さいのう确定不同ふどう字じ符ふ的てき码元的てき边界。

由よし于最常つね有ゆう的てき字じ符ふ都と在ざい基本きほん多た文ぶん种平面めん中ちゅう，许多软件处理代理だいり对的部分ぶぶん往往おうおう得え不ふ到いた充分じゅうぶん的てき测试。这导致了一いち些长期き的てきbug与あずか潜在せんざい安全あんぜん漏も洞ほら，它们甚至存在そんざい于广为流行りゅうこう且评价颇高だか的てき应用软件中ちゅう^[1]。

从U+D800到いたU+DFFF的てき码位

Unicode标准规定U+D800...U+DFFF的てき值不对应于任何なん字じ符ふ。

但ただし是ぜ在ざい使用しようUCS-2的てき时代，U+D800...U+DFFF内的ないてき值被占うらない用よう，用よう于某些字符ふ的てき映うつ射しゃ。但ただし只ただ要よう不ふ构成代理だいり对，许多UTF-16编码解かい码还是能これよし把わ这些不ふ符合ふごうUnicode标准的てき字じ符ふ映うつ射い正せい确的辨べん识、转换成合なれあい规的码元^[2]。按照Unicode标准，这种码元序列じょれつ本来ほんらい应算作さく编码错误。

示しめせ例れい：

以U+10437编码（𐐷）为例:

0x10437 减去 0x10000，结果为0x00437，二に进制为 0000 0000 0100 0011 0111
分割ぶんかつ它的上じょう10位い值和下か10位い值（使用しよう二に进制）：0000 0000 01 和わ 00 0011 0111
添加てんか 0xD800 到いた上うわ值，以形成けいせい高位こうい：0xD800 + 0x0001 = 0xD801
添加てんか 0xDC00 到いた下しも值，以形成けいせい低位ていい：0xDC00 + 0x0037 = 0xDC37

下表かひょう总结了りょう一起示例的转换过程，颜色指示しじ码点位い如何いか分布ぶんぷ在所ざいしょ述じゅつ的てきUTF-16中ちゅう。由ゆかりUTF-16编码过程中ちゅう加入かにゅう附加ふか位い的てき以黑色しょく显示。

字じ符ふ		普通ふつう二に进制	UTF-16二に进制	UTF-16 十じゅう六ろく进制字じ符ふ代だい码	UTF-16BE 十じゅう六ろく进制字じ节	UTF-16LE 十じゅう六ろく进制字じ节
$	`U+0024`	`0000 0000 0010 0100`	`0000 0000 0010 0100`	`0024`	`00 24`	`24 00`
€	`U+20AC`	`0010 0000 1010 1100`	`0010 0000 1010 1100`	`20AC`	`20 AC`	`AC 20`
𐐷	`U+10437`	`0001 0000 0100 0011 0111`	`1101 1000 0000 0001 1101 1100 0011 0111`	`D801 DC37`	`D8 01 DC 37`	`01 D8 37 DC`
𤭢	`U+24B62`	`0010 0100 1011 0110 0010`	`1101 1000 0101 0010 1101 1111 0110 0010`	`D852 DF62`	`D8 52 DF 62`	`52 D8 62 DF`

示しめせ例れい：UTF-16编码程ほど序じょ

假かり设要将しょうU+64321（16进制）转成UTF-16编码。因よし为它超ちょう过U+FFFF，所以ゆえん他た必须编译成なり32位い（4个byte）的てき格式かくしき，如下所しょ示しめせ：

V = 0x64321
Vx = V - 0x10000
= 0x54321
= 0101 0100 0011 0010 0001

Vh = 01 0101 0000 // Vx的てき高位こうい部ぶ份的10 bits
Vl = 11 0010 0001 // Vx的てき低位ていい部ぶ份的10 bits
w1 = 0xD800 //結果けっか的てき前まえ16位い元もと初はつ始はじめ值
w2 = 0xDC00 //結果けっか的てき後ご16位い元もと初はつ始はじめ值

w1 = w1 | Vh
= 1101 1000 0000 0000
 |       01 0101 0000
= 1101 1001 0101 0000
= 0xD950

w2 = w2 | Vl
= 1101 1100 0000 0000
 |       11 0010 0001
= 1101 1111 0010 0001
= 0xDF21

所以ゆえん这个字じU+64321最さい后きさき正せい确的UTF-16编码应该是ぜ：

0xD950 0xDF21

而在小尾おび序じょ中ちゅう最さい后きさき的てき编码应该是ぜ：

0x50D9 0x21DF

因いん为这个字超ちょう过U+FFFF所以ゆえん无法用ようUCS-2的てき格式かくしき编码。

16进制编码范围	UTF-16表示ひょうじ方法ほうほう（二に进制）	10进制码范围	字じ节数量すうりょう
`U+0000` - `U+FFFF`	`xxxx xxxx xxxx xxxx` - `yyyy yyyy yyyy yyyy`	0-65535	2
`U+10000` - `U+10FFFF`	`1101 10yy yyyy yyyy` - `1101 11xx xxxx xxxx`	65536-1114111	4

UTF-16比ひ起おこりUTF-8，好こう处在于大部分ぶぶん字じ符ふ都と以固定こてい长度的てき字じ节（2字じ节）存そん储，但ただしUTF-16却无法ほう兼けん容よう于ASCII编码。

UTF-16的てき编码模も式しき

UTF-16的てき大尾たいび序じょ和わ小尾おび序じょ存そん储形式しき都と在ざい用よう。一般いっぱん来らい说，以Macintosh制作せいさく或ある存そん储的文字もじ使用しよう大尾たいび序じょ格式かくしき，以Microsoft或あるLinux制作せいさく或ある存そん储的文字もじ使用しよう小尾こび序じょ格式かくしき。

为了弄ろう清楚せいそUTF-16文ぶん件けん的てき大小だいしょう尾お序じょ，在ざいUTF-16文ぶん件けん的てき开首，都会とかい放置ほうち一いち个U+FEFF字じ符ふ作さく为Byte Order Mark（UTF-16 LE以 FF FE 代表だいひょう，UTF-16 BE以 FE FF 代表だいひょう），以显示しめせ这个文ぶん本文ほんぶん件けん是ぜ以UTF-16编码，其中U+FEFF字じ符ふ在ざいUNICODE中ちゅう代表だいひょう的てき意い义是 ZERO WIDTH NO-BREAK SPACE，顾名思おもえ义，它是个没有ゆう宽度也没有ゆう断だん字じ的てき空白くうはく。

以下いか的てき例れい子こ有ゆう四よん个字符ふ：“朱しゅ”（U+6731）、半角はんかく逗号（U+002C）、“聿”（U+807F）、“𪚥”（U+2A6A5）。

使用しようUTF-16编码的てき例れい子こ
编码名称めいしょう	编码次序じじょ	编码
编码名称めいしょう	编码次序じじょ	BOM	朱しゅ	,	聿	𪚥
UTF-16 LE	小尾こび序じょ，不ふ含BOM		31 67	2C 00	7F 80	69 D8 A5 DE
UTF-16 BE	大尾たいび序じょ，不ふ含BOM		67 31	00 2C	80 7F	D8 69 DE A5
UTF-16 LE	小尾こび序じょ，包含ほうがんBOM	FF FE	31 67	2C 00	7F 80	69 D8 A5 DE
UTF-16 BE	大尾たいび序じょ，包含ほうがんBOM	FE FF	67 31	00 2C	80 7F	D8 69 DE A5

UTF-16与あずかUCS-2的てき关系

UTF-16可か看み成なり是ぜUCS-2的てき父ちち集しゅう。在ざい没ぼつ有ゆう辅助平面へいめん字じ符ふ（surrogate code points）前まえ，UTF-16与あずかUCS-2所しょ指ゆび的てき是ぜ同一どういつ的てき意思いし。但ただし当とう引入辅助平面へいめん字じ符ふ后きさき，就称为UTF-16了りょう。现在若わか有ゆう软件声ごえ称しょう自己じこ支持しじUCS-2编码，那な其实是ぜ暗くら指ゆび它不能ふのう支持しじ在ざいUTF-16中ちゅう超ちょう过2字じ节的字じ集しゅう。对于小しょう于0x10000的てきUCS码，UTF-16编码就等于UCS码。

Microsoft Windows操作そうさ系けい统内核かく对Unicode的てき支持しじ

Windows操作そうさ系けい统内核かく中ちゅう的てき字じ符ふ表示ひょうじ为UTF-16小尾こび序じょ，可か以正确处理り、显示以4字じ节存储的字じ符ふ。但ただし是ぜWindows API实际上じょう仅能正せい确处理りUCS-2字じ符ふ，即そく仅以2字じ节存储的，码位小しょう于U+FFFF的てきUnicode字じ符ふ。其根源みなもと是ただしMicrosoft C++语言把わ wchar_t 数かず据すえ类型定てい义为16比ひ特とく的てきunsigned short，这就与一よいち个 wchar_t 型かた变量对应一いち个宽字符ふ、可か以存储一个Unicode字じ符ふ的てき规定相しょう矛盾むじゅん。相反あいはん，Linux平台ひらだい的てきGCC编译器き规定一いち个 wchar_t 是ぜ4字じ节长度ど，可か以存储一个UTF-32字じ符ふ，宁可浪なみ费了很大的てき存そん储空间。下した例れい运行于Windows平台ひらだい的てきC++程ほど序じょ可か说明此点：

// 此源文ぶん件けん在ざいWindows平台ひらだい上じょう必须保存ほぞん为Unicode格式かくしき（即そくUTF-16小尾こび）
// 因いん为包含ほうがん的てき汉字“𪚥”，不能ふのう在ざい简体中ちゅう文ぶん版ばんWindows默だま认的代だい码页936（即そくGBK）中ちゅう表示ひょうじ
// 该汉字じ在ざいUTF-16小尾こび序じょ中ちゅう用よう4个字节表示ひょうじ
// Windows操作そうさ系けい统能正せい确显示しめせ这样的てき在ざいUTF-16需用じゅよう4字じ节表示ひょうじ的てき字じ符ふ
// 但ただし是ぜWindows API不能ふのう正せい确处理り这样的てき在ざいUTF-16需用じゅよう4字じ节表示ひょうじ的てき字じ符ふ，把わ它判定はんてい为2个UCS-2字じ符ふ

#include <windows.h>
#include <stdio.h>

int main()
{
	const wchar_t lwc[] = L"𪚥";

	MessageBoxW(NULL, lwc, lwc, MB_OK);

	int i = wcslen(lwc);
	printf("%d\n", i);
	int j = lstrlenW(lwc);
	printf("%d\n", j);

	return 0;
}

Windows 9x系けい统的てきAPI仅支持しじANSI字じ符ふ集しゅう，只ただ支持しじ部分ぶぶん的てきUCS-2转换。1996年ねん发布的てきWindows NT 4.0的てきAPI支持しじUCS-2。Windows 2000开始，Windows系けい统API开始支持しじUTF-16，并支持しじSurrogate Pair；但ただし许多系けい统控件けん比ひ如文本ほん框かまち和わlabel等とう还不支持しじsurrogate pair表示ひょうじ的てき字じ符ふ，会かい显示成なり两个字じ符ふ。Windows 7及更新こうしん的てき系けい统已经良好地こうち支持しじ了りょうUTF-16，包括ほうかつSurrogate Pair。

Windows API支持しじ在ざいUTF-16LE（wchar_t类型）与あずかUTF-8（代だい码页CP_UTF8）之の间的转码。例れい如：

#include <windows.h>
int main() {
	char a1[128], a2[128] = { "Hello" };
	wchar_t w = L'页';
	int n1, n2= 5;
	wchar_t w1[128];
	int m1 = 0;

	n1 = WideCharToMultiByte(CP_UTF8, 0, &w, 1, a1, 128, NULL, NULL);
	m1 = MultiByteToWideChar(CP_UTF8, 0, a2, n2, w1, 128);
}

参考さんこう文献ぶんけん

^ Code in Apache Xalan 2.7.0 which can fail on surrogate pairs. Apache Foundation. [2012-03-23]. （原始げんし内容ないよう存そん档于2011-04-23）. The code wrongly assumes it is safe to use substring on the input
^ Python 2.6 decode of UTF16 does this on Linux, and it correctly handles surrogate pairs. All "CESU" decoders do it too, though they also mistranslate correct surrogate pairs into 2 characters

外部がいぶ链接

Unicode Technical Note #12: UTF-16 for Processing （页面存そん档备份，存そん于互联网档案あん馆）
A very short algorithm for determining the surrogate pair for any codepoint（页面存そん档备份，存そん于互联网档案あん馆）
Unicode FAQ: What is the difference between UCS-2 and UTF-16? （页面存そん档备份，存そん于互联网档案あん馆）
Unicode Character Name Index （页面存そん档备份，存そん于互联网档案あん馆）
RFC 2781: UTF-16, an encoding of ISO 10646
java.lang.String documentation, discussing surrogate handling （页面存そん档备份，存そん于互联网档案あん馆）

[1] Code in Apache Xalan 2.7.0 which can fail on surrogate pairs. Apache Foundation. [2012-03-23]. （原始げんし内容ないよう存そん档于2011-04-23）. The code wrongly assumes it is safe to use substring on the input

[2] Python 2.6 decode of UTF16 does this on Linux, and it correctly handles surrogate pairs. All "CESU" decoders do it too, though they also mistranslate correct surrogate pairs into 2 characters

[1]

[2]