UTF-8

UTF-8
语言	國際こくさい
标准	Unicode
分ぶん类	EASCII; 变长编码; Unicode转换格式かくしき
拓つぶせ展てん自じ	US-ASCII
变换/编码	ISO 10646 (Unicode)
前まえ用よう	UTF-1
	查; 论; 编;

UTF-8（8-bit Unicode Transformation Format）是ぜ一いち種しゅ針はり對たいUnicode的てき可變長かへんちょう度ど字じ元もと編へん碼，也是一いち种前ぜん缀码。它可以用一至四个字节对Unicode字じ符ふ集中しゅうちゅう的てき所有しょゆう有效ゆうこう编码点てん进行编码，属ぞく于Unicode标准的てき一いち部分ぶぶん，最初さいしょ由ゆかり肯·汤普逊和わ罗布·派は克かつ提出ていしゅつ。^[2]^[3]由よし于较小しょう值的编码点てん一般使用频率较高，直接ちょくせつ使用しようUnicode编码效率こうりつ低下ていか，大量たいりょう浪なみ费内存そん空そら间。UTF-8就是为了解りょうかい决向后きさき兼けん容ようASCII码而设计，Unicode中前ちゅうぜん128个字符ふ，使用しよう与あずかASCII码相同どう的てき二进制值的单个字じ节进行编码，而且字面じめん与あずかASCII码的字面じめん一いち一いち对应，這使得とく原ばら來らい處理しょりASCII字じ元もと的てき軟體無む須或只ただ須做少しょう部ぶ份修改あらため，即そく可か繼續けいぞく使用しよう。因よし此，它逐漸やや成なり為ため電子でんし郵件、網あみ頁ぺーじ及其他ほか儲もうか存そん或ある傳送でんそう文字もじ優先ゆうせん採用さいよう的てき編へん碼方式しき。

自じ2009年ねん以来いらい，UTF-8一いち直ちょく是ぜ万まん维网的てき最さい主要しゅよう的てき编码形式けいしき（对所有しょゆう，而不仅是Unicode范围内ない的てき编码）（并由WHATWG宣布せんぷ为强制きょうせい性せい的てき“适用于所有しょゆう事物じぶつ(for all things)”，^[4]截止到いた2019年ねん11月，在ざい所有しょゆう网页中ちゅう，UTF-8编码应用率りつ高だか达94.3%（其中一いち些仅是ぜASCII编码，因いん为它是ぜUTF-8的てき子こ集しゅう），而在排はい名めい最高さいこう的てき1000个网页中占うらない96％。^[5] 第だい二热门的多字节编码方式Shift JIS和わGB 2312分ふん别具有ぐゆう0.3％和わ0.2％的てき占有せんゆう率りつ。^[6]^[7]^[1]Internet邮件联盟（ Internet Mail Consortium, IMC）建たて议所有しょゆう电子邮件程ほど序じょ都と能のう够使用しようUTF-8展示てんじ和わ创建邮件，^[8] W3C建けん议UTF-8作さく为XML文ぶん件けん和わHTML文ぶん件けん的てき默だま认编码方式しき。^[9]網あみ際ぎわ網もう路ろ工程こうてい工作こうさく小しょう組ぐみ（IETF）要求ようきゅう所有しょゆう網あみ際ぎわ網もう路ろ協議きょうぎ都と必須ひっす支持しじUTF-8編へん碼^[10]。互聯網もう郵件聯盟れんめい（IMC）建議けんぎ所有しょゆう電子でんし郵件軟件都と支持しじUTF-8編へん碼。^[11]

歷史れきし

1992年初ねんしょ，為ため建立こんりゅう良好りょうこう的てき位い元もと組ぐみ串くし編へん碼系統けいとう以供多おお位い元もと組ぐみ字じ元もと集しゅう使用しよう，開始かいし了りょう一いち個こ正式せいしき的てき研究けんきゅう。ISO/IEC 10646的てき初稿しょこう中有ちゅうう一いち個こ非ひ必須ひっす的てき附錄ふろく，名めい為ためUTF。當とう中ちゅう包含ほうがん了りょう一いち個こ供きょう32位い元もと的てき字じ元もと使用しよう的てき位い元もと組くみ串くし編へん碼系統けいとう。這個編へん碼方式しき的てき性能せいのう並なみ不ふ令れい人じん滿まん意い，但ただし它提出ていしゅつ了りょう將しょう0-127的てき範圍はんい保留ほりゅう給きゅうASCII以相容よう舊きゅう系統けいとう的てき概念がいねん。

1992年ねん7月がつ，X/Open委員いいん會かいXoJIG開始かいし尋ひろ求もとめ一個較佳的編碼系統。Unix系統けいとう實驗じっけん室しつ（USL）的てきDave Prosser為ため此提出ていしゅつ了りょう一いち個こ編へん碼系統けいとう的てき建議けんぎ。它具備ぐび可か更さら快速かいそく實み作さく的てき特性とくせい，並なみ引入一項新的改進。其中，7位い元もと的てきASCII符號ふごう只ただ代表だいひょう原ばら來らい的てき意思いし，所有しょゆう多た位い元もと組ぐみ序列じょれつ則そく會かい包含ほうがん第だい8位い元もと的てき符號ふごう，也就是ぜ所謂いわゆる的てき最高さいこう有效ゆうこう位い元もと。

1992年ねん8月がつ，這個建議けんぎ由よしIBM X/Open的てき代表だいひょう流傳りゅうでん到いた一いち些感興趣きょうしゅ的てき團體だんたい。與あずか此同時じ，貝かい爾なんじ實驗じっけん室しつ九きゅう號ごう計畫けいかく作業さぎょう系統けいとう工作こうさく小しょう組ぐみ的てき肯·汤普逊對たい這編碼系統けいとう作出さくしゅつ重大じゅうだい的てき修おさむ改あらため，讓ゆずる編へん碼可以自我わが同どう步ふ，使つかい得とく不ふ必從字じ串くし的てき開ひらき首くび讀取よみと，也能找出字じ符ふ間あいだ的てき分界ぶんかい。1992年ねん9月がつ2日にち，肯·汤普逊和わ羅ら勃·派は克かつ一起かずき在ざい美國びくに新澤にいざわ西にし州しゅう一架餐車的餐桌墊上描繪出此設計的要點。接せっ下か來らい的てき日子にっし，Pike及汤普ひろし逊將它實現じつげん，並なみ將はた這編碼系統けいとう完全かんぜん應用おうよう在ざい九きゅう號ごう計畫けいかく當とう中なか，及後他た將しょう有ゆう關せき成果せいか回かい饋X/Open。

1993年ねん1月がつ25-29日にち的てき在ざい聖地せいち牙きば哥舉行的てきUSENIX會議かいぎ首くび次じ正式せいしき介かい紹UTF-8。

自じ1996年ねん起おこり，微ほろ軟的てきCAB（MS Cabinet）規格きかく在ざいUTF-8標準ひょうじゅん正式せいしき落實前ぜん就明確かく容よう許もと在任ざいにん何なん地方ちほう使用しようUTF-8編へん碼系統けいとう。但ただし有ゆう關せき的てき編へん碼器實際じっさい上じょう從來じゅうらい沒ぼつ有ゆう實み作さく這方面ほうめん的てき規格きかく。

结构

UTF-8使用しよう一いち至いたり六ろく個こ位い元もと組ぐみ為ため每ごと個こ字じ符ふ編へん碼（儘管如此，2003年ねん11月がつUTF-8被ひRFC 3629重じゅう新規しんき範はん，只ただ能のう使用しよう原ばら来らいUnicode定義ていぎ的てき區域くいき，U+0000到いたU+10FFFF，也就是ぜ說せつ最多さいた四よん個こ字じ節ぶし）：

128個こUS-ASCII字じ符ふ只ただ需一個位元組編碼（Unicode範圍はんい由よしU+0000至いたりU+007F）。
帶おび有ゆう附加ふか符号ふごう的てき拉ひしげ丁ちょう文あや、希まれ臘文、西里にしざと爾なんじ字母じぼ、亞美あみ尼あま亞あ語ご、希まれ伯はく來らい文ぶん、阿おもね拉ひしげ伯はく文ぶん、敘利亞あ文ぶん及它拿字母じぼ則のり需要じゅよう兩個りゃんこ位い元もと組くみ編へん碼（Unicode範圍はんい由よしU+0080至いたりU+07FF）。
其他基本きほん多た文ぶん種しゅ平面へいめん（BMP）中ちゅう的てき字じ元もと（這包含ほうがん了りょう大だい部分ぶぶん常用じょうよう字じ，如大部分ぶぶん的てき漢字かんじ）使用しよう三個位元組編碼（Unicode範圍はんい由よしU+0800至いたりU+FFFF）。
其他極少きょくしょう使用しよう的てきUnicode 輔助平面へいめん的てき字じ元もと使用しよう四至六位元組編碼（Unicode範圍はんい由よしU+10000至いたりU+1FFFFF使用しよう四よん字じ節ぶし，Unicode範圍はんい由よしU+200000至いたりU+3FFFFFF使用しよう五ご字じ節ぶし，Unicode範圍はんい由よしU+4000000至いたりU+7FFFFFFF使用しよう六ろく字じ節ぶし）。

對たい上述じょうじゅつ提ひさげ及的第だい四よん種しゅ字じ元もと而言，UTF-8使用しよう四至六個位元組來編碼似乎太耗費資源了。但ただしUTF-8對たい所有しょゆう常用じょうよう的てき字じ元もと都と可か以用三さん個こ位い元もと組くみ表示ひょうじ，而且它的另一いち種しゅ選擇せんたく，UTF-16編へん碼，對たい前述ぜんじゅつ的てき第だい四種字符同樣需要四個位元組來編碼，所以ゆえん要よう決定けっていUTF-8或あるUTF-16哪種編へん碼比較ひかく有效ゆうこう率りつ，還かえ要よう視み所しょ使用しよう的てき字じ元もと的てき分ぶん佈範圍はんい而定。不ふ過か，如果使用しよう一些傳統的壓縮系統，比ひ如DEFLATE，則のり這些不同ふどう編へん碼系統けいとう間あいだ的てき的てき差異さい就變得とく微ほろ不足ふそく道どう了りょう。若わか顧及傳統でんとう壓縮あっしゅく算法さんぽう在ざい壓縮あっしゅく較短文字もじ上じょう的てき效果こうか不ふ大だい，可か以考慮こうりょ使用しようUnicode標準ひょうじゅん壓縮あっしゅく格式かくしき（SCSU）。

描述

Unicode與あずかUTF-8的てき轉換てんかん

目前もくぜん有ゆう好こう幾いく份關於UTF-8詳細しょうさい規格きかく的てき文ぶん件けん，但ただし這些文ぶん件けん在ざい定義ていぎ上じょう有ゆう些許的てき不同ふどう：

RFC 3629 / STD 63（2003），這份文ぶん件けん制定せいてい了りょうUTF-8是ぜ標準ひょうじゅん的てき網あみ際ぎわ網もう路ろ協議きょうぎ元素げんそ
第だい四よん版はん，The Unicode Standard，§3.9－§3.10（2003）
ISO/IEC 10646-1:2000附加ふか文ぶん件けんD（2000）

它們取代だい了りょう以下いか那な些被淘汰とうた的てき定義ていぎ：

ISO/IEC 10646-1:1993修正しゅうせい案あん2／附加ふか文ぶん件けんR（1996）
第だい二に版はん，The Unicode Standard，附錄ふろくA（1996）
RFC 2044（1996）
RFC 2279（1998）
第だい三さん版はん，The Unicode Standard，§2.3（2000）及勘誤あやま表ひょう#1：UTF-8 Shortest Form（2000）
Unicode Standard附加ふか文ぶん件けん#27: Unicode 3.1（2001）

事實じじつ上じょう，所有しょゆう定義ていぎ的てき基本きほん原理げんり都と是ぜ相しょう同どう的てき，它們之の間あいだ最さい主要しゅよう的てき不同ふどう是ぜ支持しじ的てき字じ元もと範圍はんい及無效むこう輸入ゆにゅう的てき處理しょり方法ほうほう。

Unicode字じ元もと的てき位い元もと被ひ分割ぶんかつ為ため數すう個こ部分ぶぶん，並なみ分配ぶんぱい到いたUTF-8的てき位い元もと組ぐみ串くし中ちゅう較低的てき位い元もと的てき位置いち。在ざいU+0080的てき以下いか字じ元もと都と使用しよう內含其字元もと的てき單たん位い元もと組ぐみ編へん碼。這些編へん碼正好こう對應たいおう7位い元もと的てきASCII字じ符ふ。在ざい其他情況じょうきょう，有ゆう可能かのう需要じゅよう多た達たち4個こ字じ元もと組ぐみ來らい表示ひょうじ一いち個こ字じ元もと。這些多た位い元もと組ぐみ的てき最高さいこう有效ゆうこう位い元もと會かい設定せってい成なり1，以防止ぼうし與あずか7位い元もと的てきASCII字じ符ふ混淆こんこう，並なみ保持ほじ標準ひょうじゅん的てき位い元もと組くみ主導しゅどう字じ串くし運うん作さく順じゅん利り。

代だい碼範圍はんい十じゅう六ろく進しん制せい	標しるべ量りょう值（scalar value）二に進しん制せい	UTF-8 二に進しん制せい／十じゅう六ろく進しん制せい	註釋ちゅうしゃく
000000 - 00007F 128個こ代だい碼	00000000 00000000 0zzzzzzz	0zzzzzzz（00-7F）	ASCII字じ元もと範圍はんい，位い元もと組ぐみ由よし零れい開始かいし
000000 - 00007F 128個こ代だい碼	七なな個こz	七なな個こz	ASCII字じ元もと範圍はんい，位い元もと組ぐみ由よし零れい開始かいし
000080 - 0007FF 1920個こ代だい碼	00000000 00000yyy yyzzzzzz	110yyyyy（C0-DF） 10zzzzzz（80-BF）	第だい一いち個こ位い元もと組くみ由よし110開始かいし，接せっ著ちょ的てき位い元もと組くみ由よし10開始かいし
000080 - 0007FF 1920個こ代だい碼	三さん個こy；二に個こy；六ろく個こz	五ご個こy；六ろく個こz	第だい一いち個こ位い元もと組くみ由よし110開始かいし，接せっ著ちょ的てき位い元もと組くみ由よし10開始かいし
000800 - 00D7FF 00E000 - 00FFFF 61440個こ代だい碼 ^{[Note 1]}	00000000 xxxxyyyy yyzzzzzz	1110xxxx（E0-EF） 10yyyyyy 10zzzzzz	第だい一いち個こ位い元もと組くみ由よし1110開始かいし，接せっ著ちょ的てき位い元もと組くみ由よし10開始かいし
000800 - 00D7FF 00E000 - 00FFFF 61440個こ代だい碼 ^{[Note 1]}	四よん個こx；四よん個こy；二に個こy；六ろく個こz	四よん個こx；六ろく個こy；六ろく個こz	第だい一いち個こ位い元もと組くみ由よし1110開始かいし，接せっ著ちょ的てき位い元もと組くみ由よし10開始かいし
010000 - 10FFFF 1048576個こ代だい碼	000wwwxx xxxxyyyy yyzzzzzz	11110www（F0-F7） 10xxxxxx 10yyyyyy 10zzzzzz	将はた由よし11110開始かいし，接せっ著ちょ的てき位い元もと組くみ由よし10開始かいし
010000 - 10FFFF 1048576個こ代だい碼	三さん個こw；二に個こx；四よん個こx；四よん個こy；二に個こy；六ろく個こz	三さん個こw；六ろく個こx；六ろく個こy；六ろく個こz	将はた由よし11110開始かいし，接せっ著ちょ的てき位い元もと組くみ由よし10開始かいし

^{Note 1} Unicode在ざい範圍はんいD800-DFFF中ちゅう不ふ存そん在任ざいにん何なん字じ元もと，基本きほん多た文ぶん種しゅ平面へいめん中ちゅう約定やくじょう了りょう這個範圍はんい用よう於UTF-16擴展標識ひょうしき辅助平面へいめん（兩個りゃんこUTF-16表示ひょうじ一いち個こ辅助平面へいめん字じ符ふ）。當然とうぜん，任にん何なん編へん碼都是ぜ可か以被轉換てんかん到いた這個範圍はんい，但ただし在ざいunicode中ちゅう他た們並不ふ代表だいひょう任にん何なん合ごう法的ほうてき值。

例れい如，希まれ伯はく来らい语字母ははaleph（א）的てきUnicode代だい码是U+05D0，按照以下いか方法ほうほう改あらため成なりUTF-8：

它属于U+0080到いたU+07FF区域くいき，这个表ひょう说明它使用しよう双そう字じ节，110yyyyy 10zzzzzz.
十じゅう六ろく进制的てき0x05D0换算成なり二に进制就是101-1101-0000.
这11位い数すう按顺序じょ放ひ入にゅう"y"部分ぶぶん和わ"z"部分ぶぶん：11010111 10010000.
最さい后きさき结果就是双そう字じ节，用よう十じゅう六进制写起来就是0xD7 0x90，这就是ぜ这个字じ符ふaleph（א）的てきUTF-8编码。

所以ゆえん开始的てき128个字元もと（US-ASCII）只ただ需一いち字じ节，接せっ下か来らい的てき1920个字符ふ需要じゅよう双そう字じ节编码，包括ほうかつ带附加ふか符号ふごう的てき拉ひしげ丁字ていじ母はは，希まれ腊字母はは，西里にしざと尔字母はは，科か普ひろし特とく语字母じぼ，亚美尼あま亚语字母じぼ，希まれ伯はく来らい文ぶん字母じぼ和わ阿おもね拉ひしげ伯はく字母じぼ的てき字じ元もと。基本きほん多た文ぶん種しゅ平面へいめん中ちゅう其余的てき字じ元もと使用しよう三さん个字节，剩余じょうよ字じ符ふ使用しよう四よん个字节。

根ね据すえ这种方式ほうしき可か以处理り更さら大だい数量すうりょう的てき字じ元もと。原はら来らい的てき规范允まこと许长达6字じ节的序列じょれつ，可か以覆盖到31位い元もと（通用つうよう字じ符ふ集しゅう原はら来らい的てき极限）。尽つき管かん如此，2003年ねん11月がつUTF-8被ひRFC 3629重じゅう新しん规范，只ただ能のう使用しよう原ばら来らいUnicode定てい义的区域くいき，U+0000到いたU+10FFFF。根ね据すえ这些规范，以下いか字じ节值将はた无法出で现在合法ごうほうUTF-8序列じょれつ中ちゅう：

编码（二に进制）	编码（十じゅう六ろく进制）	注ちゅう释
1100000x	C0, C1	过长编码：双そう字じ节序列じょれつ的てき头字节，但ただし码点 <= 127
1111111x	FE, FF	无法达到：7或ある8字じ节序列じょれつ的てき头字节
111110xx 1111110x	F8, F9, FA, FB, FC, FD	被ひRFC 3629规范：5或ある6字じ节序列じょれつ的てき头字节
11110101 1111011x	F5, F6, F7	被ひRFC 3629规范：码点超ちょう过10FFFF的てき头字节

UTF-8编码字じ节含义

对于UTF-8编码中ちゅう的てき任意にんい字じ节B，如果B的てき第だい一いち位い为0，则B独立どくりつ的てき表示ひょうじ一いち个字符ふ(ASCII码)；
如果B的てき第だい一いち位い为1，第だい二に位い为0，则B为一个多字节字符中的一个字节(非ひASCII字じ符ふ)；
如果B的てき前ぜん两位为1，第だい三さん位い为0，则B为两个字节表示ひょうじ的てき字じ符ふ中ちゅう的てき第だい一いち个字节；
如果B的てき前まえ三さん位い为1，第だい四よん位い为0，则B为三个字节表示的字符中的第一个字节；
如果B的てき前まえ四よん位い为1，第だい五ご位い为0，则B为四个字节表示的字符中的第一个字节；

因いん此，对UTF-8编码中ちゅう的てき任意にんい字じ节，根ね据すえ第だい一いち位い，可か判断はんだん是ぜ否ひ为ASCII字じ符ふ；根ね据すえ前ぜん二に位い，可か判断はんだん该字节是否ひ为一个字符编码的第一个字节；根ね据すえ前ぜん四よん位い（如果前ぜん两位均ひとし为1），可か确定该字节为字じ符ふ编码的てき第だい一いち个字节，并且可か判断はんだん对应的てき字じ符ふ由よし几个字じ节表示ひょうじ；根ね据すえ前ぜん五ご位い（如果前まえ四よん位い为1），可か判断はんだん编码是ぜ否いや有ゆう错误或ある数かず据すえ传输过程中ちゅう是ぜ否いや有ゆう错误。

設計せっけいUTF-8的てき理由りゆう

UTF-8的てき設計せっけい有ゆう以下いか的てき多た字じ元もと組ぐみ序列じょれつ的てき特質とくしつ：

單位たんい元もと組ぐみ字じ符ふ的てき最高さいこう有效ゆうこう位い元もと永遠えいえん為ため0。
多た位い元もと組ぐみ序列じょれつ中ちゅう的てき首くび個こ字じ元もと組ぐみ的てき幾いく個こ最高さいこう有效ゆうこう位い元もと決定けってい了りょう序列じょれつ的てき長ちょう度ど。最高さいこう有效ゆうこう位い為ため110的てき是ぜ2位い元もと組ぐみ序列じょれつ，而1110的てき是ぜ三さん位い元もと組ぐみ序列じょれつ，如此類推るいすい。
多た位い元もと組ぐみ序列じょれつ中ちゅう其餘的てき位い元もと組ぐみ中ちゅう的てき首くび兩個りゃんこ最高さいこう有效ゆうこう位い元もと為ため10。

UTF-8的てき這些特質とくしつ，保證ほしょう了りょう一いち個こ字じ符ふ的てき字じ节序列じょれつ不ふ会かい包含ほうがん在ざい另一いち個こ字じ符ふ的てき字じ节序列じょれつ中ちゅう。這確保かくほ了りょう以位元もと組ぐみ為ため基礎きそ的てき部ぶ份字串くし比ひ對たい（sub-string match）方法ほうほう可か以適用てきよう於在文字もじ中ちゅう搜さがせ尋ひろ字じ或ある詞し。有ゆう些比較舊的てき可變長かへんちょう度ど8位い元もと編へん碼（如Shift JIS）沒ぼつ有ゆう這個特質とくしつ，故こ字じ串くし比ひ對たい的てき算法さんぽう變へん得どく相當そうとう複雜ふくざつ。雖然這增加ぞうか了りょうUTF-8編へん碼的字じ串くし的てき信しん息いき冗餘，但ただし是ぜ利り多た於弊。另外，資料しりょう壓縮あっしゅく並なみ非ひUnicode的てき目的もくてき，所以ゆえん不可ふか混こん為ため一いち談だん。即そく使つかい在ざい傳送でんそう過程かてい中有ちゅうう部ぶ份位元もと組ぐみ因いん錯誤さくご或ある干ひ擾而完全かんぜん遺失いしつ，還かえ是ぜ有ゆう可能かのう在ざい下した一個字符的起點重新同步，令れい受損範圍はんい受到限げん制せい。

另一方面ほうめん，由ゆかり於其位い元もと組くみ序列じょれつ設計せっけい，如果一個疑似為字符串的序列被驗證為UTF-8編へん碼，那な麼我們可以有把握はあく地ち說せつ它是UTF-8字じ符ふ串くし。一段兩位元組隨機序列碰巧為合法的UTF-8而非ASCII的てき機き率りつ為ため32分ふん1。對たい於三位元組序列的機率為256分ふん1，對たい更さら長ちょう的てき序列じょれつ的てき機き率りつ就更低てい了りょう。

UTF-8的てき編へん碼方式しき

UTF-8是ぜUNICODE的てき一種變長度的編碼表達方式《一般いっぱんUNICODE為ため雙そう位い元もと組ぐみ（指ゆびUCS2）》，它由肯·汤普逊（Ken Thompson）于1992年ねん建立こんりゅう，現在げんざい已やめ經けい標準ひょうじゅん化か為ためRFC 3629。UTF-8就是以8位い为单元もと对UCS进行编码，而UTF-8不ふ使用しよう大尾たいび序じょ和わ小尾おび序じょ的てき形式けいしき，每まい個こ使用しようUTF-8儲もうか存そん的てき字じ符ふ，除じょ了りょう第だい一いち個こ字じ節ぶし外がい，其餘字じ節ぶし的てき頭あたま兩個りゃんこ位い元もと都と是ぜ以"10"開始かいし，使つかい文字もじ處理しょり器き能のう夠較快かい地ち找出每ごと個こ字じ符ふ的てき開始かいし位置いち。

但ただし為ため了りょう與あずか以前いぜん的てきASCII碼相容よう（ASCII為ため一いち個こ位い元もと組くみ），因いん此UTF-8選擇せんたく了りょう使用しよう可變長かへんちょう度ど字じ節ぶし來き儲もうか存そんUnicode：

（注意ちゅうい：不ふ论是Unicode (Table 3.7) ^[12]，还是ISO 10646 (10.2 UTF-8) ^[13]，目前もくぜん都と只ただ规定了りょう最高さいこう码位是ぜ0x10FFFF的てき字じ元もと的てき编码。下表かひょう中ちゅう表示ひょうじ大だい于0x10FFFF的てきUTF-8编码是ぜ不ふ符合ふごう标准的てき。）

**Unicode 和わ UTF-8 之これ间的转换关系表ひょう ( `x` 字じ符ふ表示ひょうじ码点占うらない据すえ的てき位い )**
码点的てき位い数すう	码点起おこり值	码点终值	字じ节序列じょれつ	Byte 1	Byte 2	Byte 3	Byte 4	Byte 5	Byte 6
7	U+0000	U+007F	1	`0xxxxxxx`
11	U+0080	U+07FF	2	`110xxxxx`	`10xxxxxx`
16	U+0800	U+FFFF	3	`1110xxxx`	`10xxxxxx`	`10xxxxxx`
21	U+10000	U+1FFFFF	4	`11110xxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`
26	U+200000	U+3FFFFFF	5	`111110xx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`
31	U+4000000	U+7FFFFFFF	6	`1111110x`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`

在ざいASCII碼的範圍はんい，用よう一いち個こ位い元もと組くみ表示ひょうじ，超ちょう出でASCII碼的範圍はんい就用位い元もと組くみ表示ひょうじ，這就形成けいせい了りょう我わが們上面めん看み到いた的てきUTF-8的てき表示ひょうじ方法ほうほう，這樣的てき好こう處しょ是ぜ當とうUNICODE文ぶん件けん中ちゅう只ただ有ゆうASCII碼時，儲もうか存そん的てき文ぶん件けん都と為ため一いち個こ位い元もと組くみ，所以ゆえん就是普通ふつう的てきASCII文ぶん件けん無む異こと，讀取よみと的てき時候じこう也是如此，所以ゆえん能のう與あずか以前いぜん的てきASCII文ぶん件けん相しょう容よう。
大だい於ASCII碼的，就會由よし上面うわつら的てき第だい一位元組的前幾位表示該unicode字じ元もと的てき長ちょう度ど，比ひ如110xxxxx前ぜん三位的二進位表示告訴我們這是個2BYTE的てきUNICODE字じ元もと；1110xxxx是これ個こ三さん位い的てきUNICODE字じ元もと，依よ此類推るいすい；xxx的てき位置いち由よし字じ符ふ編へん碼數的てき二進製表示的位填入。越こし靠もたれ右みぎ的てきx具有ぐゆう越えつ少しょう的てき特殊とくしゅ意義いぎ。只ただ用よう最短さいたん的てき那な個こ足あし夠表達たち一個字符編碼數的多字節串。注意ちゅうい在ざい多た字じ節ぶし串くし中ちゅう，第だい一個字節的開頭"1"的てき數すう目もく就是整せい個こ串くし中ちゅう字じ節ぶし的てき數すう目もく。

ASCII字母じぼ繼續けいぞく使用しよう1字じ節ぶし儲もうか存そん，重じゅう音おと文字もじ、希まれ臘字母はは或ある西里にしざと爾なんじ字母じぼ等とう使用しよう2字じ節ぶし來らい儲もうか存そん，而常用じょうよう的てき漢字かんじ就要使用しよう3字じ節ぶし。辅助平面へいめん字じ元もと則のり使用しよう4字じ節ぶし。

在ざいUTF-8+BOM格式かくしき文ぶん件けん的てき開ひらき首くび，很多時じ都と放置ほうち一いち個こU+FEFF字じ符ふ（UTF-8以EF,BB,BF代表だいひょう），以顯示けんじ這個文字もじ檔案是ぜ以UTF-8編へん碼。

UTF-8的てき特性とくせい

**UTF-8圖表ずひょう說明せつめい**
	UTF-8
最小さいしょう码位	0000
最大さいだい码位	10FFFF
每まい字じ节所占うらない位い数すう	8 bits
Byte order	N/A
每まい个字符ふ最小さいしょう字じ节数	1
每まい个字符ふ最大さいだい字じ节数	4

UCS字じ符ふU+0000到いたU+007F（ASCII）被ひ編へん碼為字じ節ぶし0x00到いた0x7F（ASCII兼けん容よう），這也意味いみ著ちょ只ただ包含ほうがん7位いASCII字じ符ふ的てき文ぶん件けん在ざいASCII和わUTF-8兩りょう種しゅ編へん碼方式しき下か是ぜ一いち樣よう的てき。
所有しょゆう>U+007F的てきUCS字じ符ふ被ひ編へん碼為一個多個字節的串，每まい個こ字じ節ぶし都と有ゆう標記ひょうき位い集しゅう。因よし此，ASCII字じ節ぶし（0x00-0x7F）不可能ふかのう作為さくい任にん何なん其他字じ符ふ的てき一いち部分ぶぶん。
表示ひょうじ非ひASCII字じ符ふ的てき多た字じ節ぶし串くし的てき第だい一個字節總是在0xC0到いた0xFD的てき範圍はんい裡うら，並なみ指出さしで這個字じ符ふ包含ほうがん多少たしょう個こ字じ節ぶし。多た字じ節ぶし串くし的てき其餘字じ節ぶし都と在ざい0x80到いた0xBF範圍はんい裡うら，這使得とく重おも新しん同どう步ふ非常ひじょう容易ようい，並なみ使し編へん碼無國界こっかい，且很少しょう受丟失しつ字じ節ぶし的てき影響えいきょう。
可か以編入へんにゅう所有しょゆう可能かのう的てき231個いっこUCS代だい碼
UTF-8編へん碼字符ふ理論りろん上じょう可か以最多た到いた6個こ字じ節ぶし長ちょう，然しか而16位いBMP字じ符ふ最多さいた只ただ用よう到いた3字じ節ぶし長ちょう。
Bigendian UCS-4字じ節ぶし串くし的てき排列はいれつ順序じゅんじょ是ぜ預あずか定てい的てき。
字じ節ぶし0xFE和わ0xFF在ざいUTF-8編へん碼中從したがえ未み用もちい到いた，同時どうじ，UTF-8以位元もと組ぐみ為ため編へん碼單元たんげん，它的位い元もと組くみ順序じゅんじょ在ざい所有しょゆう系統けいとう中なか都と是ぜ一いち様よう的てき，没ぼつ有ゆう位い元もと組くみ序じょ的てき問題もんだい，也因此它實際じっさい上じょう并不需要じゅようBOM。
與あずかUTF-16或ある其他Unicode編へん碼相比ひ，對たい於不支持しじUnicode和わXML的てき系統けいとう，UTF-8更さら不ふ容易ようい造成ぞうせい問題もんだい。

UTF-8編へん碼的優ゆう點てん

总体来らい说，在ざいUnicode字じ符ふ串くし中ちゅう不可能ふかのう由よし码点数量すうりょう决定显示它所需要じゅよう的てき长度，或ある者もの显示字じ符ふ串くし之の后きさき在ざい文ぶん本ほん缓冲区く中ちゅう光ひかり标应该放置ほうち的てき位置いち；组合字じ符ふ、变宽字体じたい、不可ふか打だ印字いんじ符ふ和わ从右至いたり左ひだり的てき文字もじ都と是ぜ其归因いん。

所以ゆえん尽つき管かん在ざいUTF-8字じ符ふ串くし中ちゅう字じ元もと数量すうりょう与あずか码点数量すうりょう的てき关系比ひUTF-32更さら为复杂，在ざい实际中ちゅう很少会かい遇ぐう到いた有ゆう不同ふどう的てき情じょう形がた。

更さら詳細しょうさい的てき說せつ，UTF-8編へん碼具有ぐゆう以下いか幾いく點てん優ゆう點てん：

ASCII是ぜUTF-8的てき一いち个子こ集しゅう。因よし为一个纯ASCII字じ符ふ串くし也是一いち个合法的ほうてきUTF-8字じ符ふ串くし，所以ゆえん现存的てきASCII文ぶん本ほん不ふ需要じゅよう转换。为传统的扩展ASCII字じ符ふ集しゅう设计的てき软件通常つうじょう可か以不经修改あらため或ある很少修おさむ改あらため就能与あずかUTF-8一いち起おこり使用しよう。
使用しよう标准的てき面めん向こう字じ节的排はい序じょ例れい程ほど对UTF-8排はい序じょ将はた产生与あずか基もと于Unicode代だい码点排はい序じょ相しょう同どう的てき结果。（尽つき管かん这只有ゆう有限ゆうげん的てき有用ゆうよう性せい，因いん为在任ざいにん何なん特定とくてい语言或ある文化ぶんか下か都と不ふ太ふと可能かのう有ゆう仍可接受せつじゅ的てき文字もじ排列はいれつ顺序。）
UTF-8和わUTF-16都と是ぜ可か扩展标记语言文ぶん档的标准编码。所有しょゆう其它编码都と必须通どおり过显式しき或ある文ぶん本ほん声明せいめい来らい指定してい。[1]（页面存そん档备份，存そん于互联网档案あん馆）
任にん何なに面めん向こう字じ节的てき字じ符ふ串くし搜索そうさく算法さんぽう都と可か以用于UTF-8的てき数すう据すえ（只ただ要よう输入仅由完かん整せい的てきUTF-8字じ符ふ组成）。但ただし是ぜ，对于包含ほうがん字じ符ふ记数的てき正せい则表达式或ある其它结构必须小心しょうしん。
UTF-8字じ符ふ串くし可か以由一个简单的算法可靠地识别出来。就是，一个字符串在任何其它编码中表现为合法的UTF-8的てき可能かのう性せい很低，并随字じ符ふ串くし长度增ぞう长而减小。举例说，字じ元もと值C0,C1,F5至いたりFF从来没ぼつ有ゆう出で现。为了更さら好このみ的てき可か靠もたれ性せい，可か以使用しよう正せい则表达式来らい统计非ひ法ほう过长和わ替がえ代だい值（可か以查看みW3 FAQ: Multilingual Forms （页面存そん档备份，存そん于互联网档案あん馆）上じょう的てき验证UTF-8字じ符ふ串くし的てき正せい则表达式）。
與あずかUCS-2的てき比較ひかく：ASCII轉てん换成UCS-2，在ざい編へん碼前插入そうにゅう一いち個こ0x0。用よう這些編へん碼，會かい含括一いち些控制せい符ふ，比ひ如"或ある '/'，這在UNIX和わ一いち些C函數かんすう中ちゅう，將しょう會かい產さん生せい嚴重げんじゅう錯誤さくご。因よし此可以肯定こうてい，UCS-2不適合ふてきごう作為さくいUnicode的てき外部がいぶ編へん碼，也因此誕生せい了りょうUTF-8。

UTF-8 編へん碼的缺點けってん

編へん寫うつし不良ふりょう的てき解析かいせき器き

如果一いち个 UTF-8 解析かいせき器き写うつし得とく很差（并且与あずか当とう前ぜん标准的てき版本はんぽん不ふ兼けん容よう），那な么它接收せっしゅう到いた一いち些伪 UTF-8 时会将はた其转换成看み似に正せい确实则错误的 Unicode 输出。处理八位表示的校验例程可能遗漏一些信息。

不利ふり于正则表达式检索

正せい则表达式可か以进行ぎょう很多高だか级的英文えいぶん模糊もこ检索。例れい如，[a-h]表示ひょうじ a 到いた h 间所有しょゆう字母じぼ。

同どう样 GBK 编码的中てきちゅう文也ふみや可か以这样利用りよう正せい则表达式，比ひ如在只ただ知道ともみち一个字的读音而不知道怎么写的情况下，也可用よう正せい则表达式检索，因いん为 GBK 编码是ぜ按读音おん排はい序じょ的てき。但ただし是ぜ Unicode 汉字不ふ是ぜ按读音おん排はい序じょ的てき，所以ゆえん不利ふり于用正せい则表达式检索。虽然正せい则表达式检索并未考こう虑中文ぶん的てき多た音字おんじ，但ただし是ぜ由よし于中文ぶん的てき多た音字おんじ数量すうりょう不ふ多た，不ふ少しょう多た音字おんじ还是同音どうおん不同ふどう调类型がた的てき多た音字おんじ，所以ゆえん大だい多数たすう情じょう况下正せい则表达式检索是ぜ还可以接受せつじゅ的てき。不ふ过 Unicode 汉字按部首ぶしゅ排はい序じょ，因いん此在只ただ知道ともみち一個字的部首而不知道如何發音的情况下，UTF-8 可用かよう正せい则表达式检索而 GBK 不ふ行くだり。

可能かのう無法むほう用よう舊きゅう的てき C 語ご言げん函はこ式しき庫こ讀寫

由よし於UTF-8在ざい編へん碼中可能かのう有ゆう著ちょ空そら字じ元もと（null character，U+0000），這會導しるべ致C語ご言げん函はこ示しめせ庫こ以及其延伸えんしん的てき程ほど式しき解析かいせき失敗しっぱい，因いん為ため這些舊きゅう有ゆう的てき程ほど式しき庫こ使用しよう這個字じ元來がんらい標記ひょうき字じ串くし的てき結束けっそく。然しか而，之これ所以ゆえん說せつ「可能かのう」，是ぜ因いん為ため這個字じ元もと是ぜ控ひかえ制せい字じ元もと，理論りろん上じょう不ふ會かい出で現在げんざい XML 等ひとし純じゅん文字もじ檔案中ちゅう。當とう萬不得已要使用空字元的時候，可能かのう的てき解決かいけつ方法ほうほう是ぜ考慮こうりょ使用しよう Java 的てき變種へんしゅUTF-8 ——使用しよう 0xc0 0x80 來らい編へん碼空字じ元もと。

其他

UTF-8 的てき ASCII 字じ元もと只ただ占うらない用よう一いち个字节，比ひ较节省しょう空そら间，但ただし是ぜ更さら多た字じ元もと的てき UTF-8 編へん碼佔用よう的てき空間くうかん就要多た出で1/2，特別とくべつ是ぜ中ちゅう文ぶん、日にち文和ふみかず韓かん文ぶん（CJK）這樣的てき方かた塊かたまり文字もじ，它们大だい多た需要じゅよう三さん个字节。

UTF-8的てき衍生物せいぶつ

Windows

雖然不ふ是ぜ標準ひょうじゅん，但ただし許多きょたWindows程ほど序じょ（包括ほうかつWindows记事本ほん）在ざいUTF-8編へん碼的檔案的てき開ひらき首くび加入かにゅう一いち段位だんい元もと組ぐみ串くしEF BB BF。這是位い元もと組ぐみ順序じゅんじょ記號きごうU+FEFF的てきUTF-8編へん碼結果けっか。對たい於沒有ゆう預あずか期き要よう處理しょりUTF-8的てき文字もじ編輯へんしゅう器き和かず瀏りゅう覽らん器き會かい顯示けんじ成なりISO-8859-1字じ符ふ串くしï»¿。

Posix系けい统

Posix系けい统明确不建けん议使用字ようじ节序掩码EF BB BF。^[14]因いん为很多た文ぶん本文ほんぶん件けん期き望もち以 “#!”（Shebang）开头指示しじ要よう运行的てき程ほど序じょ。Linux系けい统选择使用しようUnicode规范形式けいしきNormalization Form C（NFC），即そく优先使用しよう预组装そう字じ符ふ（precomposed character）而非组合字じ符ふ序列じょれつ（combining character sequence）。

2002年ねん9月がつ发布的てきRed Hat Linux 8.0才ざい开始正式せいしき把わ大だい多数たすう区域くいき设置的てき默だま认编码设为UTF-8。此前是ぜ各かく种语言げん的てき但ただし字じ节编码为主ぬし。2004年ねん9月がつSuSE Linux 9.1开始，缺かけ省しょう编码迁移为UTF-8。

字じ符ふ串くし处理时，使用しようUTF-8或あるlocale依よ赖的多た字じ节编码情形がた，比ひ使用しようC语言wchar_t的てき宽字符ふ固定こてい宽度编码，要よう慢1至いたり2个数量すうりょう级。^[14]

Java

在ざい通常つうじょう用法ようほう下か，Java程ほど序じょ语言在ざい通どおり过InputStreamReader和わOutputStreamWriter读取和わ写うつし入にゅう串くし的てき时候支持しじ标准UTF-8。但ただし是ぜ，Java也支持しじ一种非标准的变体UTF-8，供きょう对象的てき序列じょれつ化か，Java本地ほんじ界面かいめん和かず在ざいclass文ぶん件けん中ちゅう的てき嵌入かんにゅう常数じょうすう時じ使用しよう的てきmodified UTF-8。

變種へんしゅUTF-8

标准和わ變種へんしゅ的てきUTF-8有ゆう两个不ふ同点どうてん。第だい一いち，空そら字じ符ふ（null character，U+0000）使用しよう雙そう字じ节的0xc0 0x80，而不是ぜ单字节的0x00。这保证了在ざい已やめ编码字じ串くし中ちゅう没ぼつ有ゆう嵌入かんにゅう空そら字じ节。因よし为C语言等とう语言程ほど序じょ中ちゅう，单字节空字じ符ふ是ぜ用よう来らい标志字じ串くし结尾的てき。当とう已やめ编码字じ串くし放ひ到いた这样的てき语言中ちゅう處理しょり，一个嵌入的空字符将把字串一刀两断。

第だい二に个不同点どうてん是ぜ基本きほん多た文ぶん種しゅ平面へいめん之これ外字がいじ符ふ的てき编码的てき方法ほうほう。在ざい标准UTF-8中ちゅう，这些字じ符ふ使用しよう4字じ节形式しき编码，而在修正しゅうせい的てきUTF-8中ちゅう，这些字じ符ふ和わUTF-16一样首先表示为代理对（surrogate pairs），然しか后きさき再さい像ぞうCESU-8那な样按照あきら代理だいり对分别编码。这样修正しゅうせい的てき原因げんいん更さら是ぜ微妙びみょう。Java中ちゅう的てき字じ符ふ为16位い长，因いん此一些Unicode字じ符ふ需要じゅよう两个Java字じ符ふ来らい表示ひょうじ。语言的てき这个性せい质蓋過か了りょうUnicode的てき增ぞう补平面めん的てき要求ようきゅう。尽つき管かん如此，為ため了りょう要よう保持ほじ良好りょうこう的てき向こう后きさき兼けん容よう、要よう改變かいへん也不容易ようい了りょう。这个修正しゅうせい的てき编码系統けいとう保ほ证了一个已编码字串可以一次编为一个UTF-16码，而不是ぜ一いち次じ一いち个Unicode码点。不幸ふこう的てき是ぜ，这也意味いみ着ぎUTF-8中ちゅう需要じゅよう4字じ节的字じ符ふ在ざい變種へんしゅUTF-8中ちゅう变成需要じゅよう6字じ节。

因いん为變種しゅUTF-8并不ふ是ぜUTF-8，所以ゆえん用よう户在交换信しん息いき和わ使用しよう互联网的时候需要じゅよう特とく别注意ちゅうい不要ふよう误把變種へんしゅUTF-8當とう成なりUTF-8数すう据すえ。

Mac OS X

Mac OS X 操作そうさ系けい统使用しよう統すべ一碼正規形式中的分解式標準等價（canonically decomposed Unicode），在ざい文ぶん件けん系けい统中ちゅう使用しようUTF-8编码进行文こうぶん件けん命名めいめい，這做法ほう通常つうじょう被ひ称しょう为UTF-8-MAC。分解ぶんかい式しき標準ひょうじゅん等價とうか中ちゅう，预组合あい字じ符ふ是ぜ被ひ禁止きんし使用しよう的てき，必须以组合字じ符ふ取と代だい。

这种方法ほうほう使し分ぶん类变得どく非常ひじょう简单，但ただし是ぜ会かい搞混那な些使用しよう预组合あい字じ符ふ为标准なぞらえ、组合字じ符ふ用よう来らい显示特殊とくしゅ字じ符ふ的てき软件。Mac系けい统的这种NFD数すう据すえ是これ統一とういつ碼正規せいき形式けいしき（Unicode normalization）的てき一いち种格式しき。而其他た系けい统，包括ほうかつWindows和わLinux，使用しよう統一とういつ碼规范的NFC形式けいしき，也是W3C标准使用しよう的てき形式けいしき。所以ゆえん通常つうじょうNFD数すう据すえ必须转换成なりNFC才能さいのう被ひ其他平台ひらだい或ある者もの网络使用しよう。

苹果りんご开发者しゃ专区有ゆう关于此问题的讨论：Apple Q&A 1173 （页面存そん档备份，存そん于互联网档案あん馆）。

MySQL

MySQL字じ符ふ编码集中しゅうちゅう有ゆう两套UTF-8编码实现：“utf8”和かず“utf8mb4”，其中“utf8”是ぜ一个字最多占据3字じ节空そら间的编码实现；而“utf8mb4”则是一个字最多占据4字じ节空间的编码实现，也就是ぜUTF-8的てき完かん整せい实现。这是由よし于MySQL在ざい4.1版本はんぽん开始支持しじUTF-8编码（当とう时参考さんこうUTF-8草案そうあん版本はんぽん为RFC 2279）时，为2003年ねん，并且在ざい同年どうねん9月がつ限げん制せい了りょう其实现的UTF-8编码的てき空そら间占用よう最多さいた为3字じ节，而UTF-8正式せいしき形成けいせい标准化か文ぶん档（RFC 3629）是ぜ其之后きさき。限きり制せいUTF-8编码实现的てき编码空そら间占用よう一般いっぱん被ひ认为是ぜ考こう虑到数すう据すえ库文件けん设计的てき兼けん容よう性せい和わ读取最さい优化，但ただし实际上じょう并没有ゆう达到目的もくてき，而且在ざいUTF-8编码开始出で现需要よう存そん入にゅう非ひ基本きほん多た文ぶん种平面めん的てきUnicode字じ符ふ（例れい如emoji字じ符ふ）时导致无法ほう存そん入いれ（由ゆかり于3字じ节的实现只ただ能のう存そん入にゅう基本きほん多た文ぶん种平面めん内的ないてき字じ符ふ）。直ちょく到いた2010年ねん在ざい5.5版本はんぽん推出“utf8mb4”来らい代替だいたい、“utf8”重じゅう命名めいめい为“utf8mb3”并调整せい“utf8”为“utf8mb3”的てき别名，并不建けん议使用しよう旧きゅう“utf8”编码，以此修正しゅうせい遗留问题。^[15]^[16]^[17]^[18]

参まいり閱

参考さんこう文献ぶんけん

^ ^1.0 ^1.1 Davis, Mark. Unicode over 60 percent of the web. Official Google Blog. 2012-02-03 [2019-11-23]. （原始げんし内容ないよう存そん档于2018-08-09）.
^ Pike, Rob. UTF-8 history. 2003-04-30 [2019-11-23]. （原始げんし内容ないよう存そん档于2006-10-29）. ...UTF-8 was designed, in front of my eyes, on a placemat in a New Jersey diner one night in September or so 1992...So that night Ken wrote packing and unpacking code and I started tearing into the C and graphics libraries. The next day all the code was done... .
^ Pike, Rob; Thompson, Ken. Hello World or Καλημέρα κόσμε or こんにちは世界せかい (PDF). Proceedings of the Winter 1993 USENIX Conference. 1993 [2019-11-23]. （原始げんし内容ないよう存そん档 (PDF)于2017-10-11）.
^ Encoding Standard. encoding.spec.whatwg.org. [2019-11-23]. （原始げんし内容ないよう存そん档于2015-02-04）（英えい语）. The problems outlined here go away when exclusively using UTF-8, which is one of the many reasons that is now the mandatory encoding for all things.
^ Usage Survey of Character Encodings broken down by Ranking. w3techs.com. [2019-11-23]. （原始げんし内容ないよう存そん档于2022-01-21）（英えい语）.
^ Historical trends in the usage of character encodings. [2019-11-14].
^ UTF-8 Usage Statistics. BuiltWith. [2011-03-28]. （原始げんし内容ないよう存そん档于2021-12-07）.
^ Using International Characters in Internet Mail. Internet Mail Consortium. 1998-08-01 [2007-11-08]. （原始げんし内容ないよう存そん档于2007-10-26）.
^ Specifying the document's character encoding, HTML5.2, World Wide Web Consortium, 14 December 2017 [2018-06-03], （原始げんし内容ないよう存そん档于2019-06-13）
^ 參考さんこうRFC 2277 section 3.1
^ Using International Characters in Internet Mail. 2007-10-26 [2018-07-27]. 原始げんし内容ないよう存そん档于2007-10-26.
^ The Unicode Standard, Version 13.0, Chapter 3 (PDF). [2020-03-23]. （原始げんし内容ないよう存そん档 (PDF)于2021-09-20）.
^ ISO 10646标准下か载页面めん. [2020-03-23]. （原始げんし内容ないよう存そん档于2022-01-19）.
^ ^14.0 ^14.1 UTF-8 and Unicode FAQ for Unix/Linux by Markus Kuhn. [2005-06-16]. （原始げんし内容ないよう存そん档于2018-09-24）.
^ MySQL :: MySQL 8.0 Reference Manual :: 10.9.3 The utf8 Character Set (Alias for utf8mb3). dev.mysql.com. [2020-04-03]. （原始げんし内容ないよう存そん档于2021-10-31）.
^ MySQL :: MySQL 8.0 Reference Manual :: 10.9.2 The utf8mb3 Character Set (3-Byte UTF-8 Unicode Encoding). dev.mysql.com. [2020-04-03]. （原始げんし内容ないよう存そん档于2022-01-13）.
^ MySQL :: MySQL 8.0 Reference Manual :: 10.9.1 The utf8mb4 Character Set (4-Byte UTF-8 Unicode Encoding). dev.mysql.com. [2020-04-03]. （原始げんし内容ないよう存そん档于2021-10-25）.
^ Hooper, Adam. In MySQL, never use “utf8”. Use “utf8mb4”.. Medium. 2019-08-19 [2020-04-03]. （原始げんし内容ないよう存そん档于2020-11-30）（英えい语）.

外部がいぶ連結れんけつ

RFC 3629：UTF-8標準ひょうじゅん
RFC 2277：IETF policy on character sets and languages
Rob Pike tells the story of UTF-8's creation（页面存そん档备份，存そん于互联网档案あん馆）
Original UTF-8 paper
UTF-8 test pages by University Hannover （页面存そん档备份，存そん于互联网档案あん馆） and the World Wide Web Consortium （页面存そん档备份，存そん于互联网档案あん馆）
Unix/Linux: UTF-8和わUnicode的てき常見つねみ問題もんだい集しゅう（页面存そん档备份，存そん于互联网档案あん馆），Linux Unicode HOWTO，UTF-8 and Gentoo （页面存そん档备份，存そん于互联网档案あん馆）
The Unicode/UTF-8-character table （页面存そん档备份，存そん于互联网档案あん馆） displays UTF-8 in a variety of formats（with Unicode and HTML encoding information）
Online Tool for URL encoding/decoding according to RFC 3986 and RFC 3629（JavaScript，GPL）
UTF-8測はか試ためし頁ぺーじ
UTF-8 （页面存そん档备份，存そん于互联网档案あん馆）

由ゆかり統一とういつ碼聯盟れんめい出版しゅっぱん的てき書しょ

The Unicode Standard, Version 5.0, Fifth Edition, The Unicode Consortium, Addison-Wesley Professional,2006年ねん10月がつ27日にち。ISBN 0-321-48091-0
The Unicode Standard, Version 4.0, The Unicode Consortium, Addison-Wesley Professional，2003年ねん8月がつ27日にち。ISBN 0-321-18578-1

[MarkDavis2012-1] 1.0 ^1.1 Davis, Mark. Unicode over 60 percent of the web. Official Google Blog. 2012-02-03 [2019-11-23]. （原始げんし内容ないよう存そん档于2018-08-09）.

[:0-2] Pike, Rob. UTF-8 history. 2003-04-30 [2019-11-23]. （原始げんし内容ないよう存そん档于2006-10-29）. ...UTF-8 was designed, in front of my eyes, on a placemat in a New Jersey diner one night in September or so 1992...So that night Ken wrote packing and unpacking code and I started tearing into the C and graphics libraries. The next day all the code was done... .

[3] Pike, Rob; Thompson, Ken. Hello World or Καλημέρα κόσμε or こんにちは世界せかい (PDF). Proceedings of the Winter 1993 USENIX Conference. 1993 [2019-11-23]. （原始げんし内容ないよう存そん档 (PDF)于2017-10-11）.

[mandatory-4] Encoding Standard. encoding.spec.whatwg.org. [2019-11-23]. （原始げんし内容ないよう存そん档于2015-02-04）（英えい语）. The problems outlined here go away when exclusively using UTF-8, which is one of the many reasons that is now the mandatory encoding for all things.

[5] Usage Survey of Character Encodings broken down by Ranking. w3techs.com. [2019-11-23]. （原始げんし内容ないよう存そん档于2022-01-21）（英えい语）.

[W3Techs-6] Historical trends in the usage of character encodings. [2019-11-14].

[BuiltWith-7] UTF-8 Usage Statistics. BuiltWith. [2011-03-28]. （原始げんし内容ないよう存そん档于2021-12-07）.

[IMC-8] Using International Characters in Internet Mail. Internet Mail Consortium. 1998-08-01 [2007-11-08]. （原始げんし内容ないよう存そん档于2007-10-26）.

[html5charset-9] Specifying the document's character encoding, HTML5.2, World Wide Web Consortium, 14 December 2017 [2018-06-03], （原始げんし内容ないよう存そん档于2019-06-13）

[10] 參考さんこうRFC 2277 section 3.1

[11] Using International Characters in Internet Mail. 2007-10-26 [2018-07-27]. 原始げんし内容ないよう存そん档于2007-10-26.

[12] The Unicode Standard, Version 13.0, Chapter 3 (PDF). [2020-03-23]. （原始げんし内容ないよう存そん档 (PDF)于2021-09-20）.

[13] ISO 10646标准下か载页面めん. [2020-03-23]. （原始げんし内容ないよう存そん档于2022-01-19）.

[faq-14] 14.0 ^14.1 UTF-8 and Unicode FAQ for Unix/Linux by Markus Kuhn. [2005-06-16]. （原始げんし内容ないよう存そん档于2018-09-24）.

[15] MySQL :: MySQL 8.0 Reference Manual :: 10.9.3 The utf8 Character Set (Alias for utf8mb3). dev.mysql.com. [2020-04-03]. （原始げんし内容ないよう存そん档于2021-10-31）.

[16] MySQL :: MySQL 8.0 Reference Manual :: 10.9.2 The utf8mb3 Character Set (3-Byte UTF-8 Unicode Encoding). dev.mysql.com. [2020-04-03]. （原始げんし内容ないよう存そん档于2022-01-13）.

[17] MySQL :: MySQL 8.0 Reference Manual :: 10.9.1 The utf8mb4 Character Set (4-Byte UTF-8 Unicode Encoding). dev.mysql.com. [2020-04-03]. （原始げんし内容ないよう存そん档于2021-10-25）.

[18] Hooper, Adam. In MySQL, never use “utf8”. Use “utf8mb4”.. Medium. 2019-08-19 [2020-04-03]. （原始げんし内容ないよう存そん档于2020-11-30）（英えい语）.

[2]

[3]

[1]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[Note 1]

[12]

[13]

[14]

[15]

[16]

[17]

[18]