UTF-8

UTF-8
語かたり言げん	國際こくさい
標準ひょうじゅん	Unicode
分類ぶんるい	EASCII; 變へん長編ちょうへん碼; Unicode轉換てんかん格式かくしき
拓つぶせ展てん自じ	US-ASCII
變換へんかん/編へん碼	ISO 10646 (Unicode)
前まえ用よう	UTF-1
	閱; 論ろん; 編へん;

UTF-8（8-bit Unicode Transformation Format）是ぜ一いち種しゅ針はり對たいUnicode的てき可變長かへんちょう度ど字じ元もと編へん碼，也是一いち種しゅ字じ首くび碼。它可以用一至四個位元組對Unicode字じ元もと集中しゅうちゅう的てき所有しょゆう有效ゆうこう編へん碼點進行しんこう編へん碼，屬ぞく於Unicode標準ひょうじゅん的てき一いち部分ぶぶん，最初さいしょ由ゆかり肯·湯ゆ普あまね遜へりくだ和わ羅ら布ぬの·派は克かつ提出ていしゅつ。^[2]^[3]由よし於較小しょう值的編へん碼點一般使用頻率較高，直接ちょくせつ使用しようUnicode編へん碼效率りつ低下ていか，大量たいりょう浪費ろうひ主ぬし記憶きおく體たい空間くうかん。UTF-8就是為ため了りょう解決かいけつ向こう下相おりあい容ようASCII碼而設計せっけい，Unicode中前ちゅうぜん128個こ字じ元もと，使用しよう與あずかASCII碼相同どう的てき二進制值的單個位い元もと組ぐみ進行しんこう編へん碼，而且字面じめん與あずかASCII碼的字面じめん一いち一いち對應たいおう，這使得とく原ばら來らい處理しょりASCII字じ元もと的てき軟件無む須或只ただ須做少しょう部ぶ份修改あらため，即そく可か繼續けいぞく使用しよう。因よし此，它逐漸やや成なり為ため電子でんし郵件、網あみ頁ぺーじ及其他ほか儲もうか存そん或ある傳送でんそう文字もじ優先ゆうせん採用さいよう的てき編へん碼方式しき。

自じ2009年ねん以來いらい，UTF-8一いち直ちょく是ぜ萬まん維網的てき最さい主要しゅよう的てき編へん碼形式しき（對たい所有しょゆう，而不僅是Unicode範圍はんい內的編へん碼）（並なみ由よしWHATWG宣せん佈為強制きょうせい性せい的てき「適用てきよう於所有しょゆう事物じぶつ(for all things)」，^[4]截止到いた2019年ねん11月，在ざい所有しょゆう網もう頁ぺーじ中ちゅう，UTF-8編へん碼應用おうよう率りつ高だか達たち94.3%（其中一いち些僅是ぜASCII編へん碼，因いん為ため它是UTF-8的てき子こ集しゅう），而在排はい名めい最高さいこう的てき1000個こ網もう頁ぺーじ中ちゅう佔96％。^[5] 第だい二熱門的多位元組編碼方式Shift JIS和わGB 2312分別ふんべつ具有ぐゆう0.3％和わ0.2％的てき佔有率りつ。^[6]^[7]^[1]Internet郵件聯盟れんめい（ Internet Mail Consortium, IMC）建議けんぎ所有しょゆう電子でんし郵件程ほど式しき都と能のう夠使用しようUTF-8展示てんじ和わ建立こんりゅう郵件，^[8] W3C建議けんぎUTF-8作為さくいXML檔案和わHTML檔案的てき預あずか設しつらえ編へん碼方式しき。^[9]互聯網もう工程こうてい工作こうさく小しょう組ぐみ（IETF）要求ようきゅう所有しょゆう互聯網もう協定きょうてい都と必須ひっす支援しえんUTF-8編へん碼^[10]。互聯網もう郵件聯盟れんめい（IMC）建議けんぎ所有しょゆう電子でんし郵件軟件都と支援しえんUTF-8編へん碼。^[11]

歷史れきし

1992年初ねんしょ，為ため建立こんりゅう良好りょうこう的てき位い元もと組ぐみ串くし編へん碼系統けいとう以供多おお位い元もと組ぐみ字じ元もと集しゅう使用しよう，開始かいし了りょう一いち個こ正式せいしき的てき研究けんきゅう。ISO/IEC 10646的てき初稿しょこう中有ちゅうう一いち個こ非ひ必須ひっす的てき附錄ふろく，名めい為ためUTF。當とう中ちゅう包含ほうがん了りょう一いち個こ供きょう32位い元もと的てき字じ元もと使用しよう的てき位い元もと組くみ串くし編へん碼系統けいとう。這個編へん碼方式しき的てき效能こうのう並なみ不ふ令れい人じん滿まん意い，但ただし它提出ていしゅつ了りょう將しょう0-127的てき範圍はんい保留ほりゅう給きゅうASCII以相容よう舊きゅう系統けいとう的てき概念がいねん。

1992年ねん7月がつ，X/Open委員いいん會かいXoJIG開始かいし尋ひろ求もとめ一個較佳的編碼系統。Unix系統けいとう實驗じっけん室しつ（USL）的てきDave Prosser為ため此提出ていしゅつ了りょう一いち個こ編へん碼系統けいとう的てき建議けんぎ。它具備ぐび可か更さら快速かいそく實み作さく的てき特性とくせい，並なみ引入一項新的改進。其中，7位い元もと的てきASCII符號ふごう只ただ代表だいひょう原ばら來らい的てき意思いし，所有しょゆう多た位い元もと組ぐみ序列じょれつ則そく會かい包含ほうがん第だい8位い元もと的てき符號ふごう，也就是ぜ所謂いわゆる的てき最高さいこう有效ゆうこう位い元もと。

1992年ねん8月がつ，這個建議けんぎ由よしIBM X/Open的てき代表だいひょう流傳りゅうでん到いた一いち些感興趣きょうしゅ的てき團體だんたい。與あずか此同時じ，貝かい爾なんじ實驗じっけん室しつ九きゅう號ごう計けい劃作業さぎょう系統けいとう工作こうさく小しょう組ぐみ的てき肯·湯ゆ普あまね遜へりくだ對たい這編碼系統けいとう作出さくしゅつ重大じゅうだい的てき修おさむ改あらため，讓ゆずる編へん碼可以自我わが同どう步ふ，使つかい得とく不ふ必從字じ串くし的てき開ひらき首くび讀取よみと，也能找出字じ元もと間あいだ的てき分界ぶんかい。1992年ねん9月がつ2日にち，肯·湯ゆ普あまね遜へりくだ和わ羅ら勃·派は克かつ一起かずき在ざい美國びくに新澤にいざわ西にし州しゅう一架餐車的餐桌墊上描繪出此設計的要點。接せっ下か來らい的てき日子にっし，Pike及湯普あまね遜へりくだ將はた它實現じつげん，並なみ將はた這編碼系統けいとう完全かんぜん應用おうよう在ざい九きゅう號ごう計けい劃當とう中なか，及後他た將しょう有ゆう關せき成果せいか反はん饋X/Open。

1993年ねん1月がつ25-29日にち的てき在ざい聖地せいち牙きば哥舉行的てきUSENIX會議かいぎ首くび次じ正式せいしき介かい紹UTF-8。

自じ1996年ねん起おこり，微ほろ軟的てきCAB（MS Cabinet）規格きかく在ざいUTF-8標準ひょうじゅん正式せいしき落實前ぜん就明確かく容よう許もと在任ざいにん何なん地方ちほう使用しようUTF-8編へん碼系統けいとう。但ただし有ゆう關せき的てき編へん碼器實際じっさい上じょう從來じゅうらい沒ぼつ有ゆう實み作さく這方面ほうめん的てき規格きかく。

結構けっこう

UTF-8使用しよう一いち至いたり六ろく個こ位い元もと組ぐみ為ため每ごと個こ字じ元もと編へん碼（儘管如此，2003年ねん11月がつUTF-8被ひRFC 3629重じゅう新規しんき範はん，只ただ能のう使用しよう原ばら來らいUnicode定義ていぎ的てき區域くいき，U+0000到いたU+10FFFF，也就是ぜ說せつ最多さいた四よん個こ位い元もと組くみ）：

128個こUS-ASCII字じ元もと只ただ需一個位元組編碼（Unicode範圍はんい由よしU+0000至いたりU+007F）。
帶おび有ゆう附加ふか符號ふごう的てき拉ひしげ丁ちょう文あや、希まれ臘文、西里にしざと爾なんじ字母じぼ、亞美あみ尼あま亞あ語ご、希まれ伯はく來らい文ぶん、阿おもね拉ひしげ伯はく文ぶん、敘利亞あ文ぶん及它拿字母じぼ則のり需要じゅよう兩個りゃんこ位い元もと組くみ編へん碼（Unicode範圍はんい由よしU+0080至いたりU+07FF）。
其他基本きほん多た文ぶん種しゅ平面へいめん（BMP）中ちゅう的てき字じ元もと（這包含ほうがん了りょう大だい部分ぶぶん常用じょうよう字じ，如大部分ぶぶん的てき漢字かんじ）使用しよう三個位元組編碼（Unicode範圍はんい由よしU+0800至いたりU+FFFF）。
其他極少きょくしょう使用しよう的てきUnicode 輔助平面へいめん的てき字じ元もと使用しよう四至六位元組編碼（Unicode範圍はんい由よしU+10000至いたりU+1FFFFF使用しよう四よん位い元もと組ぐみ，Unicode範圍はんい由よしU+200000至いたりU+3FFFFFF使用しよう五ご位い元もと組ぐみ，Unicode範圍はんい由よしU+4000000至いたりU+7FFFFFFF使用しよう六ろく位い元もと組ぐみ）。

對たい上述じょうじゅつ提ひさげ及的第だい四よん種しゅ字じ元もと而言，UTF-8使用しよう四至六個位元組來編碼似乎太耗費資源了。但ただしUTF-8對たい所有しょゆう常用じょうよう的てき字じ元もと都と可か以用三さん個こ位い元もと組くみ表示ひょうじ，而且它的另一いち種しゅ選擇せんたく，UTF-16編へん碼，對たい前述ぜんじゅつ的てき第だい四種字元同樣需要四個位元組來編碼，所以ゆえん要よう決定けっていUTF-8或あるUTF-16哪種編へん碼比較ひかく有效ゆうこう率りつ，還かえ要よう視み所しょ使用しよう的てき字じ元もと的てき分ぶん佈範圍はんい而定。不ふ過か，如果使用しよう一些傳統的壓縮系統，比ひ如DEFLATE，則のり這些不同ふどう編へん碼系統けいとう間あいだ的てき的てき差異さい就變得とく微ほろ不足ふそく道どう了りょう。若わか顧及傳統でんとう壓縮あっしゅく演算えんざん法ほう在ざい壓縮あっしゅく較短文字もじ上じょう的てき效果こうか不ふ大だい，可か以考慮こうりょ使用しようUnicode標準ひょうじゅん壓縮あっしゅく格式かくしき（SCSU）。

描述

Unicode與あずかUTF-8的てき轉換てんかん

目前もくぜん有ゆう好こう幾いく份關於UTF-8詳細しょうさい規格きかく的てき檔案，但ただし這些檔案在ざい定義ていぎ上じょう有ゆう些許的てき不同ふどう：

RFC 3629 / STD 63（2003），這份檔案制定せいてい了りょうUTF-8是ぜ標準ひょうじゅん的てき互聯網もう協定きょうてい元素げんそ
第だい四よん版はん，The Unicode Standard，§3.9－§3.10（2003）
ISO/IEC 10646-1:2000附加ふか檔案D（2000）

它們取代だい了りょう以下いか那な些被淘汰とうた的てき定義ていぎ：

ISO/IEC 10646-1:1993修正しゅうせい案あん2／附加ふか檔案R（1996）
第だい二に版はん，The Unicode Standard，附錄ふろくA（1996）
RFC 2044（1996）
RFC 2279（1998）
第だい三さん版はん，The Unicode Standard，§2.3（2000）及勘誤あやま表ひょう#1：UTF-8 Shortest Form（2000）
Unicode Standard附加ふか檔案#27: Unicode 3.1（2001）

事實じじつ上じょう，所有しょゆう定義ていぎ的てき基本きほん原理げんり都と是ぜ相しょう同どう的てき，它們之の間あいだ最さい主要しゅよう的てき不同ふどう是ぜ支援しえん的てき字じ元もと範圍はんい及無效むこう輸入ゆにゅう的てき處理しょり方法ほうほう。

Unicode字じ元もと的てき位い元もと被ひ分割ぶんかつ為ため數すう個こ部分ぶぶん，並なみ分配ぶんぱい到いたUTF-8的てき位い元もと組ぐみ串くし中ちゅう較低的てき位い元もと的てき位置いち。在ざいU+0080的てき以下いか字じ元もと都と使用しよう內含其字元もと的てき單たん位い元もと組ぐみ編へん碼。這些編へん碼正好こう對應たいおう7位い元もと的てきASCII字じ元もと。在ざい其他情況じょうきょう，有ゆう可能かのう需要じゅよう多た達たち4個こ字じ元もと組ぐみ來らい表示ひょうじ一いち個こ字じ元もと。這些多た位い元もと組ぐみ的てき最高さいこう有效ゆうこう位い元もと會かい設置せっち成なり1，以防止ぼうし與あずか7位い元もと的てきASCII字じ元もと混淆こんこう，並なみ保持ほじ標準ひょうじゅん的てき位い元もと組くみ主導しゅどう字じ串くし運うん作さく順じゅん利り。

代だい碼範圍はんい十じゅう六ろく進しん制せい	標しるべ量りょう值（scalar value）二に進しん制せい	UTF-8 二に進しん制せい／十じゅう六ろく進しん制せい	註釋ちゅうしゃく
000000 - 00007F 128個こ代だい碼	00000000 00000000 0zzzzzzz	0zzzzzzz（00-7F）	ASCII字じ元もと範圍はんい，位い元もと組ぐみ由よし零れい開始かいし
000000 - 00007F 128個こ代だい碼	七なな個こz	七なな個こz	ASCII字じ元もと範圍はんい，位い元もと組ぐみ由よし零れい開始かいし
000080 - 0007FF 1920個こ代だい碼	00000000 00000yyy yyzzzzzz	110yyyyy（C0-DF） 10zzzzzz（80-BF）	第だい一いち個こ位い元もと組くみ由よし110開始かいし，接着せっちゃく的てき位い元もと組くみ由よし10開始かいし
000080 - 0007FF 1920個こ代だい碼	三さん個こy；二に個こy；六ろく個こz	五ご個こy；六ろく個こz	第だい一いち個こ位い元もと組くみ由よし110開始かいし，接着せっちゃく的てき位い元もと組くみ由よし10開始かいし
000800 - 00D7FF 00E000 - 00FFFF 61440個こ代だい碼 ^{[Note 1]}	00000000 xxxxyyyy yyzzzzzz	1110xxxx（E0-EF） 10yyyyyy 10zzzzzz	第だい一いち個こ位い元もと組くみ由よし1110開始かいし，接着せっちゃく的てき位い元もと組くみ由よし10開始かいし
000800 - 00D7FF 00E000 - 00FFFF 61440個こ代だい碼 ^{[Note 1]}	四よん個こx；四よん個こy；二に個こy；六ろく個こz	四よん個こx；六ろく個こy；六ろく個こz	第だい一いち個こ位い元もと組くみ由よし1110開始かいし，接着せっちゃく的てき位い元もと組くみ由よし10開始かいし
010000 - 10FFFF 1048576個こ代だい碼	000wwwxx xxxxyyyy yyzzzzzz	11110www（F0-F7） 10xxxxxx 10yyyyyy 10zzzzzz	將はた由よし11110開始かいし，接着せっちゃく的てき位い元もと組くみ由よし10開始かいし
010000 - 10FFFF 1048576個こ代だい碼	三さん個こw；二に個こx；四よん個こx；四よん個こy；二に個こy；六ろく個こz	三さん個こw；六ろく個こx；六ろく個こy；六ろく個こz	將はた由よし11110開始かいし，接着せっちゃく的てき位い元もと組くみ由よし10開始かいし

^{Note 1} Unicode在ざい範圍はんいD800-DFFF中ちゅう不ふ存そん在任ざいにん何なん字じ元もと，基本きほん多た文ぶん種しゅ平面へいめん中ちゅう約定やくじょう了りょう這個範圍はんい用よう於UTF-16擴展標識ひょうしき輔助平面へいめん（兩個りゃんこUTF-16表示ひょうじ一いち個こ輔助平面へいめん字じ元もと）。當然とうぜん，任にん何なん編へん碼都是ぜ可か以被轉換てんかん到いた這個範圍はんい，但ただし在ざいunicode中ちゅう他た們並不ふ代表だいひょう任にん何なん合ごう法的ほうてき值。

例れい如，希まれ伯はく來らい語ご字母じぼaleph（א）的てきUnicode代だい碼是U+05D0，按照以下いか方法ほうほう改あらため成なりUTF-8：

它屬於U+0080到いたU+07FF區域くいき，這個表ひょう說明せつめい它使用しよう雙そう位い元もと組くみ，110yyyyy 10zzzzzz.
十じゅう六ろく進しん制せい的てき0x05D0換算かんさん成なり二に進しん制せい就是101-1101-0000.
這11位い數すう按順序じょ放ひ入にゅう"y"部分ぶぶん和わ"z"部分ぶぶん：11010111 10010000.
最後さいご結果けっか就是雙そう位い元もと組くみ，用よう十じゅう六進制寫起來就是0xD7 0x90，這就是ぜ這個字じ元もとaleph（א）的てきUTF-8編へん碼。

所以ゆえん開始かいし的てき128個こ字じ元もと（US-ASCII）只ただ需一いち位い元もと組ぐみ，接せっ下か來らい的てき1920個こ字じ元もと需要じゅよう雙そう位い元もと組くみ編へん碼，包括ほうかつ帶たい附加ふか符號ふごう的てき拉ひしげ丁字ていじ母はは，希まれ臘字母はは，西里にしざと爾なんじ字母じぼ，科か普ひろし特とく語ご字母じぼ，亞美あみ尼あま亞あ語ご字母じぼ，希まれ伯はく來らい文ぶん字母じぼ和わ阿おもね拉ひしげ伯はく字母じぼ的てき字じ元もと。基本きほん多た文ぶん種しゅ平面へいめん中ちゅう其餘的てき字じ元もと使用しよう三さん個こ位い元もと組くみ，剩餘じょうよ字じ元もと使用しよう四よん個こ位い元もと組ぐみ。

根據こんきょ這種方式ほうしき可か以處理しょり更さら大だい數量すうりょう的てき字じ元もと。原はら來らい的てき規範きはん允許いんきょ長ちょう達たち6位い元もと組ぐみ的てき序列じょれつ，可か以覆蓋ぶた到いた31位い元もと（通用つうよう字じ元もと集しゅう原はら來らい的てき極限きょくげん）。儘管如此，2003年ねん11月がつUTF-8被ひRFC 3629重じゅう新規しんき範はん，只ただ能のう使用しよう原ばら來らいUnicode定義ていぎ的てき區域くいき，U+0000到いたU+10FFFF。根據こんきょ這些規範きはん，以下いか位くらい元もと組ぐみ值將無法むほう出現しゅつげん在ざい合法ごうほうUTF-8序列じょれつ中ちゅう：

編へん碼（二に進しん制せい）	編へん碼（十じゅう六ろく進しん制せい）	註釋ちゅうしゃく
1100000x	C0, C1	過か長編ちょうへん碼：雙そう位い元もと組くみ序列じょれつ的てき頭あたま位い元もと組くみ，但ただし碼點 <= 127
1111111x	FE, FF	無法むほう達たち到いた：7或ある8位い元もと組ぐみ序列じょれつ的てき頭あたま位い元もと組くみ
111110xx 1111110x	F8, F9, FA, FB, FC, FD	被ひRFC 3629規範きはん：5或ある6位い元もと組ぐみ序列じょれつ的てき頭あたま位い元もと組くみ
11110101 1111011x	F5, F6, F7	被ひRFC 3629規範きはん：碼點超過ちょうか10FFFF的てき頭あたま位い元もと組くみ

UTF-8編へん碼位元もと組くみ含義

對たい於UTF-8編へん碼中的てき任意にんい位い元もと組ぐみB，如果B的てき第だい一いち位い為ため0，則のりB獨立どくりつ的てき表示ひょうじ一いち個こ字じ元もと(ASCII碼)；
如果B的てき第だい一いち位い為ため1，第だい二に位い為ため0，則のりB為ため一個多位元組字元中的一個位元組(非ひASCII字じ元もと)；
如果B的てき前ぜん兩りょう位い為ため1，第だい三さん位い為ため0，則のりB為ため兩個りゃんこ位い元もと組くみ表示ひょうじ的てき字じ元もと中なか的てき第だい一いち個こ位い元もと組くみ；
如果B的てき前まえ三さん位い為ため1，第だい四よん位い為ため0，則のりB為ため三個位元組表示的字元中的第一個位元組；
如果B的てき前まえ四よん位い為ため1，第だい五ご位い為ため0，則のりB為ため四個位元組表示的字元中的第一個位元組；

因いん此，對たいUTF-8編へん碼中的てき任意にんい位い元もと組くみ，根據こんきょ第だい一いち位い，可か判斷はんだん是ぜ否ひ為ためASCII字じ元もと；根據こんきょ前まえ二に位い，可か判斷はんだん該位元もと組ぐみ是ぜ否ひ為ため一個字元編碼的第一個位元組；根據こんきょ前まえ四よん位い（如果前ぜん兩りょう位い均ひとし為ため1），可か確定かくてい該位元もと組ぐみ為ため字じ元もと編へん碼的第だい一いち個こ位い元もと組くみ，並なみ且可判斷はんだん對應たいおう的てき字じ元もと由よし幾いく個こ位い元もと組くみ表示ひょうじ；根據こんきょ前まえ五ご位い（如果前まえ四よん位い為ため1），可か判斷はんだん編へん碼是否いや有ゆう錯誤さくご或ある數すう據よりどころ傳でん輸過程ほど中ちゅう是ぜ否いや有ゆう錯誤さくご。

設計せっけいUTF-8的てき理由りゆう

UTF-8的てき設計せっけい有ゆう以下いか的てき多た字じ元もと組ぐみ序列じょれつ的てき特質とくしつ：

單位たんい元もと組ぐみ字じ元もと的てき最高さいこう有效ゆうこう位い元もと永遠えいえん為ため0。
多た位い元もと組ぐみ序列じょれつ中ちゅう的てき首くび個こ字じ元もと組ぐみ的てき幾いく個こ最高さいこう有效ゆうこう位い元もと決定けってい了りょう序列じょれつ的てき長ちょう度ど。最高さいこう有效ゆうこう位い為ため110的てき是ぜ2位い元もと組ぐみ序列じょれつ，而1110的てき是ぜ三さん位い元もと組ぐみ序列じょれつ，如此類推るいすい。
多た位い元もと組ぐみ序列じょれつ中ちゅう其餘的てき位い元もと組ぐみ中ちゅう的てき首くび兩個りゃんこ最高さいこう有效ゆうこう位い元もと為ため10。

UTF-8的てき這些特質とくしつ，保證ほしょう了りょう一いち個こ字じ元もと的てき位い元もと組ぐみ序列じょれつ不ふ會かい包含ほうがん在ざい另一いち個こ字じ元もと的てき位い元もと組ぐみ序列じょれつ中ちゅう。這確保かくほ了りょう以位元もと組ぐみ為ため基礎きそ的てき部ぶ份字串くし比ひ對たい（sub-string match）方法ほうほう可か以適用てきよう於在文字もじ中ちゅう搜さがせ尋ひろ字じ或ある詞し。有ゆう些比較舊的てき可變長かへんちょう度ど8位い元もと編へん碼（如Shift JIS）沒ぼつ有ゆう這個特質とくしつ，故こ字じ串くし比ひ對たい的てき演算えんざん法ほう變へん得どく相當そうとう複雜ふくざつ。雖然這增加ぞうか了りょうUTF-8編へん碼的字じ串くし的てき資し訊冗餘あまり，但ただし是ぜ利り多た於弊。另外，資料しりょう壓縮あっしゅく並なみ非ひUnicode的てき目的もくてき，所以ゆえん不可ふか混こん為ため一いち談だん。即そく使つかい在ざい傳送でんそう過程かてい中有ちゅうう部ぶ份位元もと組ぐみ因いん錯誤さくご或ある干ひ擾而完全かんぜん遺失いしつ，還かえ是ぜ有ゆう可能かのう在ざい下した一個字元的起點重新同步，令れい受損範圍はんい受到限げん制せい。

另一方面ほうめん，由ゆかり於其位い元もと組くみ序列じょれつ設計せっけい，如果一個疑似為字串的序列被驗證為UTF-8編へん碼，那な麼我們可以有把握はあく地ち說せつ它是UTF-8字じ串くし。一段兩位元組隨機序列碰巧為合法的UTF-8而非ASCII的てき概がい率りつ為ため32分ふん1。對たい於三位元組序列的概率為256分ふん1，對たい更さら長ちょう的てき序列じょれつ的てき概がい率りつ就更低てい了りょう。

UTF-8的てき編へん碼方式しき

UTF-8是ぜUNICODE的てき一種變長度的編碼表達方式《一般いっぱんUNICODE為ため雙そう位い元もと組ぐみ（指ゆびUCS2）》，它由肯·湯ゆ普あまね遜へりくだ（Ken Thompson）於1992年ねん建立こんりゅう，現在げんざい已やめ經けい標準ひょうじゅん化か為ためRFC 3629。UTF-8就是以8位い元もと為ため單元たんげん對たいUCS進行しんこう編へん碼，而UTF-8不ふ使用しよう大尾たいび序じょ和わ小尾おび序じょ的てき形式けいしき，每まい個こ使用しようUTF-8儲もうか存そん的てき字じ元もと，除じょ了りょう第だい一いち個こ位い元もと組くみ外がい，其餘位い元もと組くみ的てき頭あたま兩個りゃんこ位い元もと都と是ぜ以"10"開始かいし，使つかい文字もじ處理しょり器き能のう夠較快かい地ち找出每ごと個こ字じ元もと的てき開始かいし位置いち。

但ただし為ため了りょう與あずか以前いぜん的てきASCII碼相容よう（ASCII為ため一いち個こ位い元もと組くみ），因いん此UTF-8選擇せんたく了りょう使用しよう可變長かへんちょう度ど位い元もと組ぐみ來き儲もうか存そんUnicode：

（注意ちゅうい：不ふ論ろん是ぜUnicode (Table 3.7) ^[12]，還かえ是ぜISO 10646 (10.2 UTF-8) ^[13]，目前もくぜん都と只ただ規定きてい了りょう最高さいこう碼位是ぜ0x10FFFF的てき字じ元もと的てき編へん碼。下表かひょう中ちゅう表示ひょうじ大だい於0x10FFFF的てきUTF-8編へん碼是不ふ符合ふごう標準ひょうじゅん的てき。）

**Unicode 和わ UTF-8 之これ間あいだ的てき轉換てんかん關係かんけい表ひょう ( `x` 字じ元もと表示ひょうじ碼點佔據的てき位い )**
碼點的てき位い數すう	碼點起おこり值	碼點終おわり值	位い元もと組ぐみ序列じょれつ	Byte 1	Byte 2	Byte 3	Byte 4	Byte 5	Byte 6
7	U+0000	U+007F	1	`0xxxxxxx`
11	U+0080	U+07FF	2	`110xxxxx`	`10xxxxxx`
16	U+0800	U+FFFF	3	`1110xxxx`	`10xxxxxx`	`10xxxxxx`
21	U+10000	U+1FFFFF	4	`11110xxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`
26	U+200000	U+3FFFFFF	5	`111110xx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`
31	U+4000000	U+7FFFFFFF	6	`1111110x`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`

在ざいASCII碼的範圍はんい，用よう一いち個こ位い元もと組くみ表示ひょうじ，超ちょう出でASCII碼的範圍はんい就用位い元もと組くみ表示ひょうじ，這就形成けいせい了りょう我わが們上面めん看み到いた的てきUTF-8的てき表示ひょうじ方法ほうほう，這樣的てき好こう處しょ是ぜ當とうUNICODE檔案中ちゅう只ただ有ゆうASCII碼時，儲もうか存そん的てき檔案都と為ため一いち個こ位い元もと組くみ，所以ゆえん就是普通ふつう的てきASCII檔案無む異こと，讀取よみと的てき時候じこう也是如此，所以ゆえん能のう與あずか以前いぜん的てきASCII檔案相しょう容よう。
大だい於ASCII碼的，就會由よし上面うわつら的てき第だい一位元組的前幾位表示該unicode字じ元もと的てき長ちょう度ど，比ひ如110xxxxx前ぜん三位的二進位表示告訴我們這是個2BYTE的てきUNICODE字じ元もと；1110xxxx是これ個こ三さん位い的てきUNICODE字じ元もと，依よ此類推るいすい；xxx的てき位置いち由よし字じ元もと編へん碼數的てき二進製表示的位填入。越こし靠もたれ右みぎ的てきx具有ぐゆう越えつ少しょう的てき特殊とくしゅ意義いぎ。只ただ用よう最短さいたん的てき那な個こ足あし夠表達たち一個字元編碼數的多位元組串。注意ちゅうい在ざい多た位い元もと組くみ串くし中ちゅう，第だい一個位元組的開頭"1"的てき數すう目もく就是整せい個こ串くし中位ちゅうい元もと組ぐみ的てき數すう目もく。

ASCII字母じぼ繼續けいぞく使用しよう1位い元もと組ぐみ儲もうか存そん，重じゅう音おと文字もじ、希まれ臘字母はは或ある西里にしざと爾なんじ字母じぼ等とう使用しよう2位い元もと組ぐみ來らい儲もうか存そん，而常用じょうよう的てき漢字かんじ就要使用しよう3位い元もと組ぐみ。輔助平面へいめん字じ元もと則のり使用しよう4位い元もと組ぐみ。

在ざいUTF-8+BOM格式かくしき檔案的てき開ひらき首くび，很多時じ都と放置ほうち一いち個こU+FEFF字じ元もと（UTF-8以EF,BB,BF代表だいひょう），以顯示けんじ這個文字もじ檔案是ぜ以UTF-8編へん碼。

UTF-8的てき特性とくせい

**UTF-8圖表ずひょう說明せつめい**
	UTF-8
最小さいしょう碼位	0000
最大さいだい碼位	10FFFF
每まい位い元もと組くみ所しょ佔位數すう	8 bits
Byte order	N/A
每まい個こ字じ元もと最小さいしょう位い元もと組くみ數すう	1
每まい個こ字じ元もと最大さいだい位い元もと組くみ數すう	4

UCS字じ元もとU+0000到いたU+007F（ASCII）被ひ編へん碼為位い元もと組くみ0x00到いた0x7F（ASCII相しょう容よう），這也意味いみ着ぎ只ただ包含ほうがん7位いASCII字じ元もと的てき檔案在ざいASCII和わUTF-8兩りょう種しゅ編へん碼方式しき下か是ぜ一いち樣よう的てき。
所有しょゆう>U+007F的てきUCS字じ元もと被ひ編へん碼為一個多個位元組的串，每まい個こ位い元もと組くみ都と有ゆう標記ひょうき位い集しゅう。因よし此，ASCII位い元もと組ぐみ（0x00-0x7F）不可能ふかのう作為さくい任にん何なん其他字じ元もと的てき一いち部分ぶぶん。
表示ひょうじ非ひASCII字じ元もと的てき多た位い元もと組くみ串くし的てき第だい一個位元組總是在0xC0到いた0xFD的てき範圍はんい裏うら，並なみ指出さしで這個字じ元もと包含ほうがん多少たしょう個こ位い元もと組ぐみ。多た位い元もと組ぐみ串くし的てき其餘位い元もと組くみ都と在ざい0x80到いた0xBF範圍はんい裏うら，這使得とく重おも新しん同どう步ふ非常ひじょう容易ようい，並なみ使し編へん碼無國界こっかい，且很少しょう受丟失しつ位い元もと組くみ的てき影響えいきょう。
可か以編入へんにゅう所有しょゆう可能かのう的てき231個いっこUCS代だい碼
UTF-8編へん碼字元もと理論りろん上じょう可か以最多た到いた6個こ位い元もと組長くみちょう，然しか而16位い元もとBMP字じ元もと最多さいた只ただ用よう到いた3位い元もと組長くみちょう。
Bigendian UCS-4位い元もと組ぐみ串くし的てき排列はいれつ順序じゅんじょ是ぜ預あずか定てい的てき。
位い元もと組ぐみ0xFE和わ0xFF在ざいUTF-8編へん碼中從したがえ未み用もちい到いた，同時どうじ，UTF-8以位元もと組ぐみ為ため編へん碼單元たんげん，它的位い元もと組くみ順序じゅんじょ在ざい所有しょゆう系統けいとう中なか都と是ぜ一いち様よう的てき，沒ぼつ有ゆう位い元もと組くみ序じょ的てき問題もんだい，也因此它實際じっさい上じょう並なみ不ふ需要じゅようBOM。
與あずかUTF-16或ある其他Unicode編へん碼相比ひ，對たい於不支援しえんUnicode和わXML的てき系統けいとう，UTF-8更さら不ふ容易ようい造成ぞうせい問題もんだい。

UTF-8編へん碼的優ゆう點てん

總體そうたい來らい說せつ，在ざいUnicode字じ串くし中ちゅう不可能ふかのう由よし碼點數量すうりょう決定けってい顯示けんじ它所需要じゅよう的てき長ちょう度ど，或ある者もの顯示けんじ字じ串くし之これ後ご在ざい文字もじ緩衝かんしょう區く中ちゅう游ゆう標しめぎ應おう該放置ほうち的てき位置いち；組合くみあい字じ元もと、變へん寬ひろし字じ型がた、不可ふか列れつ印字いんじ元和がんわ從したがえ右みぎ至いたり左ひだり的てき文字もじ都と是ぜ其歸因いん。

所以ゆえん儘管在ざいUTF-8字じ串くし中ちゅう字じ元もと數量すうりょう與あずか碼點數量すうりょう的てき關係かんけい比ひUTF-32更さら為ため複雜ふくざつ，在ざい實際じっさい中ちゅう很少會かい遇ぐう到いた有ゆう不同ふどう的てき情じょう形がた。

更さら詳細しょうさい的てき說せつ，UTF-8編へん碼具有ぐゆう以下いか幾いく點てん優ゆう點てん：

ASCII是ぜUTF-8的てき一いち個こ子こ集しゅう。因よし為ため一いち個こ純じゅんASCII字じ串くし也是一いち個こ合法ごうほう的てきUTF-8字じ串くし，所以ゆえん現存げんそん的てきASCII文字もじ不ふ需要じゅよう轉換てんかん。為ため傳統でんとう的てき擴充かくじゅうASCII字じ元もと集しゅう設計せっけい的てき軟件通常つうじょう可か以不經けい修おさむ改あらため或ある很少修おさむ改あらため就能與あずかUTF-8一いち起おこり使用しよう。
使用しよう標準ひょうじゅん的てき面めん向むこう位い元もと組くみ的てき排はい序じょ常つね式しき對たいUTF-8排はい序じょ將しょう產さん生なま與あずか基もと於Unicode代だい碼點排はい序じょ相しょう同どう的てき結果けっか。（儘管這只有ゆう有限ゆうげん的てき有用ゆうよう性せい，因いん為ため在任ざいにん何なん特定とくてい語ご言げん或ある文化ぶんか下か都と不ふ太ふと可能かのう有ゆう仍可接受せつじゅ的てき文字もじ排列はいれつ順序じゅんじょ。）
UTF-8和わUTF-16都と是ぜ可か延伸えんしん標記ひょうき式しき語ご言げん文ぶん件けん的てき標準ひょうじゅん編へん碼。所有しょゆう其它編へん碼都必須ひっす通過つうか顯あらわ式しき或ある文字もじ聲明せいめい來らい指定してい。[1]（頁ぺーじ面めん存そん檔備份，存そん於互聯網もう檔案館かん）
任にん何なに面めん向こう位い元もと組ぐみ的てき字じ串くし搜さがせ尋ひろ演算えんざん法ほう都と可か以用於UTF-8的てき數すう據よりどころ（只ただ要よう輸入ゆにゅう僅由完かん整せい的てきUTF-8字じ元もと組成そせい）。但ただし是ぜ，對たい於包含ほうがん字じ元もと記數きすう的てき正則せいそく表ひょう達たち式しき或ある其它結構けっこう必須ひっす小心しょうしん。
UTF-8字じ串くし可か以由一個簡單的演算法可靠地辨識出來。就是，一個字串在任何其它編碼中表現為合法的UTF-8的てき可能かのう性せい很低，並なみ隨ずい字じ串くし長ちょう度ど增長ぞうちょう而減小しょう。舉例說せつ，字じ元もと值C0,C1,F5至いたりFF從來じゅうらい沒ぼつ有ゆう出現しゅつげん。為ため了りょう更さら好このみ的てき可か靠もたれ性せい，可か以使用しよう正則せいそく表ひょう達たち式しき來らい統計とうけい非ひ法ほう過か長和おさわ替がえ代だい值（可か以檢視しW3 FAQ: Multilingual Forms （頁ぺーじ面めん存そん檔備份，存そん於互聯網もう檔案館かん）上じょう的てき驗けん證しょうUTF-8字じ串くし的てき正則せいそく表ひょう達たち式しき）。
與あずかUCS-2的てき比較ひかく：ASCII轉換てんかん成なりUCS-2，在ざい編へん碼前插入そうにゅう一いち個こ0x0。用よう這些編へん碼，會かい含括一いち些控制せい符ふ，比ひ如"或ある '/'，這在UNIX和わ一いち些C函數かんすう中ちゅう，將しょう會かい產さん生せい嚴重げんじゅう錯誤さくご。因よし此可以肯定こうてい，UCS-2不適合ふてきごう作為さくいUnicode的てき外部がいぶ編へん碼，也因此誕生せい了りょうUTF-8。

UTF-8 編へん碼的缺點けってん

編へん寫うつし不良ふりょう的てき解析かいせき器き

如果一いち個こ UTF-8 解析かいせき器き寫うつし得とく很差（並なみ且與當とう前ぜん標準ひょうじゅん的てき版本はんぽん不ふ相あい容よう），那な麼它接收せっしゅう到いた一いち些偽 UTF-8 時じ會かい將はた其轉換てんかん成なり看み似に正確せいかく實則さねつね錯誤さくご的てき Unicode 輸出ゆしゅつ。處理しょり八位表示的校驗常式可能遺漏一些資訊。

不利ふり於正則せいそく表ひょう達たち式しき檢索けんさく

正則せいそく表ひょう達たち式しき可か以進行しんこう很多進しん階かい的てき英文えいぶん模糊もこ檢索けんさく。例れい如，[a-h]表示ひょうじ a 到いた h 間あいだ所有しょゆう字母じぼ。

同樣どうよう GBK 編へん碼的中ちゅう文也ふみや可か以這樣さま利用りよう正則せいそく表ひょう達たち式しき，比ひ如在只ただ知道ともみち一個字的讀音而不知道怎麼寫的情況下，也可用よう正則せいそく表ひょう達たち式しき檢索けんさく，因いん為ため GBK 編へん碼是按讀音おん排はい序じょ的てき。但ただし是ぜ Unicode 漢字かんじ不ふ是ぜ按讀音おん排はい序じょ的てき，所以ゆえん不利ふり於用正則せいそく表ひょう達たち式しき檢索けんさく。雖然正則せいそく表ひょう達たち式しき檢索けんさく並なみ未み考慮こうりょ中ちゅう文ぶん的てき多た音字おんじ，但ただし是ぜ由よし於中文ぶん的てき多た音字おんじ數量すうりょう不ふ多た，不ふ少しょう多た音字おんじ還かえ是ぜ同音どうおん不ふ同調どうちょう類型るいけい的てき多た音字おんじ，所以ゆえん大だい多數たすう情況じょうきょう下か正則せいそく表ひょう達たち式しき檢索けんさく是ぜ還かえ可か以接受せつじゅ的てき。不ふ過か Unicode 漢字かんじ按部首ぶしゅ排はい序じょ，因いん此在只ただ知道ともみち一個字的部首而不知道如何發音的情況下，UTF-8 可用かよう正則せいそく表ひょう達たち式しき檢索けんさく而 GBK 不ふ行くだり。

可能かのう無法むほう用よう舊きゅう的てき C 語ご言げん函はこ式しき庫こ讀寫

由よし於UTF-8在ざい編へん碼中可能かのう有ゆう着ぎ空そら字じ元もと（null character，U+0000），這會導しるべ致C語ご言げん函はこ示しめせ庫こ以及其延伸えんしん的てき程ほど式しき解析かいせき失敗しっぱい，因いん為ため這些舊きゅう有ゆう的てき程ほど式しき庫こ使用しよう這個字じ元來がんらい標記ひょうき字じ串くし的てき結束けっそく。然しか而，之これ所以ゆえん說せつ「可能かのう」，是ぜ因いん為ため這個字じ元もと是ぜ控ひかえ制せい字じ元もと，理論りろん上じょう不ふ會かい出で現在げんざい XML 等ひとし純じゅん文字もじ檔案中ちゅう。當とう萬不得已要使用空字元的時候，可能かのう的てき解決かいけつ方法ほうほう是ぜ考慮こうりょ使用しよう Java 的てき變種へんしゅUTF-8 ——使用しよう 0xc0 0x80 來らい編へん碼空字じ元もと。

其他

UTF-8 的てき ASCII 字じ元もと只ただ佔用一いち個こ位い元もと組くみ，比較ひかく節ぶし省しょう空間くうかん，但ただし是ぜ更さら多た字じ元もと的てき UTF-8 編へん碼佔用よう的てき空間くうかん就要多た出で1/2，特別とくべつ是ぜ中ちゅう文ぶん、日にち文和ふみかず韓かん文ぶん（CJK）這樣的てき方かた塊かたまり文字もじ，它們大だい多た需要じゅよう三さん個こ位い元もと組ぐみ。

UTF-8的てき衍生物せいぶつ

Windows

雖然不ふ是ぜ標準ひょうじゅん，但ただし許多きょたWindows程ほど式しき（包括ほうかつWindows記事きじ本ほん）在ざいUTF-8編へん碼的檔案的てき開ひらき首くび加入かにゅう一いち段位だんい元もと組ぐみ串くしEF BB BF。這是位い元もと組ぐみ順序じゅんじょ記號きごうU+FEFF的てきUTF-8編へん碼結果けっか。對たい於沒有ゆう預あずか期き要よう處理しょりUTF-8的てき文字もじ編輯へんしゅう器き和かず瀏りゅう覽らん器き會かい顯示けんじ成なりISO-8859-1字じ串くしï»¿。

Posix系統けいとう

Posix系統けいとう明確めいかく不ふ建議けんぎ使用しよう位い元もと組くみ序じょ遮さえぎ罩EF BB BF。^[14]因いん為ため很多文字もじ檔案期き望もち以「#!」（Shebang）開ひらき頭あたま指示しじ要よう執行しっこう的てき程ほど式しき。Linux系統けいとう選擇せんたく使用しようUnicode規範きはん形式けいしきNormalization Form C（NFC），即そく優先ゆうせん使用しよう預あずか組ぐみ裝そう字じ元もと（precomposed character）而非組合くみあい字じ元もと序列じょれつ（combining character sequence）。

2002年ねん9月がつ發はつ佈的Red Hat Linux 8.0才ざい開始かいし正式せいしき把わ大だい多數たすう區域くいき設置せっち的てき預あずか設しつらえ編へん碼設為ためUTF-8。此前是ぜ各種かくしゅ語ご言げん的てき但ただし位くらい元もと組くみ編へん碼為主ぬし。2004年ねん9月がつSuSE Linux 9.1開始かいし，預あずか設しつらえ編へん碼遷移せんい為ためUTF-8。

字じ串くし處理しょり時じ，使用しようUTF-8或あるlocale依賴いらい的てき多た位い元もと組くみ編へん碼情形がた，比ひ使用しようC語ご言げんwchar_t的てき寬ひろし字じ元もと固定こてい寬ひろし度ど編へん碼，要よう慢1至いたり2個こ數量すうりょう級きゅう。^[14]

Java

在ざい通常つうじょう用法ようほう下か，Java程ほど式しき語ご言げん在ざい通過つうかInputStreamReader和わOutputStreamWriter讀取よみと和わ寫うつし入にゅう串くし的てき時候じこう支援しえん標準ひょうじゅんUTF-8。但ただし是ぜ，Java也支援しえん一種いっしゅ非ひ標準ひょうじゅん的てき變體へんたいUTF-8，供きょう對象たいしょう的てき序列じょれつ化か，Java本地ほんじ介かい面めん和かず在ざいclass檔案中ちゅう的てき嵌入かんにゅう常數じょうすう時じ使用しよう的てきmodified UTF-8。

變種へんしゅUTF-8

標準ひょうじゅん和わ變種へんしゅ的てきUTF-8有ゆう兩個りゃんこ不ふ同點どうてん。第だい一いち，空そら字じ元もと（null character，U+0000）使用しよう雙そう位い元もと組くみ的てき0xc0 0x80，而不是ぜ單位たんい元もと組ぐみ的てき0x00。這保證ほしょう了りょう在ざい已やめ編へん碼字串くし中ちゅう沒ぼつ有ゆう嵌入かんにゅう空位くうい元もと組ぐみ。因よし為ためC語ご言げん等とう語かたり言げん程ほど式しき中ちゅう，單位たんい元もと組ぐみ空そら字じ元もと是ぜ用よう來らい標しるべ誌し字じ串くし結尾けつび的てき。當とう已やめ編へん碼字串くし放ひ到いた這樣的てき語ご言げん中ちゅう處理しょり，一個嵌入的空字元將把字串一刀兩斷。

第だい二に個こ不同ふどう點てん是ぜ基本きほん多た文ぶん種しゅ平面へいめん之これ外字がいじ元もと的てき編へん碼的方法ほうほう。在ざい標準ひょうじゅんUTF-8中ちゅう，這些字じ元もと使用しよう4位い元もと組ぐみ形式けいしき編へん碼，而在修正しゅうせい的てきUTF-8中ちゅう，這些字じ元和げんなUTF-16一樣首先表示為代理對（surrogate pairs），然しか後ご再さい像ぞうCESU-8那な樣さま按照代理だいり對たい分別ふんべつ編へん碼。這樣修正しゅうせい的てき原因げんいん更さら是ぜ微妙びみょう。Java中ちゅう的てき字じ元もと為ため16位い元長もとなが，因いん此一些Unicode字じ元もと需要じゅよう兩個りゃんこJava字じ元來がんらい表示ひょうじ。語かたり言げん的てき這個性質せいしつ蓋ぶた過か了りょうUnicode的てき增補ぞうほ平面へいめん的てき要求ようきゅう。儘管如此，為ため了りょう要よう保持ほじ良好りょうこう的てき向こう下相おりあい容よう、要よう改變かいへん也不容易ようい了りょう。這個修正しゅうせい的てき編へん碼系統けいとう保證ほしょう了りょう一個已編碼字串可以一次編為一個UTF-16碼，而不是ぜ一いち次じ一いち個こUnicode碼點。不幸ふこう的てき是ぜ，這也意味いみ着ぎUTF-8中ちゅう需要じゅよう4位い元もと組ぐみ的てき字じ元もと在ざい變種へんしゅUTF-8中ちゅう變成へんせい需要じゅよう6位い元もと組ぐみ。

因いん為ため變種へんしゅUTF-8並なみ不ふ是ぜUTF-8，所以ゆえん用よう戶と在ざい交換こうかん資し訊和使用しよう互聯網もう的てき時候じこう需要じゅよう特別とくべつ注意ちゅうい不要ふよう誤あやま把わ變種へんしゅUTF-8當とう成なりUTF-8數すう據よりどころ。

Mac OS X

Mac OS X 作業さぎょう系統けいとう使用しよう統すべ一碼正規形式中的分解式標準等價（canonically decomposed Unicode），在ざい檔案系統けいとう中ちゅう使用しようUTF-8編へん碼進行しんこう檔案命名めいめい，這做法ほう通常つうじょう被ひ稱しょう為ためUTF-8-MAC。分解ぶんかい式しき標準ひょうじゅん等價とうか中ちゅう，預あずか組合くみあい字じ元もと是ぜ被ひ禁止きんし使用しよう的てき，必須ひっす以組合くみあい字じ元もと取と代だい。

這種方法ほうほう使し分類ぶんるい變へん得どく非常ひじょう簡單かんたん，但ただし是ぜ會かい搞混那な些使用しよう預あずか組合くみあい字じ元もと為ため標準ひょうじゅん、組合くみあい字じ元もと用よう來らい顯示けんじ特殊とくしゅ字じ元もと的てき軟件。Mac系統けいとう的てき這種NFD數すう據よりどころ是ぜ統一とういつ碼正規せいき形式けいしき（Unicode normalization）的てき一いち種しゅ格式かくしき。而其他た系統けいとう，包括ほうかつWindows和わLinux，使用しよう統一とういつ碼規範きはん的てきNFC形式けいしき，也是W3C標準ひょうじゅん使用しよう的てき形式けいしき。所以ゆえん通常つうじょうNFD數すう據よりどころ必須ひっす轉換てんかん成なりNFC才能さいのう被ひ其他平台ひらだい或ある者もの網もう絡からま使用しよう。

蘋果開發かいはつ者しゃ專せん區く有ゆう關せき於此問題もんだい的てき討論とうろん：Apple Q&A 1173 （頁ぺーじ面めん存そん檔備份，存そん於互聯網もう檔案館かん）。

MySQL

MySQL字じ元もと編へん碼集中有ちゅうう兩りょう套UTF-8編へん碼實現じつげん：「utf8」和かず「utf8mb4」，其中「utf8」是ぜ一個字最多佔據3位い元もと組ぐみ空間くうかん的てき編へん碼實現じつげん；而「utf8mb4」則のり是ぜ一個字最多佔據4位い元もと組ぐみ空間くうかん的てき編へん碼實現じつげん，也就是ぜUTF-8的てき完かん整せい實現じつげん。這是由よし於MySQL在ざい4.1版本はんぽん開始かいし支援しえんUTF-8編へん碼（當時とうじ參考さんこうUTF-8草案そうあん版本はんぽん為ためRFC 2279）時じ，為ため2003年ねん，並なみ且在同年どうねん9月がつ限げん制せい了りょう其實現じつげん的てきUTF-8編へん碼的空間くうかん佔用最多さいた為ため3位い元もと組ぐみ，而UTF-8正式せいしき形成けいせい標準ひょうじゅん化か文ぶん件けん（RFC 3629）是ぜ其之後ご。限きり制せいUTF-8編へん碼實現じつげん的てき編へん碼空間あいだ佔用一般いっぱん被ひ認みとめ為ため是ぜ考慮こうりょ到いた資料しりょう庫こ檔案設計せっけい的てき相しょう容よう性せい和やわ讀取よみと最さい佳けい化か，但ただし實際じっさい上じょう並なみ沒ぼつ有ゆう達たち到いた目的もくてき，而且在ざいUTF-8編へん碼開始かいし出現しゅつげん需要じゅよう存そん入にゅう非ひ基本きほん多た文ぶん種しゅ平面へいめん的てきUnicode字じ元もと（例れい如emoji字じ元もと）時じ導しるべ致無法ほう存そん入いれ（由ゆかり於3位い元もと組ぐみ的てき實現じつげん只ただ能のう存そん入にゅう基本きほん多た文ぶん種しゅ平面へいめん內的字じ元もと）。直ちょく到いた2010年ねん在ざい5.5版本はんぽん推出「utf8mb4」來らい代替だいたい、「utf8」重じゅう新しん命名めいめい為ため「utf8mb3」並なみ調整ちょうせい「utf8」為ため「utf8mb3」的てき別名べつめい，並なみ不ふ建議けんぎ使用しよう舊きゅう「utf8」編へん碼，以此修正しゅうせい遺留いりゅう問題もんだい。^[15]^[16]^[17]^[18]

參まいり閱

參考さんこう文獻ぶんけん

^ ^1.0 ^1.1 Davis, Mark. Unicode over 60 percent of the web. Official Google Blog. 2012-02-03 [2019-11-23]. （原始げんし內容存そん檔於2018-08-09）.
^ Pike, Rob. UTF-8 history. 2003-04-30 [2019-11-23]. （原始げんし內容存そん檔於2006-10-29）. ...UTF-8 was designed, in front of my eyes, on a placemat in a New Jersey diner one night in September or so 1992...So that night Ken wrote packing and unpacking code and I started tearing into the C and graphics libraries. The next day all the code was done... .
^ Pike, Rob; Thompson, Ken. Hello World or Καλημέρα κόσμε or こんにちは世界せかい (PDF). Proceedings of the Winter 1993 USENIX Conference. 1993 [2019-11-23]. （原始げんし內容存そん檔 (PDF)於2017-10-11）.
^ Encoding Standard. encoding.spec.whatwg.org. [2019-11-23]. （原始げんし內容存そん檔於2015-02-04）（英語えいご）. The problems outlined here go away when exclusively using UTF-8, which is one of the many reasons that is now the mandatory encoding for all things.
^ Usage Survey of Character Encodings broken down by Ranking. w3techs.com. [2019-11-23]. （原始げんし內容存そん檔於2022-01-21）（英語えいご）.
^ Historical trends in the usage of character encodings. [2019-11-14].
^ UTF-8 Usage Statistics. BuiltWith. [2011-03-28]. （原始げんし內容存そん檔於2021-12-07）.
^ Using International Characters in Internet Mail. Internet Mail Consortium. 1998-08-01 [2007-11-08]. （原始げんし內容存そん檔於2007-10-26）.
^ Specifying the document's character encoding, HTML5.2, World Wide Web Consortium, 14 December 2017 [2018-06-03], （原始げんし內容存そん檔於2019-06-13）
^ 參考さんこうRFC 2277 section 3.1
^ Using International Characters in Internet Mail. 2007-10-26 [2018-07-27]. 原始げんし內容存そん檔於2007-10-26.
^ The Unicode Standard, Version 13.0, Chapter 3 (PDF). [2020-03-23]. （原始げんし內容存そん檔 (PDF)於2021-09-20）.
^ ISO 10646标准下か载页面めん. [2020-03-23]. （原始げんし內容存そん檔於2022-01-19）.
^ ^14.0 ^14.1 UTF-8 and Unicode FAQ for Unix/Linux by Markus Kuhn. [2005-06-16]. （原始げんし內容存そん檔於2018-09-24）.
^ MySQL :: MySQL 8.0 Reference Manual :: 10.9.3 The utf8 Character Set (Alias for utf8mb3). dev.mysql.com. [2020-04-03]. （原始げんし內容存そん檔於2021-10-31）.
^ MySQL :: MySQL 8.0 Reference Manual :: 10.9.2 The utf8mb3 Character Set (3-Byte UTF-8 Unicode Encoding). dev.mysql.com. [2020-04-03]. （原始げんし內容存そん檔於2022-01-13）.
^ MySQL :: MySQL 8.0 Reference Manual :: 10.9.1 The utf8mb4 Character Set (4-Byte UTF-8 Unicode Encoding). dev.mysql.com. [2020-04-03]. （原始げんし內容存そん檔於2021-10-25）.
^ Hooper, Adam. In MySQL, never use “utf8”. Use “utf8mb4”.. Medium. 2019-08-19 [2020-04-03]. （原始げんし內容存そん檔於2020-11-30）（英語えいご）.

外部がいぶ連結れんけつ

RFC 3629：UTF-8標準ひょうじゅん
RFC 2277：IETF policy on character sets and languages
Rob Pike tells the story of UTF-8's creation（頁ぺーじ面めん存そん檔備份，存そん於互聯網もう檔案館かん）
Original UTF-8 paper
UTF-8 test pages by University Hannover （頁ぺーじ面めん存そん檔備份，存そん於互聯網もう檔案館かん） and the World Wide Web Consortium （頁ぺーじ面めん存そん檔備份，存そん於互聯網もう檔案館かん）
Unix/Linux: UTF-8和わUnicode的てき常見つねみ問題もんだい集しゅう（頁ぺーじ面めん存そん檔備份，存そん於互聯網もう檔案館かん），Linux Unicode HOWTO，UTF-8 and Gentoo （頁ぺーじ面めん存そん檔備份，存そん於互聯網もう檔案館かん）
The Unicode/UTF-8-character table （頁ぺーじ面めん存そん檔備份，存そん於互聯網もう檔案館かん） displays UTF-8 in a variety of formats（with Unicode and HTML encoding information）
Online Tool for URL encoding/decoding according to RFC 3986 and RFC 3629（JavaScript，GPL）
UTF-8測はか試ためし頁ぺーじ
UTF-8 （頁ぺーじ面めん存そん檔備份，存そん於互聯網もう檔案館かん）

由ゆかり統一とういつ碼聯盟れんめい出版しゅっぱん的てき書しょ

The Unicode Standard, Version 5.0, Fifth Edition, The Unicode Consortium, Addison-Wesley Professional,2006年ねん10月がつ27日にち。ISBN 0-321-48091-0
The Unicode Standard, Version 4.0, The Unicode Consortium, Addison-Wesley Professional，2003年ねん8月がつ27日にち。ISBN 0-321-18578-1

[MarkDavis2012-1] 1.0 ^1.1 Davis, Mark. Unicode over 60 percent of the web. Official Google Blog. 2012-02-03 [2019-11-23]. （原始げんし內容存そん檔於2018-08-09）.

[:0-2] Pike, Rob. UTF-8 history. 2003-04-30 [2019-11-23]. （原始げんし內容存そん檔於2006-10-29）. ...UTF-8 was designed, in front of my eyes, on a placemat in a New Jersey diner one night in September or so 1992...So that night Ken wrote packing and unpacking code and I started tearing into the C and graphics libraries. The next day all the code was done... .

[3] Pike, Rob; Thompson, Ken. Hello World or Καλημέρα κόσμε or こんにちは世界せかい (PDF). Proceedings of the Winter 1993 USENIX Conference. 1993 [2019-11-23]. （原始げんし內容存そん檔 (PDF)於2017-10-11）.

[mandatory-4] Encoding Standard. encoding.spec.whatwg.org. [2019-11-23]. （原始げんし內容存そん檔於2015-02-04）（英語えいご）. The problems outlined here go away when exclusively using UTF-8, which is one of the many reasons that is now the mandatory encoding for all things.

[5] Usage Survey of Character Encodings broken down by Ranking. w3techs.com. [2019-11-23]. （原始げんし內容存そん檔於2022-01-21）（英語えいご）.

[W3Techs-6] Historical trends in the usage of character encodings. [2019-11-14].

[BuiltWith-7] UTF-8 Usage Statistics. BuiltWith. [2011-03-28]. （原始げんし內容存そん檔於2021-12-07）.

[IMC-8] Using International Characters in Internet Mail. Internet Mail Consortium. 1998-08-01 [2007-11-08]. （原始げんし內容存そん檔於2007-10-26）.

[html5charset-9] Specifying the document's character encoding, HTML5.2, World Wide Web Consortium, 14 December 2017 [2018-06-03], （原始げんし內容存そん檔於2019-06-13）

[10] 參考さんこうRFC 2277 section 3.1

[11] Using International Characters in Internet Mail. 2007-10-26 [2018-07-27]. 原始げんし內容存そん檔於2007-10-26.

[12] The Unicode Standard, Version 13.0, Chapter 3 (PDF). [2020-03-23]. （原始げんし內容存そん檔 (PDF)於2021-09-20）.

[13] ISO 10646标准下か载页面めん. [2020-03-23]. （原始げんし內容存そん檔於2022-01-19）.

[faq-14] 14.0 ^14.1 UTF-8 and Unicode FAQ for Unix/Linux by Markus Kuhn. [2005-06-16]. （原始げんし內容存そん檔於2018-09-24）.

[15] MySQL :: MySQL 8.0 Reference Manual :: 10.9.3 The utf8 Character Set (Alias for utf8mb3). dev.mysql.com. [2020-04-03]. （原始げんし內容存そん檔於2021-10-31）.

[16] MySQL :: MySQL 8.0 Reference Manual :: 10.9.2 The utf8mb3 Character Set (3-Byte UTF-8 Unicode Encoding). dev.mysql.com. [2020-04-03]. （原始げんし內容存そん檔於2022-01-13）.

[17] MySQL :: MySQL 8.0 Reference Manual :: 10.9.1 The utf8mb4 Character Set (4-Byte UTF-8 Unicode Encoding). dev.mysql.com. [2020-04-03]. （原始げんし內容存そん檔於2021-10-25）.

[18] Hooper, Adam. In MySQL, never use “utf8”. Use “utf8mb4”.. Medium. 2019-08-19 [2020-04-03]. （原始げんし內容存そん檔於2020-11-30）（英語えいご）.

[2]

[3]

[1]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[Note 1]

[12]

[13]

[14]

[15]

[16]

[17]

[18]