UTF-16

UTF-16 (UCS/Unicode Transformation Format 16^{[注釈ちゅうしゃく 1]}) とは、UnicodeおよびISO/IEC 10646の、符号ふごう化かフォームおよび符号ふごう化かスキーム（文字もじ符号ふごう化か方式ほうしきを参照さんしょう）のひとつである。

UTF-16では、1文字もじが、16ビットの符号ふごう単位たんいが1つまたは2つで符号ふごう化かされる。これが「-16」の名なの由来ゆらいである。基本きほん多言たげん語ご面めん（BMP）内うちの文字もじは、符号ふごう単位たんい1つの16ビットで表あらわされる。BMP以外いがいの文字もじは、符号ふごう単位たんい2つの32ビットで表あらわされる。なお、UTF-16は2バイトコードだと誤解ごかいされることがあるが、このように4バイトのこともあるため間違まちがいである。

Unicodeにおいては、厳密げんみつには、文字もじ符号ふごう化かフォーム（英えい: Character Encoding Form）の1つの名称めいしょうであり、かつ、UTF-16符号ふごう化か形式けいしきのための文字もじ符号ふごう化かスキーム（英えい: Character Encoding Scheme）の1つの名称めいしょうでもある。UTF-16符号ふごう化かフォームのための文字もじ符号ふごう化かスキームには、UTF-16の他ほかにUTF-16BE、UTF-16LEがある。

符号ふごう化か

UTF-16では、Unicodeの代用だいよう符号ふごう位置いちを除のぞいた符号ふごう位置いち（Unicodeスカラ値ちという）を、16ビット符号ふごうなし整数せいすうを符号ふごう単位たんいとした符号ふごう単位たんい列れつで表あらわす。符号ふごう単位たんい列れつは1つまたは2つの符号ふごう単位たんいからなる。すなわち、合計ごうけいは16ビットまたは32ビットである。

BMPに含ふくまれるU+0000–U+D7FFとU+E000–U+FFFFは、そのまま符号ふごう単位たんい1つで表あらわす。BMP以外いがいのU+10000–U+10FFFFは、表ひょうのようにビットを配分はいぶんして、符号ふごう単位たんい2つで表あらわす。

スカラ値ち	UTF-16	備考びこう
`xxxxxxxxxxxxxxxx`	`xxxxxxxxxxxxxxxx`
`000uuuuuyyyyyyxxxxxxxxxx`	`110110wwwwyyyyyy 110111xxxxxxxxxx`	`wwww = uuuuu - 1`

このとき使つかわれる、U+D800–U+DFFF の符号ふごう位置いちを、代用だいよう符号ふごう位置いち（Surrogate Code Point）と呼よび、BMP外がいの1つの符号ふごう位置いちを表あらわす連続れんぞくした2つの代用だいよう符号ふごう位置いちのペアをサロゲートペアと呼よぶ。代用だいよう符号ふごう位置いちに使つかうため、BMPのこの領域りょういきには文字もじが収録しゅうろくされておらず、UTF-16以外いがいのUTF-8、UTF-32では使用しようされない。

Unicodeの符号ふごう位置いちの最大さいだい値ちがU+10FFFFなのは、それがUTF-16で表あらわせる最大さいだい値ちだからである。

UTF-16符号ふごう化かフォームで表現ひょうげんされた文字もじは、16ビット符号ふごうなし整数せいすうの符号ふごう単位たんい列れつであり、プログラム内部ないぶでの処理しょりには都合つごうがよいが、それでもって情報じょうほう交換こうかんのためにファイルの読よみ書かきや通信つうしんを行おこなう場合ばあいは、適当てきとうな符号ふごう化かスキームにより、バイト直列ちょくれつ化かする必要ひつようがある。

符号ふごう化かスキームには、UTF-16、UTF-16BE、UTF-16LEの3種類しゅるいある。UTF-16BEは、16ビット整数せいすうをビッグエンディアンで直列ちょくれつ化かする。UTF-16LEは、リトルエンディアンで直列ちょくれつ化かする。UTF-16BE、UTF-16LEの場合ばあいは、バイト順じゅんマーク (BOM) の付与ふよは許ゆるされない。UTF-16の場合ばあいは、BOM でエンディアンを明示めいじするか、上層じょうそうのプロトコルで指定していされておらずBOMも付与ふよしない場合ばあいはビッグエンディアンにするよう決きめられている^[1]。

比較ひかく

UTF-8、UTF-32と比較ひかくして、一般いっぱん的てきな日本語にほんごが主体しゅたいの文章ぶんしょうではUnicode符号ふごう化か方式ほうしきの中なかでは最小さいしょうサイズとなる。追加ついか面めんの文字もじが含ふくまれる場合ばあい、バイト順じゅんにソートしても符号ふごう位置いち順じゅんとはならない。また、UTF-8と違ちがいASCII互換ごかんではない。

Shift_JISと比較ひかくして、Shift_JISでは1バイト文字もじと、2バイト文字もじの1バイト目めと2バイト目めの値ね範囲はんいが一部いちぶ重複じゅうふくしているが、UTF-16では1符号ふごう単位たんい文字もじ、サロゲートペアの前半ぜんはんの符号ふごう単位たんい、後半こうはんの符号ふごう単位たんいがすべて異ことなる値ね範囲はんいを取とる。そのため、Shift_JISであった、例たとえば「a」で検索けんさくすると2バイト目めにマッチする場合ばあいがある、途中とちゅうから読よみこむと文字もじの区切くぎりがわからないときがある、1バイト目めや2バイト目めが欠落けつらくした場合ばあい、後続こうぞくの文字もじすべてが文字もじ化ばけする可能かのう性せいがある、などの問題もんだいは発生はっせいしない。UTF-16では欠落けつらくがあっても影響えいきょうを受うけるのはその文字もじだけである^[2]。

利用りよう

UTF-16符号ふごう化かフォームは、Windows や Java（J2SE 5.0以上いじょう）で、内部ないぶ表現ひょうげんに使つかわれている。Windowsの内部ないぶ表現ひょうげんでは、16ビット符号ふごうなし整数せいすうを符号ふごう単位たんいとするUTF-16符号ふごう化かフォームとして扱あつかい、ファイルなどでは、BOMあり（リトルエンディアン）のUTF-16符号ふごう化かスキームが主おもである。

TCP/IPネットワークでは、プロトコルヘッダやMIME等とうの手段しゅだんで文字もじ符号ふごう化かスキームを指定していしない場合ばあいは、ビッグエンディアンに決きめられている。

脚注きゃくちゅう

注釈ちゅうしゃく

^ UTFは、UnicodeではUnicode Transformation Formatの略りゃく、ISO/IEC 10646ではUCS Transformation Formatの略りゃくとされる。

出典しゅってん

^ “The Unicode Standard Version 12.0” (PDF) (English). The Unicode Consortium. p. 131 (2019年ねん3月がつ). 2019年ねん5月がつ12日にち閲覧えつらん。 “The UTF-16 encoding scheme may or may not begin with a BOM. However,when there is no BOM, and in the absence of a higher-level protocol, the byteorder of the UTF-16 encoding scheme is big-endian.”
^ “FAQ - UTF-8, UTF-16, UTF-32 & BOM” (English). The Unicode Consortium (2017年ねん6月がつ27日にち). 2019年ねん5月がつ12日にち閲覧えつらん。

参考さんこう資料しりょう

用語ようごの日本語にほんご表記ひょうきは次つぎを参考さんこうにした。“Unicode Terminology English - Japanese”. Unicode, Inc. 2010年ねん1月がつ1日にち閲覧えつらん。