ISO/IEC 10646

ISO/IEC 10646 (UCS; 英えい: Universal Coded Character Set) は、符号ふごう化か文字もじ集合しゅうごうや文字もじ符号ふごう化か方式ほうしきなどを定さだめた、文字もじコードの国際こくさい標準ひょうじゅんのひとつで、業界ぎょうかい規格きかくのUnicodeと概おおむね互換ごかんである。日本にっぽんの対応たいおう規格きかくはJIS X 0221（国際こくさい符号ふごう化か文字もじ集合しゅうごう）。

文字もじ空間くうかん(0 - 10FFFF₁₆)、収録しゅうろくされている文字もじ、それらの符号ふごう位置いち、英語えいごでつけられた文字もじの名前なまえ、文字もじ符号ふごう化か方式ほうしき(UTF-8, UTF-16, UTF-32)はUnicode規格きかくと全まったく同おなじである^[1]^[2]^[3]^[4]。ただし、文字もじ空間くうかんは古ふるい規格きかくでは21ビットのUnicodeをベースにして文字もじ空間くうかんを31ビットに拡張かくちょうしたものとされ、Unicodeの最大さいだい値ちであるU+10FFFFより大おおきなコードも使用しようできるという点てんでUnicodeと異ことなっていた。しかし、2006年ねんの改訂かいていによりUnicodeで使用しようできない領域りょういきには文字もじが「永久えいきゅうに定義ていぎされない」こととされ、2011年ねんの改訂かいていでは明確めいかくに0 - 10FFFFと定義ていぎされ同一どういつとなった。

面めん (plane)、区く (row)、点てん (cell) として分わけられ、Unicodeと同おなじ第だい0面めんの基本きほん多言たげん語ご面めん (BMP; 英えい: Basic Multilingual Plane) と追加ついか面めんの第だい1 - 16面めんまでの範囲はんいで文字もじが定義ていぎされている。古ふるい規格きかくでは群ぐん (group) という分類ぶんるいもあったが2011年ねんの改訂かいていで廃止はいしされた。

制定せいていの経緯けいいとその影響えいきょう

この規格きかくは制定せいていの一いち歩ほ手前てまえの段階だんかいまでは、現在げんざいの姿すがたとはかなり異ことなる仕様しようだった。4オクテットの符号ふごうであり、各かくオクテットをそれぞれ群ぐん、面めん、区く、点てんとする。各面かくめんには従来じゅうらいのコントロール領域りょういきを避さけた0x20 - 0x7Fと0xA0 - 0xFFの範囲はんいに文字もじを割わり当あてる。その範囲はんいにISO/IEC 2022に従したがった構造こうぞうの各国かっこくコード（ISO/IEC 8859やJIS X 0208、GB 2312など）を平行へいこう移動いどうしてそっくり収容しゅうようするという、従来じゅうらいのコード系けいとの互換ごかん性せいを最大限さいだいげんに尊重そんちょうした構成こうせいをとっていた。

この案あんは1990年ねんに国際こくさい標準ひょうじゅんの一いち歩ほ前まえの段階だんかいのDIS (Draft International Standard) として作成さくせいされたが、1991年ねん6月の投票とうひょうで否決ひけつされた。その理由りゆうは、同おなじ時期じきにアメリカの企業きぎょう群ぐんがUnicode仕様しようを作成さくせいしたため、同おなじ目的もくてきの規格きかくが2つ作つくられることを避さけることだった。

その後ご、DIS 10646とUnicodeとを一本いっぽん化かする作業さぎょうが行おこなわれた。既存きそん規格きかくとの整合せいごう性せいを重おもんじたDIS 10646に対たいして、Unicodeは各種かくしゅアルファベット類るいは新規しんき割わり当あて、漢字かんじは日にち中ちゅう韓かんを統合とうごう、符号ふごう位置いちはコントロール領域りょういきまで全すべて使つかって2オクテット固定こていという、全まったく異ことなる方針ほうしんで設計せっけいされていた。結果けっかとして、「群ぐん・面めん・区く・点てん」という用語ようごは残のこしながら、第だい0群ぐん第だい0面めんを基本きほん多言たげん語ご面めん (BMP) と称しょうし、BMPにUnicodeをそっくり入いれてその他たの群ぐん・面めんは未み使用しようという、実質じっしつ2オクテットの符号ふごうとなった。

結局けっきょく、Unicodeに乗のっ取とられ第だい1版はんとは似にても似につかぬ符号ふごうになったDIS 10646第だい2版はんが、そのままInternational Standardとして制定せいていされることとなった。1993年ねんのことである。

このような経緯けいいをたどり、既存きそん規格きかくとの対応たいおうが不ふ明確めいかくな定義ていぎになってしまったため、既存きそん規格きかくとのコード変換へんかんにおいて、似にたような形かたちの多おおい記号きごうのどれに対応たいおうさせるのかの判断はんだんが困難こんなんとなる問題もんだいが生しょうじた。これにより、製品せいひんによってコード変換へんかんが異ことなる問題もんだいが常態じょうたい化かし、この問題もんだいに起因きいんする文字もじ化ばけは今いま^[いつ?]に至いたるまで解決かいけつの目処めどが経たっていない。ただし漢字かんじについては、元もとになった各国かっこく規格きかくの符号ふごう位置いちが明示めいじされているため変換へんかんの違ちがいは生しょうじていない。

制定せいていされた規格きかく群ぐん

※ 1999年ねん9月がつ以降いこう、2000年ねん9月がつまでに成立せいりつしたAmendmentおよびTechnical Corrigendumは、発行はっこうされずそのままISO/IEC 10646-1:2000に組くみ込こまれた。

発行はっこう日び	規格きかく番号ばんごう	名称めいしょう
1993/05/01	ISO/IEC 10646-1: 1993	Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and basic Multilingual Plane
1996/03/01	ISO/IEC 10646-1: 1993/Cor.1	TECHNICAL CORRIGENDUM 1 to ISO/IEC 10646-1:1993
1996/10/15	ISO/IEC 10646-1:1993/Amd.1	Transformation Format for 16 planes of group 00 (UTF-16)
1996/10/15	ISO/IEC 10646-1:1993/Amd.2	UCS Transformation Format 8 (UTF-8)
1996/10/15	ISO/IEC 10646-1:1993/Amd.3	Code positions for control characters
1996/10/15	ISO/IEC 10646-1:1993/Amd.4	Removal of annex G (UTF-1)
1997/11/15	ISO/IEC 10646-1:1993/Amd.6	Tibetan
1997/11/15	ISO/IEC 10646-1:1993/Amd.7	33 additional characters
1997/12/15	ISO/IEC 10646-1:1993/Amd.8	New annex on CJK Ideographs to ISO/IEC 10646-1:1993
1997/12/15	ISO/IEC 10646-1:1993/Amd.9	Identifiers for Characters
1998/05/15	ISO/IEC 10646-1:1993/Amd.5	Hangul syllables
1998/07/15	ISO/IEC 10646-1:1993/Cor.2	TECHNICAL CORRIGENDUM 2 to ISO/IEC 10646-1:1993
1998/07/15	ISO/IEC 10646-1:1993/Amd.11	Unified Canadian Aboriginal Syllabics
1998/09/01	ISO/IEC 10646-1:1993/Amd.12	Cherokee
1998/10/01	ISO/IEC 10646-1:1993/Amd.10	Ethiopic script
1998/10/15	ISO/IEC 10646-1:1993/Amd.13	CJK unified ideographs
1998/11/01	ISO/IEC 10646-1:1993/Amd.16	Braille Patterns
1998/11/01	ISO/IEC 10646-1:1993/Amd.19	Runic
1998/11/01	ISO/IEC 10646-1:1993/Amd.20	Ogham
1999/05/15	ISO/IEC 10646-1:1993/Amd.23	Bopomofo and various other characters
1999/06/01	ISO/IEC 10646-1:1993/Amd.21	Sinhala
1999/07/15	ISO/IEC 10646-1:1993/Amd.17	CJK Unified Ideograph Extension
1999/07/15	ISO/IEC 10646-1:1993/Amd.18	Symbols and Others
1999	ISO/IEC 10646-1:1993/Cor.3	TECHNICAL CORRIGENDUM 3 to ISO/IEC 10646-1:1993
1999	ISO/IEC 10646-1:1993/Amd.14	Yi syllables and Yi radicals
1999	ISO/IEC 10646-1:1993/Amd.22	Keyboard symbols
1999	ISO/IEC 10646-1:1993/Amd.24	Thaana Script
1999	ISO/IEC 10646-1:1993/Amd.25	Khmer Script
1999	ISO/IEC 10646-1:1993/Amd.26	Burmese Script
1999	ISO/IEC 10646-1:1993/Amd.27	Syriac Script
1999	ISO/IEC 10646-1:1993/Amd.29	Mongolian
1999	ISO/IEC 10646-1:1993/Amd.30	Additional Latin and other characters
2000	ISO/IEC 10646-1:1993/Amd.15	Radicals and Numerals
2000	ISO/IEC 10646-1:1993/Amd.28	Ideographic Description Sequences
2000	ISO/IEC 10646-1:1993/Amd.31	Tibetan Extension
2000/09/15	ISO/IEC 10646-1:2000	UCS -- Part 1: Architecture and basic Multilingual Plane
2001/11/01	ISO/IEC 10646-2:2001	UCS -- Part 2: Supplementary Planes
2002/07/16	ISO/IEC 10646-1:2000/Amd.1	Mathematical symbols and other characters
2003/12/15	ISO/IEC 10646:2003	Universal Multiple-Octet Coded Character Set (UCS)
2005/11/15	ISO/IEC 10646:2003/Amd.1	Glagolitic, Coptic, Georgian and other characters
2006/07/01	ISO/IEC 10646:2003/Amd.2	N'Ko, Phags-pa, Phoenician and other characters
2008/02/15	ISO/IEC 10646:2003/Amd.3	Lepcha, Ol Chiki, Saurashtra, Vai and other characters
2008/07/01	ISO/IEC 10646:2003/Amd.4	Cham, Game Tiles, and other characters
2008/12/01	ISO/IEC 10646:2003/Amd.5	Tai Tham, Tai Viet, Avestan, Egyptian Hieroglyphs, CJK Unified Ideographs Extension C, and other characters
2009/10/15	ISO/IEC 10646:2003/Amd.6	Bamum, Javanese, Lisu, Meetei Mayek, Samaritan, and other characters
2010/7/15	ISO/IEC 10646:2003/Amd.7	Mandaic, Batak, Brahmi, and other characters
2011/5/2	ISO/IEC 10646:2011	Universal Coded Character Set (UCS)
2012/05/21	ISO/IEC 10646:2012	Information technology -- Universal Coded Character Set (UCS)
2013/04/09	ISO/IEC 10646:2012/Amd 1:2013	Linear A, Palmyrene, Manichaean, Khojki, Khudawadi, Bassa Vah, Duployan, and other characters
2014/08/29	ISO/IEC 10646:2014	Information technology -- Universal Coded Character Set (UCS)
2015	ISO/IEC 10646:2014/Amd 1:2015	Cherokee supplement and other characters
2016	ISO/IEC 10646:2014/Amd 2:2016	Bhaiksuki, Marchen, Tangut and other characters
2017/12/22	ISO/IEC 10646:2017	Information technology -- Universal Coded Character Set (UCS)

文字もじ符号ふごう化か方式ほうしき

Unicodeの『UTF』が『Unicode Transformation Format』を意味いみするのに対たいし、ISO/IEC 10646の『UTF』は『UCS Transformation Format』を意味いみする。

UTF-1: 初期しょきに提案ていあんされていた、8ビットコードによる方式ほうしき。ほとんど利用りようされることなくUTF-8にとって代かわられた。
UCS-2: 2オクテット固定こていのUCS (Universal Coded-Character Set) である。BMP（基本きほん多言たげん語ご面めん）以外いがいの文字もじを使つかうことはできず、すべての文字もじを符号ふごう化かできるUTF-16にとって代かわられた。2011年ねんの改訂かいていではdeprecated（廃止はいし予定よてい）とされた。
UTF-8: UnicodeのUTF-8と同おなじ^[3]。
UTF-16: UnicodeのUTF-16と同おなじ^[4]。
UTF-32 (UCS-4): UnicodeのUTF-32と同おなじ。

実装じっそうレベル

古ふるい規格きかくでは実装じっそうレベルというものが考かんがえられていたが2011年ねんの改訂かいていで廃止はいしされ、Level3の実装じっそうのみを扱あつかう事こととなった。

Level 1: 合成ごうせい列れつなどを扱あつかわない
Level 2: 必要ひつような合成ごうせい列れつを扱あつかえる
Level 3: 全すべて扱あつかえる

Unicodeは、Level 3の実装じっそうである。

脚注きゃくちゅう

^ “The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 1 (2018年ねん6月がつ5日にち). 2019年ねん1月がつ21日にち閲覧えつらん。 “The Unicode Standard is code-for-code identical with International Standard ISO/IEC 10646.”
^ “The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 88 (2018年ねん6月がつ5日にち). 2019年ねん1月がつ21日にち閲覧えつらん。 “The character names in the Unicode Standard match those of the English edition of ISO/IEC 10646.”
^ ^a ^b “The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 930 (2018年ねん6月がつ5日にち). 2019年ねん1月がつ21日にち閲覧えつらん。 “The ISO/IEC 10646 definition of UTF-8 is identical to UTF-8 as described under Definition D92 in Section 3.9, Unicode Encoding Forms.”
^ ^a ^b “The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 930 (2018年ねん6月がつ5日にち). 2019年ねん1月がつ21日にち閲覧えつらん。 “The ISO/IEC 10646 definition of UTF-16 is identical to UTF-16 as described under Definition D91 in Section 3.9, Unicode Encoding Forms.”

参考さんこう文献ぶんけん

[1] “The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 1 (2018年ねん6月がつ5日にち). 2019年ねん1月がつ21日にち閲覧えつらん。 “The Unicode Standard is code-for-code identical with International Standard ISO/IEC 10646.”

[2] “The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 88 (2018年ねん6月がつ5日にち). 2019年ねん1月がつ21日にち閲覧えつらん。 “The character names in the Unicode Standard match those of the English edition of ISO/IEC 10646.”

[utf-8same-3] “The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 930 (2018年ねん6月がつ5日にち). 2019年ねん1月がつ21日にち閲覧えつらん。 “The ISO/IEC 10646 definition of UTF-8 is identical to UTF-8 as described under Definition D92 in Section 3.9, Unicode Encoding Forms.”

[utf-16same-4] “The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 930 (2018年ねん6月がつ5日にち). 2019年ねん1月がつ21日にち閲覧えつらん。 “The ISO/IEC 10646 definition of UTF-16 is identical to UTF-16 as described under Definition D91 in Section 3.9, Unicode Encoding Forms.”

[1]

[2]

[3]

[4]

表ひょう話はなし編へん歴れき ISO標準ひょうじゅん
国際こくさい標準ひょうじゅん一覧いちらん · ロろーマ字まじ表記ひょうき国際こくさい規格きかく一覧いちらん · 国際電気こくさいでんき標準ひょうじゅん会議かいぎが定さだめる国際こくさい標準ひょうじゅん一覧いちらん
1から 10000まで	1 2 3 4 5 6 7 9 16 31 -0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -12 -13 128 216 217 226 228 233 259 269 302 306 428 518 519 639 -1 -2 -3 -5 -6 646 668 690 732 764 843 898 965 1000 1004 1007 1073-1 1413 1538 1745 1989 2014 2015 2022 2047 2108 2145 2146 2240 2281 2382 2709 2711 2788 2852 3029 3103 3166 -1 -2 -3 3297 3307 3602 3864 3901 3977 4031 4157 4217 4909 5218 5428 5775 5776 5800 5964 6166 6344 6346 6385 6425 6429 6438 6523 6709 6937 7001 7002 7010 7098 7185 7200 7498 7736 7810 7811 7812 7813 7816 7942 8000 8178 8217 8571 8473 8583 8601 8613 8632 8652 8691 8807 8820-5 8859 -1 -2 -3 -4 -5 -6 -7 -8 -8-I -9 -10 -11 -12 -13 -14 -15 -16 8879 9000/9001 9075 -10 9126 9293 9241 -210 9362 9407 9506 9529 9564 9592 9594 9660 9897 9899 9945 9984 9985 9995
10001から 20000まで	10006 10021 10116 10118-3 10160 10161 10165 10179 10206 10218 10303 -11 -21 -22 -28 -238 10383 10487 10585 10589 10646 10664 10746 10861 10957 10962 10967 11073 11170 11179 11404 11519 11544 11783 11784 11785 11801 11898 11940 -2 11941 11941 (TR) 11992 12006 12100 12182 12207 12234 -2 -3 13211 -1 -2 13216-1 13250 13399 13406-2 13407 13450 13482 13485 13490 13522-5 13567 13568 13584 13616 14000 14031 14224 14229 14230 14289 14396 14443 14492 14496 -2 -3 -6 -10 -11 -12 -14 -17 -20 14644 -1 -2 -3 -4 -5 -6 -7 -8 -9 14649 14651 14698 -2 14750 14764 14882 14971 15022 15189 15288 15291 15292 15398 15408 15444 -3 15445 15438 15504 15511 15686 15693 15706 -2 15707 15765 -2 15836 15897 15919 15924 15926 15926 WIP 15930 15948 16023 16262 16612-2 16750 16949 17024 17025 17203 17369 17799 18000 18004 18014 18033 18092 18181 18245 18629 18916 19005 19011 19092 -1 -2 19100 19114 19115 19125 19136 19439 19500 19501 19502 19503 19505 19506 19507 19508 19509 19510 19600 19752 19757 -2 -3 -4 19770 19775 19784 19794-5 19831 20000
20001以上いじょう	20022 20121 21000 21047 21500 21827:2002 22000 22196 22250-1 22307 22324 23270 23271 23360 24517 24613 24617 24707 25178 25964 26000 26262 26300 26324 27000シリーズ 27000 27001:2005 27001:2013 27002 27003 27004 27005 27006 27007 27729 27799 28000 29110 29148 29199-2 29500 30170 31000 32000 37001 38500 40500 42010 45001 80000 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -12 -13 -14
組織そしき	国際こくさい標準ひょうじゅん化か機構きこう
カテゴリ	ISO標準ひょうじゅん ISO 31 ISO 639 ISO 3166 ISO 8859 ISO/IEC 80000 ISO/IEC標準ひょうじゅん
関連かんれん項目こうもく: ISOで始はじまる記事きじ一覧いちらん