(Translated by https://www.hiragana.jp/)
ISO/IEC 10646 - Wikipedia コンテンツにスキップ

ISO/IEC 10646

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

ISO/IEC 10646 (UCS; えい: Universal Coded Character Set) は、符号ふごう文字もじ集合しゅうごう文字もじ符号ふごう方式ほうしきなどをさだめた、文字もじコード国際こくさい標準ひょうじゅんのひとつで、業界ぎょうかい規格きかくUnicodeおおむ互換ごかんである。日本にっぽん対応たいおう規格きかくJIS X 0221国際こくさい符号ふごう文字もじ集合しゅうごう)。

文字もじ空間くうかん(0 - 10FFFF16)、収録しゅうろくされている文字もじ、それらの符号ふごう位置いち英語えいごでつけられた文字もじ名前なまえ文字もじ符号ふごう方式ほうしき(UTF-8, UTF-16, UTF-32)はUnicode規格きかくまったおなじである[1][2][3][4]。ただし、文字もじ空間くうかんふる規格きかくでは21ビットUnicodeをベースにして文字もじ空間くうかん31ビット拡張かくちょうしたものとされ、Unicodeの最大さいだいであるU+10FFFFよりおおきなコードも使用しようできるというてんでUnicodeとことなっていた。しかし、2006ねん改訂かいていによりUnicodeで使用しようできない領域りょういきには文字もじが「永久えいきゅう定義ていぎされない」こととされ、2011ねん改訂かいていでは明確めいかくに0 - 10FFFFと定義ていぎされ同一どういつとなった。

めん (plane)、 (row)、てん (cell) としてけられ、Unicodeとおなだい0めん基本きほん多言たげんめん (BMP; えい: Basic Multilingual Plane) と追加ついかめんだい1 - 16めんまでの範囲はんい文字もじ定義ていぎされている。ふる規格きかくではぐん (group) という分類ぶんるいもあったが2011ねん改訂かいてい廃止はいしされた。

制定せいてい経緯けいいとその影響えいきょう

[編集へんしゅう]

この規格きかく制定せいていいち手前てまえ段階だんかいまでは、現在げんざい姿すがたとはかなりことなる仕様しようだった。4オクテット符号ふごうであり、かくオクテットをそれぞれぐんめんてんとする。各面かくめんには従来じゅうらいのコントロール領域りょういきけた0x20 - 0x7Fと0xA0 - 0xFFの範囲はんい文字もじてる。その範囲はんいにISO/IEC 2022にしたがった構造こうぞう各国かっこくコードISO/IEC 8859JIS X 0208GB 2312など)を平行へいこう移動いどうしてそっくり収容しゅうようするという、従来じゅうらいのコードけいとの互換ごかんせい最大限さいだいげん尊重そんちょうした構成こうせいをとっていた。

このあんは1990ねん国際こくさい標準ひょうじゅんいちまえ段階だんかいのDIS (Draft International Standard) として作成さくせいされたが、1991ねん6月の投票とうひょう否決ひけつされた。その理由りゆうは、おな時期じきアメリカ企業きぎょうぐんがUnicode仕様しよう作成さくせいしたため、おな目的もくてき規格きかくが2つつくられることをけることだった。

そのDIS 10646とUnicodeとを一本いっぽんする作業さぎょうおこなわれた。既存きそん規格きかくとの整合せいごうせいおもんじたDIS 10646にたいして、Unicodeは各種かくしゅアルファベットるい新規しんきて、漢字かんじにちちゅうかん統合とうごう符号ふごう位置いちはコントロール領域りょういきまですべ使つかって2オクテット固定こていという、まったことなる方針ほうしん設計せっけいされていた。結果けっかとして、「ぐんめんてん」という用語ようごのこしながら、だい0ぐんだい0めん基本きほん多言たげんめん (BMP) としょうし、BMPにUnicodeをそっくりれてそのぐんめん使用しようという、実質じっしつ2オクテットの符号ふごうとなった。

結局けっきょく、Unicodeにられだい1はんとはてもつかぬ符号ふごうになったDIS 10646だい2はんが、そのままInternational Standardとして制定せいていされることとなった。1993ねんのことである。

このような経緯けいいをたどり、既存きそん規格きかくとの対応たいおう明確めいかく定義ていぎになってしまったため、既存きそん規格きかくとのコード変換へんかんにおいて、たようなかたちおお記号きごうのどれに対応たいおうさせるのかの判断はんだん困難こんなんとなる問題もんだいしょうじた。これにより、製品せいひんによってコード変換へんかんことなる問題もんだい常態じょうたいし、この問題もんだい起因きいんする文字もじけはいま[いつ?]いたるまで解決かいけつ目処めどっていない。ただし漢字かんじについては、もとになった各国かっこく規格きかく符号ふごう位置いち明示めいじされているため変換へんかんちがいはしょうじていない。

制定せいていされた規格きかくぐん

[編集へんしゅう]

※ 1999ねん9がつ以降いこう、2000ねん9がつまでに成立せいりつしたAmendmentおよびTechnical Corrigendumは、発行はっこうされずそのままISO/IEC 10646-1:2000にまれた。

発行はっこう 規格きかく番号ばんごう 名称めいしょう
1993/05/01 ISO/IEC 10646-1: 1993 Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and basic Multilingual Plane
1996/03/01 ISO/IEC 10646-1: 1993/Cor.1 TECHNICAL CORRIGENDUM 1 to ISO/IEC 10646-1:1993
1996/10/15 ISO/IEC 10646-1:1993/Amd.1 Transformation Format for 16 planes of group 00 (UTF-16)
1996/10/15 ISO/IEC 10646-1:1993/Amd.2 UCS Transformation Format 8 (UTF-8)
1996/10/15 ISO/IEC 10646-1:1993/Amd.3 Code positions for control characters
1996/10/15 ISO/IEC 10646-1:1993/Amd.4 Removal of annex G (UTF-1)
1997/11/15 ISO/IEC 10646-1:1993/Amd.6 Tibetan
1997/11/15 ISO/IEC 10646-1:1993/Amd.7 33 additional characters
1997/12/15 ISO/IEC 10646-1:1993/Amd.8 New annex on CJK Ideographs to ISO/IEC 10646-1:1993
1997/12/15 ISO/IEC 10646-1:1993/Amd.9 Identifiers for Characters
1998/05/15 ISO/IEC 10646-1:1993/Amd.5 Hangul syllables
1998/07/15 ISO/IEC 10646-1:1993/Cor.2 TECHNICAL CORRIGENDUM 2 to ISO/IEC 10646-1:1993
1998/07/15 ISO/IEC 10646-1:1993/Amd.11 Unified Canadian Aboriginal Syllabics
1998/09/01 ISO/IEC 10646-1:1993/Amd.12 Cherokee
1998/10/01 ISO/IEC 10646-1:1993/Amd.10 Ethiopic script
1998/10/15 ISO/IEC 10646-1:1993/Amd.13 CJK unified ideographs
1998/11/01 ISO/IEC 10646-1:1993/Amd.16 Braille Patterns
1998/11/01 ISO/IEC 10646-1:1993/Amd.19 Runic
1998/11/01 ISO/IEC 10646-1:1993/Amd.20 Ogham
1999/05/15 ISO/IEC 10646-1:1993/Amd.23 Bopomofo and various other characters
1999/06/01 ISO/IEC 10646-1:1993/Amd.21 Sinhala
1999/07/15 ISO/IEC 10646-1:1993/Amd.17 CJK Unified Ideograph Extension
1999/07/15 ISO/IEC 10646-1:1993/Amd.18 Symbols and Others
1999 ISO/IEC 10646-1:1993/Cor.3 TECHNICAL CORRIGENDUM 3 to ISO/IEC 10646-1:1993
1999 ISO/IEC 10646-1:1993/Amd.14 Yi syllables and Yi radicals
1999 ISO/IEC 10646-1:1993/Amd.22 Keyboard symbols
1999 ISO/IEC 10646-1:1993/Amd.24 Thaana Script
1999 ISO/IEC 10646-1:1993/Amd.25 Khmer Script
1999 ISO/IEC 10646-1:1993/Amd.26 Burmese Script
1999 ISO/IEC 10646-1:1993/Amd.27 Syriac Script
1999 ISO/IEC 10646-1:1993/Amd.29 Mongolian
1999 ISO/IEC 10646-1:1993/Amd.30 Additional Latin and other characters
2000 ISO/IEC 10646-1:1993/Amd.15 Radicals and Numerals
2000 ISO/IEC 10646-1:1993/Amd.28 Ideographic Description Sequences
2000 ISO/IEC 10646-1:1993/Amd.31 Tibetan Extension
2000/09/15 ISO/IEC 10646-1:2000 UCS -- Part 1: Architecture and basic Multilingual Plane
2001/11/01 ISO/IEC 10646-2:2001 UCS -- Part 2: Supplementary Planes
2002/07/16 ISO/IEC 10646-1:2000/Amd.1 Mathematical symbols and other characters
2003/12/15 ISO/IEC 10646:2003 Universal Multiple-Octet Coded Character Set (UCS)
2005/11/15 ISO/IEC 10646:2003/Amd.1 Glagolitic, Coptic, Georgian and other characters
2006/07/01 ISO/IEC 10646:2003/Amd.2 N'Ko, Phags-pa, Phoenician and other characters
2008/02/15 ISO/IEC 10646:2003/Amd.3 Lepcha, Ol Chiki, Saurashtra, Vai and other characters
2008/07/01 ISO/IEC 10646:2003/Amd.4 Cham, Game Tiles, and other characters
2008/12/01 ISO/IEC 10646:2003/Amd.5 Tai Tham, Tai Viet, Avestan, Egyptian Hieroglyphs, CJK Unified Ideographs Extension C, and other characters
2009/10/15 ISO/IEC 10646:2003/Amd.6 Bamum, Javanese, Lisu, Meetei Mayek, Samaritan, and other characters
2010/7/15 ISO/IEC 10646:2003/Amd.7 Mandaic, Batak, Brahmi, and other characters
2011/5/2 ISO/IEC 10646:2011 Universal Coded Character Set (UCS)
2012/05/21 ISO/IEC 10646:2012 Information technology -- Universal Coded Character Set (UCS)
2013/04/09 ISO/IEC 10646:2012/Amd 1:2013 Linear A, Palmyrene, Manichaean, Khojki, Khudawadi, Bassa Vah, Duployan, and other characters
2014/08/29 ISO/IEC 10646:2014 Information technology -- Universal Coded Character Set (UCS)
2015 ISO/IEC 10646:2014/Amd 1:2015 Cherokee supplement and other characters
2016 ISO/IEC 10646:2014/Amd 2:2016 Bhaiksuki, Marchen, Tangut and other characters
2017/12/22 ISO/IEC 10646:2017 Information technology -- Universal Coded Character Set (UCS)

文字もじ符号ふごう方式ほうしき

[編集へんしゅう]

Unicodeの『UTF』が『Unicode Transformation Format』を意味いみするのにたいし、ISO/IEC 10646の『UTF』は『UCS Transformation Format』を意味いみする。

UTF-1
初期しょき提案ていあんされていた、8ビットコードによる方式ほうしき。ほとんど利用りようされることなくUTF-8にとってわられた。
UCS-2
2オクテット固定こていのUCS (Universal Coded-Character Set) である。BMP(基本きほん多言たげんめん以外いがい文字もじ使つかうことはできず、すべての文字もじ符号ふごうできるUTF-16にとってわられた。2011ねん改訂かいていではdeprecated(廃止はいし予定よてい)とされた。
UTF-8
UnicodeのUTF-8とおな[3]
UTF-16
UnicodeのUTF-16とおな[4]
UTF-32 (UCS-4)
UnicodeのUTF-32とおなじ。

実装じっそうレベル

[編集へんしゅう]

ふる規格きかくでは実装じっそうレベルというものがかんがえられていたが2011ねん改訂かいてい廃止はいしされ、Level3の実装じっそうのみをあつかこととなった。

Level 1
合成ごうせいれつなどをあつかわない
Level 2
必要ひつよう合成ごうせいれつあつかえる
Level 3
すべあつかえる

Unicodeは、Level 3の実装じっそうである。

脚注きゃくちゅう

[編集へんしゅう]
  1. ^ The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 1 (2018ねん6がつ5にち). 2019ねん1がつ21にち閲覧えつらん。 “The Unicode Standard is code-for-code identical with International Standard ISO/IEC 10646.”
  2. ^ The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 88 (2018ねん6がつ5にち). 2019ねん1がつ21にち閲覧えつらん。 “The character names in the Unicode Standard match those of the English edition of ISO/IEC 10646.”
  3. ^ a b The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 930 (2018ねん6がつ5にち). 2019ねん1がつ21にち閲覧えつらん。 “The ISO/IEC 10646 definition of UTF-8 is identical to UTF-8 as described under Definition D92 in Section 3.9, Unicode Encoding Forms.”
  4. ^ a b The Unicode Standard Version 11.0” (PDF) (English). The Unicode Consortium. p. 930 (2018ねん6がつ5にち). 2019ねん1がつ21にち閲覧えつらん。 “The ISO/IEC 10646 definition of UTF-16 is identical to UTF-16 as described under Definition D91 in Section 3.9, Unicode Encoding Forms.”

参考さんこう文献ぶんけん

[編集へんしゅう]