(Translated by https://www.hiragana.jp/)
文字集合 - Wikipedia

文字もじ集合しゅうごう(もじしゅうごう、えい: character set)は、文字もじとくコンピュータにおけるキャラクタをその要素ようそ(「もと」)とする集合しゅうごうである。文字もじセットという場合ばあいもある。

たとえば、「すべてのアルファベット」(a, b, c, ..., z, A, B, C, ..., Z)というのもひとつの文字もじ集合しゅうごうであるし、「すべてのひらがな」(あ, い, う, ..., ん)というのもまた、ひとつの文字もじ集合しゅうごうである。

コンピュータにおける文字もじ集合しゅうごう

編集へんしゅう

コンピュータうえ文字もじあつか場合ばあい典型てんけいてきには文字もじによる通信つうしんおこな場合ばあいにそのりょうはしてんでは、どのような文字もじ集合しゅうごう使つかうか、あらかじめめておく必要ひつようがある。あらかじめ定義ていぎされた符号ふごう文字もじ集合しゅうごう後述こうじゅつ)を使つかう、とすることがおおい。

符号ふごう文字もじ集合しゅうごう後述こうじゅつ)の収録しゅうろく対象たいしょうとなる文字もじぐんレパートリという。標準ひょうじゅん規格きかくによって用語ようごちがいがありのように定義ていぎされている。

Unicode Character Encoding Model (UTR#17)
抽象ちゅうしょう文字もじレパートリ (ACR: Abstract Character Repertoire)- 符号ふごう対象たいしょうとなる概念がいねんじょう文字もじ順序じゅんじょ集合しゅうごう
Character Model for the World Wide Web 1.0: Fundamentals (W3C勧告かんこく CharMod)
レパートリ (repertoire) - 符号ふごう対象たいしょうとなる識別しきべつされた文字もじ集合しゅうごうひと以上いじょう対象たいしょう言語げんごにおいて、テキストを表現ひょうげん様々さまざまなテキスト処理しょり効果こうかてき可能かのうにするため、実用じつようてき文字もじ選択せんたくされる。それらの文字もじ利用りようしゃ文字もじ理解りかいするものとは厳密げんみつには一致いっちするとはかぎらない。この文字もじ集合しゅうごうレパートリばれる。
ISO/IEC 10646 (JIS X 0221)
レパートリ (repertoire) - 符号ふごう文字もじ集合しゅうごう表現ひょうげんする文字もじ指定していされた集合しゅうごう
JIS X 0208, JIS X 0213ひとし
レパートリ (repertoire) - 符号ふごう文字もじ集合しゅうごうひと以上いじょうビット組合くみあいわせによって表現ひょうげんされる、規定きていされた文字もじ集合しゅうごう
IBM文字もじデータ表現ひょうげん体系たいけい (CDRA: "Character Data Representation Architecture")
文字もじセット (CS: "character set") - コード表現ひょうげん前提ぜんていとしない、文字もじ定義ていぎみセット。

符号ふごう文字もじ集合しゅうごう

編集へんしゅう

文字もじ集合しゅうごう定義ていぎしその集合しゅうごうないかく文字もじ一意いちい符号ふごう表現ひょうげん関連付かんれんづける規則きそく符号ふごう文字もじ集合しゅうごう[1]符号ふごう文字もじ集合しゅうごうには、たとえばJIS X 0201JIS X 0208ISO/IEC 10646(UCS-2, UCS-4)ひとしがある。標準ひょうじゅん規格きかくによって用語ようごちがいがありのように定義ていぎされている。

文字もじコード定義ていぎしている公的こうてき規格きかくでは以下いかのように定義ていぎされている。

ISO/IEC 646, ISO/IEC 8859, ANSI X3.4 (ASCII)
coded character set; code - A set of unambiguous rules that establishes a character set and the one-to-one relationship between the characters of the set and their bit combinations.
JIS X 0201, JIS X 0208, JIS X 0213
符号ふごう文字もじ集合しゅうごう (coded character set)符号ふごう (code) - 文字もじ集合しゅうごうさだめ、かつその集合しゅうごうない文字もじとビット組合くみあいわせとを1たい1に関連付かんれんづける、あいまいでない規則きそく集合しゅうごう
ISO/IEC 10646 (JIS X 0221)
符号ふごう文字もじ集合しゅうごう (coded character set) - 文字もじ集合しゅうごうおよびその集合しゅうごう文字もじ符号ふごう表現ひょうげんとのあいだ関係かんけい規定きていするあいまいさのない規則きそく集合しゅうごう

それ以外いがい団体だんたいによる文書ぶんしょには以下いかのようなものもある。

Unicode Character Encoding Model (UTR#17)
符号ふごう文字もじ集合しゅうごう (CCS: Coded Character Set) - 概念がいねんじょう文字もじ集合しゅうごうから非負ひふ整数せいすう集合しゅうごうへの写像しゃぞうとして規定きていされる。この整数せいすう範囲はんい連続れんぞくである必要ひつようはない。Unicode標準ひょうじゅんにおいてUnicodeスカラー (Unicode scalar value)概念がいねん連続れんぞく非負ひふ整数せいすうとして明示めいじてき定義ていぎされる。符号ふごう文字もじ集合しゅうごう概念がいねんじょう文字もじから整数せいすうへの写像しゃぞうであれば、ある概念がいねんじょう文字もじ符号ふごう文字もじ集合しゅうごう規定きていされることになる。
IABモデル (RFC2130)
符号ふごう文字もじ集合しゅうごう (CCS: Coded Character Set) - 符号ふごう文字もじ集合しゅうごう概念がいねんじょう文字もじ集合しゅうごうから整数せいすう集合しゅうごうへの写像しゃぞうである。
Character Model for the World Wide Web 1.0: Fundamentals (W3C勧告かんこく CharMod)
符号ふごう文字もじ集合しゅうごう (CCS: coded character set) - レパートリちゅう個々ここ文字もじ対応たいおうする(数学すうがくてき抽象ちゅうしょうてきな)非負ひふ整数せいすうコードポイント区点くてん位置いちめん区点くてん位置いち文字もじ番号ばんごう符号ふごう位置いちひとし)に関連付かんれんづけられる。その結果けっか、レパートリから非負ひふ整数せいすう集合しゅうごうへの写像しゃぞう符号ふごう文字もじ集合しゅうごう (CCS)ばれる。
IBMの文字もじデータ表現ひょうげん体系たいけい (CDRA)
コード・ページ (CP: "code page") - それぞれのグラフィック文字もじセットごと、またはグラフィック文字もじセットのあつまりにたいする、コード・ポイント (code point)指定していひとつのコード・ページのなかで、コード・ポイントには特定とくてい意味いみひとつだけたせることができる。

符号ふごう文字もじ集合しゅうごう文字もじ符号ふごう方式ほうしき

編集へんしゅう

ASCIIISO/IEC 8859のような符号ふごう文字もじ集合しゅうごうはそれ単体たんたい運用うんようされることがおおいが、EUC-JPShift_JISUTF-8のように2つ以上いじょう符号ふごう文字もじ集合しゅうごうわせたり変形へんけいしたりして運用うんようされる文字もじコードがある。そこで、符号ふごう文字もじ集合しゅうごうわせて運用うんようする方式ほうしきして文字もじ符号ふごう方式ほうしきという言葉ことば使つかわれることがある。

ある文字もじ集合しゅうごうふくまれる文字もじもちいて記述きじゅつした同一どういつ文字もじれつであっても、使用しようする文字もじ符号ふごう方式ほうしきことなれば、ことなるバイトれつとなる。また、ことなる文字もじ符号ふごう方式ほうしき文字もじれつデータであっても、もととなる文字もじ集合しゅうごう同一どういつであれば、文字もじ欠落けつらく相互そうご変換へんかん可能かのうである。もととなる文字もじ集合しゅうごうことなっていても、変換へんかんもと文字もじ集合しゅうごうが、変換へんかん文字もじ集合しゅうごう部分ぶぶん集合しゅうごうであれば、欠落けつらく発生はっせいしない。ただし、部分ぶぶん集合しゅうごうであっても、符号ふごう文字もじ集合しゅうごうにおける文字もじ符号ふごうならびがことなる場合ばあいもあり、そのような場合ばあい巨大きょだい変換へんかんひょう必要ひつようとなる(たとえば、JIS X 0208はUCS-2の部分ぶぶん集合しゅうごうであるが、符号ふごうならびはまったことなる)。ただし、近年きんねんのOSでは、標準ひょうじゅんてき機能きのうとして変換へんかんひょうっていることもおおく(WindowsのMultiByteToWideChar API、UNIXlibiconvひとし)、アプリケーションが独自どくじ変換へんかんひょう必要ひつようはあまりない。ぎゃくに、部分ぶぶん集合しゅうごう関係かんけいにない文字もじ集合しゅうごう変換へんかんした場合ばあい欠落けつらくする文字もじ発生はっせいし、ちゅう黒点こくてんとうえられたり、不適切ふてきせつなプログラムであれば文字もじとう発生はっせいする(ただし、同様どうよう現象げんしょうは、フォント原因げんいん場合ばあいもあり、文字もじ集合しゅうごう変換へんかん原因げんいんとは即時そくじには判断はんだんできない)。

文字もじ符号ふごう方式ほうしき適用てきようするさいに、複数ふくすう文字もじ集合しゅうごうわせたり、文字もじ集合しゅうごう一部いちぶをベンダーが独自どくじえることもあり、互換ごかんせい問題もんだい原因げんいんとなりやすい。たとえば、WindowsMacintosh作成さくせいされたShift_JIS文書ぶんしょでは、それぞれもととなる文字もじ集合しゅうごうにベンダーが独自どくじ修正しゅうせいくわえているため、完全かんぜん互換ごかんせいい(たとえばまる数字すうじ括弧かっこ曜日ようびなど)。ほかにも、文字もじ集合しゅうごうわずかな差異さいにより問題もんだいきやすいれいは、「~」と「‾」、「\」と「¥」などである。

ISO/IEC 646, ISO/IEC 8859, ISO/IEC 2022 (JIS X 0202), JIS X 0201, JIS X 0208, JIS X 0213とう定義ていぎでは「符号ふごう文字もじ集合しゅうごう」と「符号ふごう」とは同義どうぎであり、交代こうたい可能かのう用語ようごとされるが、UnicodeやIABモデルではことなった意味いみおな用語ようご使つかわれていることがあるため、解釈かいしゃく混同こんどうされることがある。また、文字もじ集合しゅうごう用語ようごとしてMIMEとう利用りようされるIANAcharsetがあるが、charsetは符号ふごう文字もじ集合しゅうごう文字もじ符号ふごう方式ほうしきわせた概念がいねんであり、名称めいしょう実態じったい一致いっちしていない。

関連かんれん用語ようご

編集へんしゅう

出典しゅってん

編集へんしゅう
  1. ^ 矢野やの啓介けいすけ、2019、『[改訂かいてい新版しんぱん]プログラマのための文字もじコード技術ぎじゅつ入門にゅうもん』、技術評論社ぎじゅつひょうろんしゃ〈WEB+DB PRESS plus シリーズ〉 ISBN 978-4-297-10291-3 9ぺーじ

外部がいぶリンク

編集へんしゅう