(Translated by https://www.hiragana.jp/)
ISO/IEC 2022 - Wikipedia コンテンツにスキップ

ISO/IEC 2022

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

ISO/IEC 2022旧称きゅうしょう ISO 2022)は、

規定きていするISO規格きかくである。JIS対応たいおう規格きかくJIS X 0202情報じょうほう技術ぎじゅつ-文字もじ符号ふごう構造こうぞうおよ拡張かくちょうほう[1]Ecma International対応たいおう規格きかくECMA-35

ISO/IEC 2022 の符号ふごう方式ほうしきは、一般いっぱんに、1文字もじに1バイトか2バイト以上いじょう使つか可変長かへんちょう文字もじ符号ふごう方式ほうしきである。いくつかの符号ふごう表現ひょうげんがISO/IEC 2022の機構きこう使つかっている。たとえば、ISO-2022-JP日本語にほんごひろ使つかわれている符号ふごう表現ひょうげんであり、いわゆる「JISコード」というのもこれをすことが一般いっぱんてきである。

歴史れきし

[編集へんしゅう]

コンピュータによる文字もじ情報処理じょうほうしょり可能かのうになって以来いらい、さまざまな言語げんごのために、コンピュータじょう文字もじデータを表現ひょうげんしたいという要求ようきゅうたすため、おおくの符号ふごう文字もじ集合しゅうごうつくられてきた。複数ふくすう文字もじ集合しゅうごう存在そんざいは、文字もじ集合しゅうごうがあらかじめ当事とうじしゃあいだ合意ごういされていなければ情報じょうほう交換こうかん支障ししょうをきたす。また、情報じょうほう交換こうかんちゅう複数ふくすう文字もじ集合しゅうごう利用りようすることも困難こんなんである。ISO/IEC 2022は、複数ふくすう文字もじ集合しゅうごう単一たんいつ文字もじ符号ふごう方式ほうしきした利用りようできるようにするための技術ぎじゅつとして開発かいはつされた。

ASCIIは7ビットのラテンアルファベット文字もじ集合しゅうごうであり、最大さいだい94文字もじ図形ずけい文字もじ (空白くうはく文字もじのぞく) しか収容しゅうようできない。ISO/IEC 646 (1967ねん初版しょはん)[2]では、図形ずけい文字もじ収容しゅうよう領域りょういきを ASCII にならいつつ、12符号ふごう位置いち各国かっこく国内こくない使用しよう目的もくてきのためにえてよいこととし、さらにレパートリとしてくにべつ文字もじ集合しゅうごう定義ていぎするという方法ほうほうをとった。

ISO/IEC 2022 (1973ねん初版しょはん)[3] は、ISO/IEC 646 に準拠じゅんきょした複数ふくすう符号ふごうひょうえて多言たげん処理しょり実現じつげんすることを目的もくてき制定せいていされた。しかし、ISO/IEC 646 の方式ほうしきでは、ラテンアルファベットの範囲はんいかぎってさえも、多数たすうダイアクリティカルマーク文字もじや、言語げんごごとに必要ひつようとされる記号きごうるいなどを十分じゅうぶん収容しゅうようすることができなかった。このため、ISO/IEC 646 と互換ごかんせいたもちつつ8ビット符号ふごう採用さいようした ISO/IEC 4873 (1979ねん初版しょはん)[4]制定せいていされた。とくヨーロッパでは1980年代ねんだいはいって多言たげんのテキストデータを共通きょうつう仕様しようした処理しょりできるようにしたいという要求ようきゅうたかまっており[5]、1987ねんからは ISO/IEC 4873 に対応たいおうした ISO/IEC 8859シリーズ制定せいていされはじめた。ISO/IEC 8859シリーズでは、あらたに96文字もじ図形ずけい文字もじ収容しゅうよう可能かのうにし、さらにレパートリとして言語げんごべつ文字もじ集合しゅうごう定義ていぎするという方法ほうほうをとった。

また、ギリシアロシアアラビア、もしくはヘブライのような、ラテンアルファベットもとづかないおおくの言語げんご文字もじも、歴史れきしてきに ISO/IEC 4873 に準拠じゅんきょしたぞくう「拡張かくちょうASCII」をもちいてコンピュータじょう表現ひょうげんされてきたものがおおい (一部いちぶのちに ISO/IEC 8859 シリーズにも規定きていされたほか、おおくのくに地域ちいき符号ふごう文字もじ集合しゅうごう規格きかくが ISO/IEC 4873 に準拠じゅんきょしている)。さらに、ひがしアジア言語げんご、とくに中国ちゅうごく日本語にほんご、および韓国かんこく表記ひょうきは、8ビットの1バイト表現ひょうげん可能かのう範囲はんいをはるかにえたかず文字もじ使つかい、言語げんごべつ2バイト文字もじ集合しゅうごうによってはじめてコンピュータじょう表現ひょうげんされた。ISO/IEC 2022 は、これら複数ふくすう文字もじ集合しゅうごう単一たんいつ符号ふごう方式ほうしきしたあつかうことを可能かのうにしている。

ISO/IEC 2022にもとづく符号ふごう表現ひょうげん現在げんざいひろ使つかわれている。たとえば日本語にほんご電子でんしメールようISO-2022-JPや、UNIX環境かんきょう使つかわれるEUC-JP中国ちゅうごくGB 2312ことEUC-CN、韓国かんこくEUC-KRなどがそうである。ISO/IEC 8859シリーズもISO/IEC 2022の構造こうぞうにしたがっている。一方いっぽうで、この規格きかくのっとらない符号ふごう方式ほうしき、たとえばShift_JIS台湾たいわんBig5などもまたひろ使つかわれている。

だい2規格きかく以降いこうおも改正かいせいてん

[編集へんしゅう]

だい2規格きかく以降いこうおも改正かいせいてんにはつぎのようなものがある。なお、用語ようごについてはとう項目こうもくでこののち解説かいせつする。

だい2規格きかく
  • 8ビット符号ふごう対応たいおうした。
  • バッファG2およびG3を新設しんせつした。
  • マルチバイト文字もじ集合しゅうごう対応たいおうした。
だい3規格きかく
  • 96文字もじ集合しゅうごうおよび96n文字もじ集合しゅうごう対応たいおうした。
  • (JISのみ)このはんからJIS X 0201を拡張かくちょうする規格きかくからISO/IEC 646を拡張かくちょうする規格きかくになったため、国際こくさい一致いっち規格きかくになった。
だい4規格きかく
  • 7ビット符号ふごう中心ちゅうしん記述きじゅつから8ビット符号ふごう中心ちゅうしん記述きじゅつあらためられた。

#ひょう1に、かくはんごとの規格きかく番号ばんごう制定せいていなどをしめす。

ひょう1 ISO/IEC 2022 のかくはんごとの規格きかく番号ばんごう制定せいていとう
はん ISO規格きかく番号ばんごう ISO制定せいてい改正かいせい JIS番号ばんごう JIS制定せいてい改正かいせい
だい1規格きかく ISO 2022:1973 1973ねん5がつ制定せいてい JIS C 6228:1975 1975ねん3がつ1にち制定せいてい
だい2規格きかく ISO 2022:1982 1982ねん12月改正かいせい JIS C 6228:1984 1984ねん11月1にち改正かいせい
だい3規格きかく ISO 2022:1986 1986ねん5がつ改正かいせい JIS X 0202:1991 1991ねん1がつ1にち改正かいせい
だい4規格きかく ISO/IEC 2022:1994 1994ねん12月改正かいせい JIS X 0202:1998 1998ねん1がつ20日はつか改正かいせい
※ 1987ねん3がつ1にち部門ぶもんX(情報処理じょうほうしょり)の新設しんせつともないJIS X 0202:1984 と改称かいしょうされた。

詳細しょうさい

[編集へんしゅう]

符号ふごうひょう構造こうぞう

[編集へんしゅう]

ISO/IEC 2022は当初とうしょISO/IEC 646もとづいた7ビット符号ふごうであったので、おおくのISO/IEC 646の特性とくせいわせている。7ビット符号ふごうでは、かくバイトのさい上位じょういけたビット使つかわれない。これにより、7ビットの伝送でんそうとおしてISO/IEC 2022を伝送でんそうすることは(ISO/IEC 646と同様どうよう)容易よういである。8ビット符号ふごうでは、さい上位じょういけたビットを GL領域りょういきとGR領域りょういき (後述こうじゅつ) の区別くべつもちいるが、文字もじ集合しゅうごうちゅう文字もじ区別くべつするのにはもちいない。この特性とくせいEUC符号ふごう基本きほん原理げんりにも利用りようされている。

ISO/IEC 2022の符号ふごうひょうは、表示ひょうじ印字いんじされる文字もじ (図形ずけい文字もじ) の領域りょういきと、制御せいぎょ機能きのう使つか文字もじ (制御せいぎょ文字もじ) の領域りょういきけられている。7ビット符号ふごうは、32制御せいぎょ文字もじ基本きほん集合しゅうごう領域りょういき (C0) と、94または96図形ずけい文字もじ集合しゅうごう領域りょういき (GL領域りょういき) をつ。8ビット符号ふごうは、これにくわえて32制御せいぎょ文字もじ補助ほじょ集合しゅうごう領域りょういき (C1) と、94または96図形ずけい文字もじ集合しゅうごう領域りょういき (GR領域りょういき) をつ。#1に、7ビットと8ビットの符号ふごうひょう構造こうぞうしめす。符号ふごうひょうじょう文字もじ位置いちは、ひょうくだりおよびれつあらわす。たとえばASCIIの「Z」という文字もじ行列ぎょうれつで 05/10 にあたり、符号ふごうのバイトのとしては16進数しんすう5A (10進数しんすうで 90) となる。

複数ふくすうバイトの文字もじ集合しゅうごうでは、複数ふくすうのバイトで1文字もじ符号ふごうする。たとえば94n文字もじ集合しゅうごうでは、2バイトを使つかって8836(94×94)までの文字もじ表現ひょうげんできる。そして、3バイトを使つかって830584(94×94×94)までの文字もじ表現ひょうげんできる。2バイト文字もじ集合しゅうごうでは、かく文字もじ符号ふごう位置いち区点くてん (3バイト文字もじ集合しゅうごう場合ばあいめん区点くてん) で(めんおよび)および区内くない位置いち指定していする。つまり、94×94文字もじ集合しゅうごう場合ばあいおよびてんのそれぞれが 1 から 94 の範囲はんいをとるので、それぞれを1バイトずつGL領域りょういきの 02/01 から 07/14 (GR領域りょういきならば 10/01 から 15/14) に対応たいおうさせて2バイトとする。たとえば、JIS X 0208 の「」は 2790てん (27-90) なので、GL領域りょういきでは 03/11 07/10、GR領域りょういきでは 11/11 15/10 と表現ひょうげんされる。

1 ISO/IEC 2022の符号ふごうひょう構造こうぞう
(a) 7ビット符号ふごう
ぎょう

れつ
00 01 02 03 04 05 06 07 08 09
00 [b]
01
02
03
04
05
06
07 C0 GL C1[d]
08
09
10
11 [a]
12
13
14
15 [c]
(b) 8ビット符号ふごう
ぎょう

れつ
00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
00 [b] [e]
01
02
03
04
05
06
07 C0 GL C1 GR
08
09
10
11 [a]
12
13
14
15 [c] [e]

JIS X 0202:1998 をもと作成さくせい

符号ふごうひょうじょう文字もじ位置いちくだりれつしめす。たとえば 01/11 (ESCAPE) は16進数しんすうでは 1B にあたる。

a  つねに ESCAPE 制御せいぎょ文字もじ

b  GL領域りょういきに94文字もじ集合しゅうごうされているときは SPACE (空白くうはく文字もじ) となる。

c  GL領域りょういきに94文字もじ集合しゅうごうされているときは DELETE 制御せいぎょ文字もじとなる。

d  7ビット符号ふごうでは、C1制御せいぎょ文字もじ実際じっさいには使用しようしない。代替だいたいのエスケープシーケンスであらわす。

e  GR領域りょういきに94文字もじ集合しゅうごうされているときは、この2つの行列ぎょうれつ使用しようしない。

制御せいぎょ機能きのう

[編集へんしゅう]
ひょう2 ISO/IEC 2022 の制御せいぎょ機能きのう (抜粋ばっすい)
制御せいぎょ文字もじまたはエスケープシーケンス 説明せつめい 略号りゃくごう
指示しじ
01/11 02/01 I Ft C0への制御せいぎょ機能きのう集合しゅうごう指示しじ (しをふくむ) CZD
01/11 02/02 I Ft C1への制御せいぎょ機能きのう集合しゅうごう指示しじ (しをふくむ) C1D
01/11 02/08 I Ft G0への94文字もじ集合しゅうごう指示しじ GZD4
01/11 02/09 I Ft G1への94文字もじ集合しゅうごう指示しじ G1D4
01/11 02/10 I Ft G2への94文字もじ集合しゅうごう指示しじ G2D4
01/11 02/11 I Ft G3への94文字もじ集合しゅうごう指示しじ G3D4
01/11 02/13 I Ft G1への96文字もじ集合しゅうごう指示しじ G1D6
01/11 02/14 I Ft G2への96文字もじ集合しゅうごう指示しじ G2D6
01/11 02/15 I Ft G3への96文字もじ集合しゅうごう指示しじ G3D6
01/11 02/04 02/08 Ft[a] G0への94n文字もじ集合しゅうごう指示しじ GZDM4
01/11 02/04 02/09 Ft G1への94n文字もじ集合しゅうごう指示しじ G1DM4
01/11 02/04 02/10 Ft G2への94n文字もじ集合しゅうごう指示しじ G2DM4
01/11 02/04 02/11 Ft G3への94n文字もじ集合しゅうごう指示しじ G3DM4
01/11 02/04 02/13 Ft G1への96n文字もじ集合しゅうごう指示しじ G1DM6
01/11 02/04 02/14 Ft G2への96n文字もじ集合しゅうごう指示しじ G2DM6
01/11 02/04 02/15 Ft G3への96n文字もじ集合しゅうごう指示しじ G3DM6
01/11 02/05 I Ft 符号ふごうシステムの指示しじ DOCS
01/11 02/06 F[b] 文字もじ集合しゅうごう改訂かいてい番号ばんごう識別しきべつ IRR
し (シフト)
00/15 GL領域りょういきへのG0の[c] SI
00/15 GL領域りょういきへのG0の[d] LS0
00/14 GL領域りょういきへのG1の[c] SO
00/14 GL領域りょういきへのG1の[d] LS1
01/11 06/14 GL領域りょういきへのG2の LS2
01/11 06/15 GL領域りょういきへのG3の LS3
01/11 07/14 GR領域りょういきへのG1の[d] LS1R
01/11 07/13 GR領域りょういきへのG2の[d] LS2R
01/11 07/12 GR領域りょういきへのG3の[d] LS3R
01/11 04/14
または
08/14
GL領域りょういきまたはGR領域りょういきへのG2の1文字もじかぎりの[e] (シングルシフト) SS2
01/11 04/15
または
08/15
GL領域りょういきまたはGR領域りょういきへのG3の1文字もじかぎりの[e] (シングルシフト) SS3
アナウンス
01/11 02/00 F[f] アナウンス機能きのう ACS

JIS X 0202:1998 および JIS X 0211-1994 をもと作成さくせい

符号ふごうひょうじょう文字もじ位置いちくだりれつしめす。たとえば 01/11 (ESCAPE) は16進数しんすうでは 1B にあたる。また、Ft または I Ft は、ISOの文字もじ集合しゅうごう国際こくさい登録とうろく簿への登録とうろくによっててられたエスケープシーケンスの終端しゅうたんバイト (およびだい2中間ちゅうかんバイト) をあらわす。

a  ただし、Ftバイト が 04/00、04/01、04/02 の場合ばあいは 02/08 を省略しょうりゃくする。これは具体ぐたいてきには、JISC C 6226-1978 (JIS X 0208 のだいいち規格きかく)、GB 2312-80、JIS C 6226-1983 (どうだい規格きかく) の文字もじ集合しゅうごう指示しじする場合ばあいである。

b  Fバイトで、直後ちょくご指示しじ機能きのう指示しじされる文字もじ集合しゅうごう改訂かいてい番号ばんごう識別しきべつする。

c  7ビット符号ふごうでのみもちいる。

d  8ビット符号ふごうでのみもちいる。

e  7ビット符号ふごうではエスケープシーケンスを使つかう。8ビット符号ふごうではC1制御せいぎょ文字もじ使つかうこともできる。

f  Fバイトによって、利用りようする機能きのう指定していする。

複数ふくすう文字もじ集合しゅうごう表現ひょうげんするために、ISO/IEC 2022の文字もじ符号ふごう方式ほうしきは、符号ふごう性質せいしつあつか文字もじ集合しゅうごう指定していするための制御せいぎょ機能きのうふくんでいる。制御せいぎょ機能きのう表現ひょうげんには、7ビット符号ふごうではC0制御せいぎょ文字もじのほか、ESCAPE制御せいぎょ文字もじ(01/11。じゅうろく進数しんすうの1B、じゅう進数しんすうの27)ではじまる2バイトないし4バイトからなるエスケープシーケンスもちいる[6]。8ビット符号ふごうではさらに、C1 制御せいぎょ文字もじもちいる。この文字もじ符号ふごう方式ほうしきでは、データのただしい解釈かいしゃく最後さいご出現しゅつげんした制御せいぎょ機能きのう依存いぞんするため、データを先頭せんとうから順番じゅんばん処理しょりする必要ひつようがある。#ひょう2に、ISO/IEC 2022 の制御せいぎょ機能きのう一部いちぶしめす。

文字もじ集合しゅうごう選択せんたく

[編集へんしゅう]

ある文字もじ集合しゅうごう符号ふごうひょうじょう使つかうには、一般いっぱん指示しじ (えい: designate) と (えい: invoke) という2段階だんかい手続てつづきを必要ひつようとする。

ISO/IEC 2022 は、符号ふごうひょうじょうの4つの領域りょういきC0、GL、C1、GRとはべつに、仮想かそうてきなバッファをもっている。G0、G1、G2、G3という4つのバッファがある。

まず、指示しじのエスケープシーケンスによって、使つかおうとしている文字もじ集合しゅうごうを、4つのバッファのいずれかに対応付たいおうづける。

指示しじのエスケープシーケンスは、どの文字もじ集合しゅうごう使つかおうとしているか宣言せんげんするのみならず、これらの文字もじ集合しゅうごう特性とくせいをもらせる。あつかおうとしている文字もじ集合しゅうごうが94文字もじ、96文字もじ、8836(94×94)文字もじ、830584(94×94×94)文字もじ、もしくはのサイズのいずれであるかをつたえる。指示しじしていない文字もじ集合しゅうごう使つかうことはできない。また、5つ以上いじょう文字もじ集合しゅうごういち指示しじしておくこともできない。

つぎに、 (シフト) の制御せいぎょ機能きのうによって、G0、G1、G2、G3のいずれかを、符号ふごうひょうじょうのGL領域りょういきかGR領域りょういき対応付たいおうづける。指示しじした文字もじ集合しゅうごうししてはじめて、その文字もじ集合しゅうごう符号ふごうとして使つかうことができるようになる。7ビット符号ふごうでは2つ以上いじょう、8ビット符号ふごうでは3つ以上いじょうのバッファをいちしておくことはできない。

しには、ロッキングシフトシングルシフトがある。ロッキングシフトでは、いったんしされたものは、べつしがあるまで使つかいつづけることができる[7]。シングルシフトでは、しされたものは直後ちょくごの1文字もじ (シングルバイトの文字もじ集合しゅうごうであれば1バイト、マルチバイトの文字もじ集合しゅうごうであればそれぞれのバイトすうふん) だけ使つかえ、そのあとはまえ状態じょうたいもど[8]

実際じっさいには、文脈ぶんみゃく規約きやく特定とくてい文字もじ集合しゅうごう使つかうよう指定していしていれば、符号ふごう仕様しよう指定していする制御せいぎょ機能きのう (アナウンス機能きのう) や初期しょき文字もじ集合しゅうごう指示しじする制御せいぎょ機能きのう省略しょうりゃくすることができる。ISO-2022-CNを定義ていぎしているRFC 1922れいると、しにSIとSOの制御せいぎょ文字もじ使用しようするが、この仕様しよう宣言せんげんするアナウンス機能きのうのエスケープシーケンスを省略しょうりゃくしている。また、初期しょき状態じょうたいではG0にUS-ASCII、G1にGB2312-80指示しじし、G0をGL領域りょういきしているが、指示しじのエスケープシーケンスも省略しょうりゃくしている。

ISO国際こくさい登録とうろく簿

[編集へんしゅう]

ISO/IEC 2022は具体ぐたいてき符号ふごう文字もじ集合しゅうごうとははなして規定きていされているため、実際じっさいにこの規格きかく適用てきようするにあたってはエスケープシーケンスの終端しゅうたん文字もじ符号ふごう文字もじ集合しゅうごうなどとの具体ぐたいてき対応たいおう関係かんけいさだめる必要ひつようがあり、そのために符号ふごう文字もじ集合しゅうごうのISO国際こくさい登録とうろく簿存在そんざいする。これはエスケープシーケンスの終端しゅうたん文字もじについてそれぞれどの文字もじがどの符号ふごう文字もじ集合しゅうごうなどに対応たいおうしているのかをさだめたものである。符号ふごう文字もじ集合しゅうごうのISO国際こくさい登録とうろく簿登録とうろく方法ほうほうはISO/IEC 2375 Data Processing - Procedure for Registration of Escape Sequences (情報じょうほう技術ぎじゅつ-エスケープシーケンスおよ符号ふごう文字もじ集合しゅうごう登録とうろく手順てじゅん) に規定きていされている。

ISO国際こくさい登録とうろく簿への登録とうろく申請しんせいおこなうことが出来できるのはつぎもの限定げんていされる。

  • ISO/IEC(ISO/IEC JTC 1結成けっせい以前いぜんはISO)の技術ぎじゅつ委員いいんかい(TC)またはしょう委員いいんかい(SC)
    ISO TC 46/SC 4、ISO TC 97/SC 2、ISO TC 97/SC 21など
  • 符号ふごう拡張かくちょうまたはエスケープシーケンスの使用しようほう検討けんとうするISO/IEC JTC/SC2(ISO/IEC JTC 1結成けっせい以前いぜんはISO TC 97/SC 2)ない作業さぎょうグループ(WG)
    ISO/IEC JTC 1/SC 2/WG 2、ISO/IEC JTC 1/SC 2/WG 3、ISO TC 97/SC 2/WG 4、ISO TC 97/SC 2/WG 7など。
  • ISO/IEC(ISO/IEC JTC 1結成けっせい以前いぜんはISO)の会員かいいん団体だんたい各国かっこくで1団体だんたいずつとめられている。)
    米国べいこく規格きかく協会きょうかいANSI)、日本にっぽん工業こうぎょう標準ひょうじゅん調査ちょうさかい(JISC)、英国えいこく規格きかく協会きょうかい(BSI)、ドイツ規格きかく協会きょうかいDIN)など。
  • ISO/IECの技術ぎじゅつ委員いいんかいまたはしょう委員いいんかい関連かんれんのある国際こくさい機関きかん
    ヨーロッパ電子でんし計算けいさん工業こうぎょうかいECMA)、国際電気こくさいでんき通信つうしん連合れんごう 電気でんき通信つうしん標準ひょうじゅん部門ぶもんITU-TきゅうCCITT)など。

登録とうろく手続てつづきと国際こくさい登録とうろく簿維持いじ管理かんり登録とうろく事務じむきょく(Registration Authority)がおこなうことになっている。現在げんざい、その事務じむきょく日本にっぽん情報処理じょうほうしょり学会がっかい情報じょうほう規格きかく調査ちょうさかい (IPSJ/ITSCJ) がけている(符号ふごう文字もじ集合しゅうごう国際こくさい登録とうろく簿)。かつてはECMA(欧州おうしゅう計算けいさん製造せいぞう業者ぎょうしゃ協会きょうかいげんEcma International)が登録とうろく事務じむきょくけていた[9]

終端しゅうたん文字もじ登録とうろくじゅんに16進数しんすうの「4/0」からじゅんっていくことになっている。終端しゅうたん文字もじりは区分くぶんごとにおこなわれることになっている。(そのためおな終端しゅうたん文字もじでも、どの区分くぶん終端しゅうたん文字もじであるのかによってしめ符号ふごうけいことなり、そのエスケープシーケンスがどの区分くぶん符号ふごうけいしめすのかは中間ちゅうかん文字もじなにであるのかによって識別しきべつできる。)

登録とうろくすうもっとおおい94文字もじ集合しゅうごうについては、当初とうしょ規格きかく用意よういされていた利用りよう可能かのう終端しゅうたん文字もじ使つかってしまったため、だいさん規格きかくにおいて94文字もじ集合しゅうごうしめあらたななかあいだ文字もじもうけてよりおおくの94文字もじ集合しゅうごう登録とうろく出来できるように規定きてい改正かいせいされた。

なお、ひとつの規格きかくさだめられた符号ふごうけいであっても、文字もじ追加ついか変更へんこうふく改正かいせいおこなわれたときにはことなる符号ふごうけいとしてあつかわれることになっており、そのためにあらためて登録とうろくおこなわれ、あらたな登録とうろく番号ばんごう終端しゅうたん符号ふごう付与ふよされることになる。たとえばJIS X 0208は1978ねんはん1983ねんはん1990ねんはんのそれぞれが、JIS X 02132000ねんはん2004ねんはんがそれぞれことなる符号ふごうけいとして登録とうろくされている。

おう用例ようれい

[編集へんしゅう]

7ビット符号ふごうによるマルチバイトようのキャラクタセット

[編集へんしゅう]

ISO/IEC 2022の機構きこう使つかう7ビット符号ふごうキャラクタセットには以下いかのものがふくまれる。つぎのような特徴とくちょうつ。

  1. アナウンス機能きのうのエスケープシーケンスは省略しょうりゃくする。
  2. 7ビット符号ふごうなので、GR領域りょういき使つかわず、C1制御せいぎょ文字もじはエスケープシーケンスであらわす。
  3. 最初さいしょは、G0にASCII指示しじし、G0をGL領域りょういきした状態じょうたいはじまる (このための制御せいぎょ機能きのう省略しょうりゃくする)。つまり、最初さいしょはUS-ASCIIではじまる。
  4. くだりわりではASCIIにもどさなければならない[10]

#ひょう3に、これらのキャラクタセットでもちいる符号ふごう文字もじ集合しゅうごうと、その選択せんたくのための制御せいぎょ機能きのうしめす。

ISO-2022-JPでの「日本語にほんごばんWikipedia」という文字もじれつ符号ふごうれい説明せつめいする (#ひょう3参照さんしょう)。

2 ISO-2022-JPによる「日本語にほんごばんWikipedia」の符号ふごう
文字もじ ほん かたり はん W i k i p e d i a
機能きのう
区点くてん
行列ぎょうれつ
JIS X 0208
指示しじ
38-92 43-60 24-76 40-39 ASCII
指示しじ
05/07 06/09 06/11 06/09 07/00 06/05 06/04 06/09 06/01
符号ふごう 01/11 02/04 04/02 04/06 07/12 04/11 05/12 03/08 06/12 04/08 04/07 01/11 02/08 04/02 05/07 06/09 06/11 06/09 07/00 06/05 06/04 06/09 06/01
ESC $ B F | K \ 8 l H G ESC ( B W i k i p e d i a

うえで、上段じょうだん符号ふごうしたい文字もじれつである。「日本語にほんごばん」は JIS X 0208 にふくまれる文字もじれつ、「Wikipedia」はASCIIにふくまれる文字もじれつである。また、最初さいしょはASCIIではじまる。したがって、「日本語にほんごばん」の直前ちょくぜんと「Wikipedia」の直前ちょくぜん文字もじ集合しゅうごう指示しじするエスケープシーケンスが必要ひつようになる (ISO-2022-JP では指示しじしをねるので、しの制御せいぎょ機能きのう必要ひつようない)。マルチバイト文字もじ区点くてんで、シングルバイト文字もじ行列ぎょうれつあらわすと、中段ちゅうだんのようになる。区点くてんを2バイトずつであらわし、全体ぜんたいを7ビット符号ふごうあらわすと、下段げだんのように符号ふごうされる。

ひょう3 7ビット符号ふごうのマルチバイトようキャラクタセットでの文字もじ集合しゅうごう選択せんたく
キャラクタセット 対象たいしょう言語げんご 文字もじ集合しゅうごう 文字もじ集合しゅうごう選択せんたくのための制御せいぎょ機能きのう
指示しじ
ISO-2022-JP 日本語にほんご ASCII G0 01/11 02/08 04/02
ESC ( B
指示しじねる
(ロッキングシフト)
JIS C 6220-1976のラテン文字もじ集合しゅうごう (ISO/IEC 646の日本にっぽんばん) 01/11 02/08 04/10
ESC ( J
JIS C 6226-1978 01/11 02/04 04/00
ESC $ @
JIS X 0208-1983
または
JIS X 0208:1990
01/11 02/04 04/02
ESC $ B
ISO-2022-JP-1 日本語にほんご ISO-2022-JP に以下いか追加ついか
JIS X 0212-1990 G0 01/11 02/04 02/08 04/04
ESC $ ( D
指示しじねる
(ロッキングシフト)
ISO-2022-JP-2 多言たげん ISO-2022-JP-1 に以下いか追加ついか
GB 2312-80 G0 01/11 02/04 04/01
ESC $ A
指示しじねる
(ロッキングシフト)
KS X 1001-1992 01/11 02/04 02/08 04/03
ESC $ ( C
ISO/IEC 8859-1みぎ半分はんぶん G2 01/11 02/14 04/01
ESC . A
01/11 04/14
ESC N
(シングルシフト)
ISO/IEC 8859-7みぎ半分はんぶん 01/11 02/14 04/06
ESC . F
ISO-2022-JP-3 日本語にほんご ISO-2022-JP に以下いか追加ついか
JIS X 0213:2000の1めん G0 01/11 02/04 02/08 04/15
ESC $ ( O
指示しじねる
(ロッキングシフト)
JIS X 0213:2000の2めん 01/11 02/04 02/08 04/16
ESC $ ( P
ISO-2022-JP-2004 日本語にほんご ISO-2022-JP-3 に以下いか追加ついか
JIS X 0213:2004の1めん G0 01/11 02/04 02/08 04/17
ESC $ ( Q
指示しじねる
(ロッキングシフト)
ISO-2022-KR 韓国かんこく ASCII G0 はじめから指示しじしたまま 00/15
SI
(ロッキングシフト)
KS X 1001-1992 G1 01/11 02/04 02/09 04/03
ESC $ ) C
ただし、くだりはじめに
00/14
SO
(ロッキングシフト)
ISO-2022-CN 中国ちゅうごく ASCII G0 はじめから指示しじしたまま 00/15
SI
(ロッキングシフト)
GB 2312-80 G1 01/11 02/04 02/09 04/01
ESC $ ) A
00/14
SO
(ロッキングシフト)
CNS 11643-1992の1めん 01/11 02/04 02/09 04/07
ESC $ ) G
CNS 11643-1992の2めん G2 01/11 02/04 02/10 04/08
ESC $ * H
01/11 04/14
ESC N
(シングルシフト)
ISO-2022-CN-EXT 中国ちゅうごく ISO-2022-CN に以下いか追加ついか
ISO-IR-165 G1 01/11 02/04 02/09 04/05
ESC $ ) E
00/14
SO
(ロッキングシフト)
GB 12345-90 未定みてい
GB 7589-87 G2 未定みてい 01/11 04/14
ESC N
(シングルシフト)
GB 13131-91 未定みてい
GB 7590-87 G3 未定みてい 01/11 04/15
ESC O
(シングルシフト)
GB 13132-91 未定みてい
CNS 11643-1992の3めん 01/11 02/04 02/11 04/09
ESC $ + I
CNS 11643-1992の4めん 01/11 02/04 02/11 04/10
ESC $ + J
CNS 11643-1992の5めん 01/11 02/04 02/11 04/11
ESC $ + K
CNS 11643-1992の6めん 01/11 02/04 02/11 04/12
ESC $ + L
CNS 11643-1992の7めん 01/11 02/04 02/11 04/13
ESC $ + M

ISO-2022-JPは、日本語にほんご電子でんしメールなどのための符号ふごう表現ひょうげんとしてひろ使つかわれている。このキャラクタセットは、1986ねん後半こうはんころに、当時とうじJUNETで、ネットニューズや電子でんしメールで日本語にほんご利用りようするための符号ふごう共通きょうつう仕様しようとして成立せいりつし、のちにその仕様しようRFC 1468Informationalとして発行はっこうされた。当初とうしょは「JISコード」、「JUNETコード」(junet-code) などとばれたが、最終さいしゅうてきにはどうRFCにおいて、MIMEのためのキャラクタセットめいとしてISO-2022-JPの名称めいしょう規定きていされ[11]IANA Character Setsにも収録しゅうろくされている。

ISO/IEC 2022 に準拠じゅんきょした7ビットの符号ふごう表現ひょうげんだが、つぎのような特徴とくちょうつ。

  • JIS X 0208指示しじ(かつし)されている状態じょうたいでは、SPACE (空白くうはく) や制御せいぎょ文字もじ使つかってはならない。
  • 行末ゆくすえでは指示しじ(かつし)をASCIIにもどさなければならない。つまり、行末ゆくすえまえ漢字かんじ文字もじ集合しゅうごう指示しじされていたら、ASCIIを指示しじしてから改行かいぎょうしなければならない[10]
  • JIS X 0208を指示しじするとき、改訂かいてい番号ばんごう識別しきべつのエスケープシーケンスをもちいずに1983ねんばんと1990年版ねんばんのどちらを使つかってもよい。

JUNETコードの成立せいりつ当時とうじ日本語にほんご対応たいおう端末たんまつなどの機器ききには「漢字かんじイン/漢字かんじアウト」理解りかい[7]もとづく動作どうさをするものが複数ふくすう存在そんざいし、JIS X 0208の文字もじ要素ようそならびの途中とちゅうにSPACE (空白くうはく 02/00) や制御せいぎょ文字もじあらわれるとまさしく処理しょりできなかった。改行かいぎょう処理しょりについても、行末ゆくすえ制御せいぎょ文字もじ処理しょりでASCIIにもどってしまうものがあった。こういった機器ききは、ハードウェアの組込くみこみソフトウェアによって実現じつげんされているれいおおく、その挙動きょどう修正しゅうせいすることはしばしば困難こんなんだった。そのため、情報じょうほう交換こうかん当事とうじしゃあいだ合意ごういとして上記じょうき条件じょうけんのもと符号ふごうする。

また、ISO/IEC 2022 では、改訂かいてい文字もじ集合しゅうごう指示しじする場合ばあいには、指示しじのエスケープシーケンスのまえ改訂かいてい番号ばんごう識別しきべつするエスケープシーケンス (IRR。#ひょう2参照さんしょう) をくとさだめている。たとえば、JIS X 0208:1990 (JIS X 0208 の1990年版ねんばん) は JIS C 6226-1983 (おなじく1983年版ねんばんのちに JIS X 0208-1983に改称かいしょう) の改訂かいていである (漢字かんじ2文字もじ追加ついかされている) ため、1990年版ねんばん指示しじする場合ばあいは、指示しじのエスケープシーケンスの直前ちょくぜん01/11 02/06 04/00 (ESC & @) を付加ふかする。実際じっさいにIRRを使用しようするかどうかは情報じょうほう交換こうかん仕様しようなかさだめられる。RFC 1468 では、1990年版ねんばん使つか場合ばあいも IRR の付加ふかをしないことを提案ていあんしている。

JIS X 0208:1997では、附属ふぞくしょ2「RFC1468符号ふごう表現ひょうげん」として ISO-2022-JP をJISの規定きていとしたが、この符号ふごう表現ひょうげんが「ISO/IEC 2022に適合てきごうするものではない」[12]付記ふきしている。

ISO-2022-JP は、マルチバイト文字もじ集合しゅうごうあつかうものとしてははつMIMEようキャラクタセットであった。これ以降いこう中国ちゅうごく朝鮮ちょうせん、あるいは多言たげんでの利用りよう想定そうていしたマルチバイトのキャラクタセットが、ISO-2022-○○という名称めいしょうでいくつか提案ていあんされ、一部いちぶRFC にもなった。これらは、ISO-2022-JP で採用さいようされた ISO/IEC 2022 の7ビット符号ふごうによる符号ふごう方式ほうしき踏襲とうしゅうしていた。しかしその日本語にほんご以外いがい言語げんごでは、電子でんしメールなどのキャラクタセットはEUC符号ふごうによるものなどが事実じじつじょう標準ひょうじゅんとなっていった。今日きょう、マルチバイトで7ビットのキャラクタセットとして一般いっぱんてき使つかわれているものは、事実じじつじょう日本語にほんごようの ISO-2022-JP のみである。

Extended Unix Code (EUC)

[編集へんしゅう]

Extended Unix Code (EUC) は、ISO/IEC 2022の機構きこうじゅんじた8ビット符号ふごう文字もじコード[13]である。これには以下いかのものがふくまれる。つぎのような特徴とくちょうつ。

  • アナウンス機能きのうのエスケープシーケンスは省略しょうりゃくする。
  • 8ビット符号ふごうなので、GR領域りょういき使つかう。エスケープシーケンスは使つかわない。
  • G0にASCIIを、G1にマルチバイト文字もじ集合しゅうごうを、G2やG3に補助ほじょてき文字もじ集合しゅうごうを (あれば) 指示しじし、G0をGL領域りょういきに、G1をGR領域りょういきした状態じょうたいはじまる (このための制御せいぎょ機能きのう省略しょうりゃくする)。つまり、最初さいしょは7ビット符号ふごうがASCII、8ビット符号ふごうがマルチバイト文字もじ集合しゅうごうはじまる。
  • 指示しじ状態じょうたい固定こていてきまっており、変更へんこうおこなわない。
  • しはシングルシフトのみで、G2かG3 (あれば) からGR領域りょういきへのみ。

この結果けっか、ASCIIの文字もじつねに7ビット、それ以外いがい文字もじ集合しゅうごう文字もじつねに8ビットで符号ふごうされ、しかも、おな文字もじ集合しゅうごう文字もじつねおなじバイトすう表現ひょうげんされることになる。

#ひょう4に、これらの文字もじコードでもちいる符号ふごう文字もじ集合しゅうごうと、その選択せんたくのための制御せいぎょ機能きのうしめす。

EUC-JPでの「日本語にほんごばんWikipedia」という文字もじれつ符号ふごうれい説明せつめいする (#ひょう4参照さんしょう)。

3 EUC-JPによる「日本語にほんごばんWikipedia」の符号ふごう
文字もじ ほん かたり はん W i k i p e d i a
区点くてん
行列ぎょうれつ
38-92 43-60 24-76 40-39 05/07 06/09 06/11 06/09 07/00 06/05 06/04 06/09 06/01
符号ふごう 12/06 15/12 12/11 13/12 11/08 14/12 12/08 12/07 05/07 06/09 06/11 06/09 07/00 06/05 06/04 06/09 06/01
C6 FC CB DC B8 EC C8 C7 57 69 6B 69 70 65 64 69 61

うえで、上段じょうだん符号ふごうしたい文字もじれつである。「日本語にほんごばん」は JIS X 0208 にふくまれる文字もじれつ、「Wikipedia」はASCIIにふくまれる文字もじれつである。ASCIIはGL領域りょういきに、JIS X 0208はGR領域りょういきされている。したがって、「日本語にほんごばん」を8ビットで、「Wikipedia」を7ビットで符号ふごうすればよい。マルチバイト文字もじ区点くてんで、シングルバイト文字もじ行列ぎょうれつあらわすと、中段ちゅうだんのようになる。区点くてんを2バイトずつであらわし、全体ぜんたいを8ビット符号ふごうか7ビット符号ふごうあらわすと、下段げだんのように符号ふごうされる。

ひょう4 EUCでの文字もじ集合しゅうごう選択せんたく
文字もじコード 対象たいしょう言語げんご 文字もじ集合しゅうごう 文字もじ集合しゅうごう選択せんたくのための制御せいぎょ機能きのう
指示しじ
EUC-CN
(GB2312)
中国ちゅうごく
簡体字かんたいじ
ASCII G0 指示しじしたまま GLのまま
GB 2312-80 G1 GRのまま
EUC-JP
(AJEC)
日本語にほんご ASCII G0 指示しじしたまま GLのまま
JIS X 0208のいずれかのはん G1 GRのまま
JIS X 0201-1976仮名かめい文字もじ集合しゅうごう (実装じっそうしなくてもよい) G2 08/14
SS2
(シングルシフトGR)
JIS X 0212-1990 (実装じっそうしなくてもよい) G3 08/15
SS3
(シングルシフトGR)
EUC-JISX0213 日本語にほんご ASCII G0 指示しじしたまま GLのまま
JIS X 0213:2000の1めん G1 GRのまま
JIS X 0201-1976仮名かめい文字もじ集合しゅうごう (原則げんそくとしてもちいない) G2 08/14
SS2
(シングルシフトGR)
JIS X 0213:2000の2めん G3 08/15
SS3
(シングルシフトGR)
EUC-JIS-2004 日本語にほんご EUC-JISX0213 のG1とG3に、それぞれJIS X 0213:2004の1めんと2めん指示しじしたもの
EUC-KR 韓国かんこく ASCII G0 指示しじしたまま GLのまま
KS X 1001 G1 GRのまま
EUC-TW 中国ちゅうごく
伝統でんとう
ASCII G0 指示しじしたまま GLのまま
CNS 11643の1めん G1 GRのまま
CNS 11643の2めん以降いこう
(めん1バイトと区点くてん2バイト)
G2 08/14
SS2
(シングルシフトGR)

変異へんい

[編集へんしゅう]

EUCは業界ぎょうかい標準ひょうじゅんであるため、ベンダごとの独自どくじ実装じっそう包含ほうがんするものとなっている。そのため、厳密げんみつえばISO/IEC 2022に準拠じゅんきょしているとはえないものもある。

EUC-JP では、G1に指示しじする文字もじ集合しゅうごうJIS X 0208 のさまざまなはん使つかうものがある。1978年版ねんばん (JIS C 6226-1978)、1983年版ねんばん (JIS X 0208-1983)、1990年版ねんばん (JIS X 0208:1990) は、ISO/IEC 2022にもとづく符号ふごう文字もじ集合しゅうごうとしてはそれぞれことなるものだが、いずれの文字もじ集合しゅうごう使つかっているかはベンダによってことなる。また、G2 のJIS X 0201片仮名かたかな文字もじ集合しゅうごうや、G3 のJIS X 0212については、ベンダによっては実装じっそうしていないことがある。

EUC-TW では、CNS 11643の2めん以降いこう文字もじを、シングルシフト (SS2) ののちめん1バイト(10/02 A2 から11/00 B0 で2めんから16めんあらわす)と区点くてん2バイトの合計ごうけい4バイトです。つまり、CNS 11643の2めん以降いこうをまとめてひとつの文字もじ集合しゅうごうとしてあつかっていることになる。ISO/IEC 2022にもとづく符号ふごう文字もじ集合しゅうごうとしては、各面かくめんはそれぞれことなる文字もじ集合しゅうごうである。

拡張かくちょうASCII

[編集へんしゅう]

拡張かくちょうASCII」は俗称ぞくしょうである。8ビット符号ふごう使つかうシングルバイト文字もじ集合しゅうごうで、ASCIIたいして上位じょうい互換ごかんとなっているものをす。#歴史れきしたように、ISO/IEC 4873 に準拠じゅんきょした符号ふごうひょうてばその文字もじ集合しゅうごうは ISO/IEC 2022 に準拠じゅんきょしているとえる。しかしここでは、ISO/IEC 2022 のがわから解説かいせつする。

一般いっぱんに、拡張かくちょうASCIIとはISO/IEC 2022準拠じゅんきょ符号ふごうひょう使つか文字もじ集合しゅうごうの、つぎのような符号ふごう表現ひょうげんであるとかんがえることができる。

  • アナウンス機能きのうのエスケープシーケンスは省略しょうりゃくする。
  • G0に ISO/IEC 646各国かっこくばんまたはASCIIを、G1にそののシングルバイト文字もじ集合しゅうごう指示しじし、G0をGL領域りょういきに、G1をGR領域りょういきした状態じょうたいはじまる (このための制御せいぎょ機能きのう省略しょうりゃくする)。
  • 指示しじ状態じょうたいしの状態じょうたい固定こていてきまっており、変更へんこうおこなわない。

この結果けっか、8ビット符号ふごう最大さいだい188ないし190図形ずけい文字もじ利用りようすることができ、しかもすべての文字もじが1バイトの固定こていちょう表現ひょうげんされることになる。なお、これらのおおくは、IANAキャラクタセットとして登録とうろくしている。

拡張かくちょうASCIIのれいとしてはつぎのようなものがある。詳細しょうさいかく項目こうもく解説かいせつ参照さんしょう

ARMSCII
アルメニア文字もじ
ASMO 449+
アラビアようアラビア文字もじISO/IEC 8859-6互換ごかんせいがある。
ISCII
インドしょ言語げんご文字もじ用字ようじけいえや、結合けつごう文字もじ表現ひょうげんのための特殊とくしゅ図形ずけい文字もじつ。
ISO/IEC 8859 シリーズ
ヨーロッパしょ言語げんご (トルコおよびエスペラントふくむ) のラテン文字もじ集合しゅうごうふくみ、さらにアラビア文字もじギリシア文字もじキリル文字もじタイ文字もじヘブライ文字もじ文字もじ集合しゅうごうをもふくむ。
JIS X 0201
日本語にほんごよう片仮名かたかな
PASCII
アラビア文字もじ (ウルドゥシンドカシミールアラビア)。ISO/IEC 8859-6とは互換ごかんせいがない。
TIS 620
タイ文字もじISO/IEC 8859-11互換ごかんせいがある。
TSCII
タミル文字もじ。ISCIIのタミル文字もじとは互換ごかんせいがない。

はみ

[編集へんしゅう]

拡張かくちょうASCIIの方法ほうほうでは、ラテン文字もじ以外いがい文字もじ最大さいだい96文字もじまでしか収録しゅうろくできない。またたとえラテン文字もじであっても、きわめて多数たすうダイアクリティカルマーク文字もじ使つか言語げんごでは、ISO/IEC 2022の8ビット符号ふごうでも文字数もじすう不足ふそくする。かといって、マルチバイト文字もじ集合しゅうごう採用さいようするほどおおいわけでもない、という場合ばあい図形ずけい文字もじをGR領域りょういきやGL領域りょういきそとにまで配置はいちすることもある。

VISCII
ベトナムよう電子でんしメールなどでひろ使つかわれているキャラクタセットである。GL領域りょういきはASCIIであるが、ダイアクリティカルマーク文字もじのうち96文字もじをGR領域りょういき収容しゅうようし、のこりを、C1の32文字もじすべて、さらにはC0のうち6文字もじにまでてている。
KOI8 けい文字もじ集合しゅうごう
キリル文字もじロシアもちいおよびブルガリアよう使つかわれるKOI8-Rウクライナよう使つかわれるKOI8-U、ウクライナベラルーシ、ロシア共通きょうつうKOI8-RU代表だいひょうてきである。ほかにも、キリル文字もじ使つかおおくの言語げんごようにKOI8の変種へんしゅもちいられており、タジクもちい (KOI8-T)、チェコおよびスロバキアもちい (KOI8-CS)、モンゴルようなどがある。C1領域りょういきにも記号きごう罫線けいせんもとなどを収容しゅうようしている。
MS-DOSWindows、そのパソコンみのコードページ
これらのうち、シングルバイトのもののおおく。C1領域りょういきにも記号きごう罫線けいせんもとなどを収容しゅうようしている。

Compound Text Encoding (CTEXT)

[編集へんしゅう]
ひょう5 Compound Text Encoding で拡張かくちょうされた制御せいぎょ機能きのう
制御せいぎょ機能きのう 説明せつめい
01/11 02/05 02/15 03/00 M L[a] 可変長かへんちょう符号ふごうシステムの指示しじ
01/11 02/05 02/15 03/01 M L[a] 1文字もじ1バイトの符号ふごうシステムの指示しじ
01/11 02/05 02/15 03/02 M L[a] 1文字もじ2バイトの符号ふごうシステムの指示しじ
01/11 02/05 02/15 03/03 M L[a] 1文字もじ3バイトの符号ふごうシステムの指示しじ
01/11 02/05 02/15 03/04 M L[a] 1文字もじ4バイトの符号ふごうシステムの指示しじ
01/11 02/05 04/07[b] UTF-8にえる
01/11 02/05 04/00[b] UTF-8からもど
09/11 03/01 05/13[c] しょ方向ほうこうひだりからみぎとする
09/11 03/02 05/13[c] しょ方向ほうこうみぎからひだりとする
09/11 05/13[c] 直近ちょっきんったしょ方向ほうこう指定していからもど

a  M L指示しじのちにつづく要素ようそのバイトすうしめす。MLさい上位じょういけたビット (つねに1) をのぞ合計ごうけい14ビットがあらわがバイトすうとなる。要素ようそないは、符号ふごうシステムの名前なまえではじまり、00/02 (STX) で区切くぎってその実際じっさい符号ふごう文字もじ要素ようそつづく。

b  XFree86による拡張かくちょう本来ほんらいの Compound Text Encoding では ISO に登録とうろくされた「符号ふごうシステム」は使つかわないことになっている。

c  ISO/IEC 6429機能きのう

Compound Text Encoding (CTEXT) は、ISO/IEC 2022およびISO/IEC 6429機構きこうじゅんじつつそれを拡張かくちょうした8ビット符号ふごう符号ふごう方式ほうしきである。X Window Systemにおいて、クライアントあいだのテキスト情報じょうほう伝達でんたつや、リソースなかのテキスト情報じょうほう表現ひょうげんもちいる。つぎのような特徴とくちょうつ。

  • アナウンス機能きのうのエスケープシーケンスは省略しょうりゃくする。
  • 8ビット符号ふごうなので、GR領域りょういき使つかう。
  • G0にASCIIを、G1にISO/IEC 8859-1みぎ半分はんぶん指示しじし、G0をGL領域りょういきに、G1をGR領域りょういきした状態じょうたいはじまる (このための制御せいぎょ機能きのう省略しょうりゃくする)。つまり、最初さいしょはISO/IEC 8859-1ではじまる。
  • G0およびG1への指示しじがGL領域りょういきおよびGR領域りょういきへのしをねる。しの制御せいぎょ機能きのう使つかわない。つまり、文字もじ集合しゅうごう選択せんたく指示しじのエスケープシーケンスだけでおこなう。
  • ISO/IEC 2022のDOCS (#ひょう2参照さんしょう) と私用しよう終端しゅうたんバイトにより、利用りようしゃ独自どくじ文字もじ集合しゅうごうや、UTF-8 のようにISO/IEC 2022に準拠じゅんきょした構造こうぞう符号ふごうひょうたない符号ふごうシステムを指示しじする (#ひょう5参照さんしょう)。
  • ISO/IEC 6429のSDSによりしょ方向ほうこう指定していする (#ひょう5参照さんしょう)。

また、つぎのてんで ISO/IEC 2022 にたいする拡張かくちょうとなっている。

  • 指示しじのエスケープシーケンスでは、中間なかまバイト02/08の省略しょうりゃく (#ひょう2 ちゅう参照さんしょう) をしない。

この結果けっか複数ふくすう符号ふごうシステムや文字もじ集合しゅうごう混在こんざいする場合ばあいでも、文字もじコード変換へんかんによる情報じょうほう劣化れっかこさず、またクライアントが対応たいおうしていない符号ふごうシステムや文字もじ集合しゅうごう情報じょうほう伝達でんたつすることが可能かのうになっている。なお、これはことなるアプリケーションのあいだでのテキスト情報じょうほう交換こうかんのための符号ふごう方式ほうしきさだめたものであり、個々ここのアプリケーション内部ないぶでのテキスト処理しょりさいは、適当てきとう内部ないぶ形式けいしき変換へんかんしてから処理しょりすることが想定そうていされている。

ちゅう

[編集へんしゅう]
  1. ^ だい3規格きかくまでの標題ひょうだいは「情報じょうほう交換こうかんよう符号ふごう拡張かくちょうほう」であった。
  2. ^ 初版しょはん制定せいてい当時とうじ名称めいしょうは ISO/R 646。その ISO 646、さらに ISO/IEC 646 と改称かいしょうされた。しかし、ほんこうでは原則げんそくとして ISO/IEC 646 と表記ひょうきする。
  3. ^ 初版しょはん制定せいてい当時とうじ名称めいしょうは ISO 2022:1973。その1994ねんだい4はんで ISO/IEC 2022 と改称かいしょう初版しょはんたいするJISの対応たいおう規格きかくは JIS C 6228:1975。1982ねんだい2はんの JIS C 6228:1982 はその JIS X 0202:1982 と改称かいしょうされた。しかし、ほんこうでは原則げんそくとして ISO/IEC 2022 および JIS X 0202 と表記ひょうきする。
  4. ^ 初版しょはん制定せいてい当時とうじ名称めいしょうは ISO 4873。のちに ISO/IEC 4873 と改称かいしょうされた。しかし、ほんこうでは原則げんそくとして ISO/IEC 4873 と表記ひょうきする。
  5. ^ これは今日きょうでは internationalization (i18n国際こくさい) あるいは multilingualization (m17n言語げんご) とばれるかんがえかたであるが、当時とうじはヨーロッパのしょ言語げんごにまたがるという意味いみharmonization (調和ちょうわ) とばれた。のちに ISO/IEC 8859 はヨーロッパ諸語しょご以外いがい包含ほうがんするものになる。
  6. ^ 論理ろんりてきには5バイト以上いじょうのエスケープシーケンスももちいられるが、現時点げんじてんでは ISO/IEC 2022 で規定きていされているものはない。
  7. ^ a b ISO/IEC 2022がさだめられた当初とうしょは、しの制御せいぎょ機能きのうには SI (G1からGL領域りょういきへのし) と SO (G0からGL領域りょういきへのし) しかなかった。そのため、SIを「漢字かんじイン」(制御せいぎょ文字もじマ字まじ符号ふごうひょうから漢字かんじ符号ふごうひょうにシフトする)、SOを「漢字かんじアウト」(漢字かんじ符号ふごうひょうへのシフトからふくする) とする理解りかいまれ、ほかの制御せいぎょ機能きのうさだめられたさいには混乱こんらんまねいた。実際じっさいにはロッキングシフトでは、まえしを記憶きおくしているわけではない。ちなみに、当時とうじ開発かいはつされたプリンタ記述きじゅつ言語げんご (プリンタ制御せいぎょするための通信つうしん手順てじゅん) には、この漢字かんじイン/漢字かんじアウトの発想はっそうのこっているものがある。
  8. ^ シングルシフトには、G2かG3からしするものしかない。また、8ビット符号ふごう場合ばあい、GL領域りょういきすかGR領域りょういきすかは最初さいしょにアナウンス機能きのうによって決定けっていすることになっている。
  9. ^ JIS X 0202:1991 解説かいせつ登録とうろく」による
  10. ^ a b ISO-2022-JPの場合ばあいは、JIS X 0201-1976のラテン文字もじ集合しゅうごうでもよい。
  11. ^ 日本にっぽんくにコード JPふくまれる名称めいしょうであるのは、ネットニューズのfj.*グループの利用りようしゃおよびホストコンピュータのjpドメインめい電子でんしメールアドレスにふく利用りようしゃらの議論ぎろんによる。なお文字もじ集合しゅうごうとして使つかう JIS X 0208 は日本工業規格にほんこうぎょうきかくであり、漢字かんじ仮名かめいといった日本語にほんご必須ひっす文字もじ体系たいけいのほかに、アラビア数字すうじ種々しゅじゅ記号きごうとともに頭字かしらじ用途ようとしゅとして[よう出典しゅってん]一部いちぶラテン文字もじギリシア文字もじキリル文字もじふくんでいる。そのため、日本語にほんご以外いがい言語げんご部分ぶぶんてき表現ひょうげんできる。RFC 1468表題ひょうだいJapanese Character Encoding for Internet Messages (インターネットメッセージのための日本語にほんご文字もじ符号ふごう) であることから、とく日本にっぽん国内こくないにかぎった利用りよう想定そうていしていたわけでもなく、日本語にほんごコミュニティでの利用りよう想定そうていしていた。
  12. ^ JIS X 0208:1997 附属ふぞくしょ2より引用いんよう。また、どう解説かいせつ 3.11 も参照さんしょう
  13. ^ EUCでは文字もじコード (えい: codeset)、JISでは符号ふごう表現ひょうげんぶ。また、一部いちぶキャラクタセットとしてIANAが登録とうろくしている。

参考さんこう文献ぶんけん

[編集へんしゅう]

全般ぜんぱんてき記述きじゅつには以下いか文献ぶんけん参照さんしょうした。

  • JIS X 0202:1998 『情報じょうほう技術ぎじゅつ - 文字もじ符号ふごう構造こうぞうおよ拡張かくちょうほう』 日本にっぽん規格きかく協会きょうかい、1998ねん。(ISO/IEC 2022:1994 Information technology - Character code structure and extension techniques だい4はん国際こくさい一致いっち規格きかく)
  • Lunde, Ken『CJKVにちちゅうかんえつ情報処理じょうほうしょり』オライリー・ジャパン、2002ねんISBN 4-87311-108-0 (原著げんちょ Lunde, Ken (1998). CJKV Information Processing. Cambridge, Massachusetts: O'Reilly & Associates. ISBN 1-56592-224-7 )

さらに、ふしごとの記述きじゅつ以下いか文献ぶんけん参照さんしょうした。

#歴史れきし (#だい2規格きかく以降いこうおも改正かいせいてん以外いがい)

  • 三上みかみとうと文字もじ符号ふごう歴史れきし - アジアへん -』共立きょうりつ出版しゅっぱん、2002ねん3がつISBN 4-320-12040-X とくだい3しょう「ASCIIとその拡張かくちょう」を参照さんしょう

#ISO国際こくさい登録とうろく簿

  • ISO/IEC 2375:2003 Data Processing - Procedure for Registration of Escape Sequences

#おう用例ようれい

  • RFC 1468 Japanese Character Encoding for Internet Messages (『インターネットメッセージのための日本語にほんご文字もじ符号ふごう』), J. Murai ちょ, 1993ねん6がつ.
  • RFC 1554 ISO-2022-JP-2: Multilingual Extension of ISO-2022-JP (『ISO-2022-JP-2: ISO-2022-JPの言語げんご拡張かくちょう』), M. Ohta ちょ, 1993ねん12月.
  • RFC 1557 Korean Character Encoding for Internet Messages (『インターネットメッセージのための朝鮮ちょうせん文字もじ符号ふごう』), U. Choi ちょ, 1993ねん12月.
  • RFC 1922 Chinese Character Encoding for Internet Messages (『インターネットメッセージのためのなかぶん文字もじ符号ふごう』), HF. Zhu ちょ, 1996ねん3がつ.
  • RFC 2237 Japanese Character Encoding for Internet Messages (『インターネットメッセージのための日本語にほんご文字もじ符号ふごう』), K. Tamaru ちょ, 1997ねん11月.
  • JIS X 0208:1997 『7ビットおよび8ビットの2バイト情報じょうほう交換こうかんよう符号ふごう漢字かんじ集合しゅうごう』 (7-bit and 8-bit double byte coded Kanji sets for information interchange) 附属ふぞくしょ2「RFC1468符号ふごう表現ひょうげん」 日本にっぽん規格きかく協会きょうかい、1997ねん
  • JIS X 0213:2000 『7ビットおよび8ビットの2バイト情報じょうほう交換こうかんよう符号ふごう拡張かくちょう漢字かんじ集合しゅうごう』 (7-bit and 8-bit double byte coded extended Kanji sets for information interchange) 附属ふぞくしょ2「ISO-2022-JP-3符号ふごう表現ひょうげん」 日本にっぽん規格きかく協会きょうかい、2000ねん
  • JIS X 0213:2000/AMENDMENT 1:2004 『7ビットおよび8ビットの2バイト情報じょうほう交換こうかんよう符号ふごう拡張かくちょう漢字かんじ集合しゅうごう (つい1)』 (7-bit and 8-bit double byte coded extended Kanji sets for information interchange (Amendment 1)) 附属ふぞくしょ2「ISO-2022-JP-2004符号ふごう表現ひょうげん」 日本にっぽん規格きかく協会きょうかい、2004ねん
  • 『UI-OSF-USLP 共同きょうどう技術ぎじゅつ資料しりょう 日本語にほんごEUCの定義ていぎ解説かいせつ』(Unapproved Draft 1.7) 1991ねん12月
  • X Consortium Standard, Compound Text Encoding Version 1.1, Robert W. Scheifler ちょ, 1989ねん.
  • Very old fj.kanji discussion - JUNETコード成立せいりつのころの議論ぎろん
  • Роман Чибора (1998ねん). “The Cyrillic Charset Soup”. 2007ねん2がつ11にち閲覧えつらん - キリル文字もじよう文字もじコードの変遷へんせん

関連かんれん項目こうもく

[編集へんしゅう]

外部がいぶリンク

[編集へんしゅう]