(Translated by https://www.hiragana.jp/)
Extended Unix Code - Wikipedia コンテンツにスキップ

Extended Unix Code

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

Extended Unix Code(EUC)は、UNIXうえ使つかわれてきた文字もじコード符号ふごう方式ほうしきである。

などがある。

概要がいよう

[編集へんしゅう]

1980年代ねんだい、UNIXを開発かいはつしていたAT&Tアメリカ合衆国あめりかがっしゅうこく以外いがいくにへUNIXを展開てんかいするにあたって各国かっこく固有こゆう要求ようきゅう対応たいおうするため、UNIXシステムを世界せかい共通きょうつう機能きのうとなる国際こくさい機能きのうと、各国かっこく固有こゆう処理しょり必要ひつよう機能きのうとなる各国かっこく機能きのうけて定義ていぎした。この国際こくさい機能きのうにおいて、1つの基本きほんコードと3つの拡張かくちょうコードから構成こうせいされる4つのコードセットを使用しようできる文字もじコードをExtended UNIX Code (EUC; 拡張かくちょうUNIXコード) として定義ていぎした。

厳密げんみつにはEUCのコード体系たいけいにはバイト単位たんい可変長かへんちょうコードである「パックフォーマット」と、2バイト固定こていちょうの「完全かんぜん2バイトフォーマット」がある。前者ぜんしゃ情報じょうほう交換こうかんよう後者こうしゃ内部ないぶ処理しょりようで、一般いっぱんにEUCという場合ばあい前者ぜんしゃす。ここでも前者ぜんしゃについて解説かいせつする。

EUCのパックフォーマットはISO/IEC 2022もとに、以下いかのようなサブセットおこなった体系たいけいである。

  • G0にASCIIしゅコードセット)を、G1-G3にかく言語げんご文字もじ集合しゅうごう補助ほじょコードセット1-3)を暗黙あんもく指示しじする。指示しじのエスケープシーケンスはもちいない。
  • GLにG0を、GRにG1を暗黙あんもくす。G2/G3はシングルシフト2/3によりGRにす。ロッキングシフトはもちいない。

補助ほじょコードセットが0x80-0xFFの範囲はんいあらわされるため、しゅコードセットと衝突しょうとつすることがない。すなわちShift_JISにおける2バイトが5Cとうになりうることによる問題もんだいきないというメリットがある。

各国かっこくけに局所きょくしょした各国かっこく機能きのうのそれぞれのはんについて、日本語にほんごでは「 - かたりEUC」や「 - かたりばんEUC」のようにばれることがおおい。

日本語にほんごEUC

[編集へんしゅう]

日本語にほんごEUCはG1-G3に日本にっぽん産業さんぎょう規格きかく (JIS) の文字もじ集合しゅうごうてている。

JIS X 0208ベース

[編集へんしゅう]

一般いっぱん日本語にほんごEUCという場合ばあいこちらをす。EUC-JPともいう。ここで、JP日本にっぽんこくあらわくに地域ちいきコードであって、日本語にほんごあらわ言語げんごコード (ja) でない。

1986ねんにAT&Tによって定義ていぎされて以来いらい、UNIXの標準ひょうじゅんてき日本語にほんごコードとしてひろ使つかわれてきた。1990ねんJIS X 0212補助ほじょ漢字かんじ)があらたに策定さくていされたが、1992ねんUNIX International発行はっこうした『UNIX System V リリース 4 (SVR4) 日本語にほんご環境かんきょう共通きょうつう規約きやく』において、JIS X 0201 カタカナとJIS X 0212 補助ほじょ漢字かんじ実装じっそう必須ひっすではないとされていた。このため、とくにJIS X 0212は実装じっそうされていないこともおおい。通信つうしんなどでもちいる場合ばあいはこのてん注意ちゅうい必要ひつようである。

なお、G2とG3を使つかわない場合ばあいはJIS X 0208:1997の「国際こくさい基準きじゅんばん漢字かんじよう8ビット符号ふごう」と同一どういつとなる。

JIS X 0213ベース

[編集へんしゅう]

JIS X 0213:2004ベースのものをEUC-JIS-2004という(2000年版ねんばんはEUC-JISX0213)。JIS X 0213の附属ふぞくしょ3に記載きさいがある。フリー/オープンソースソフトウェアなどで使つかわれていることがある。

韓国かんこくEUC

[編集へんしゅう]

1987ねんにAT&Tユニックス・パシフィックよりリリースされた Korean Application Environment Release 1.0 (KAE 1.0) で規定きていされ、1992ねん韓国かんこく標準ひょうじゅん協会きょうかいによってKS X 2901(きゅうKS C 5861)『ハングルUNIXエンバイロメント』として標準ひょうじゅんされた。EUC-KRともいう。ここで、KR韓国かんこくくに地域ちいきコードであって、朝鮮ちょうせん言語げんごコード (ko) ではない。たんにKS C 5601といった場合ばあいでも、文字もじ集合しゅうごうとしてのKS C 5601でなく、EUC-KRのことをしている場合ばあいおおい。

  • G0 - ASCII
  • G1 - KS X 1001 (KS C 5601)
  • G2 - なし
  • G3 - なし

EUC-KRを拡張かくちょうしたUHC (Unified Hangul Code) という体系たいけい存在そんざいする。

簡体字かんたいじ中国語ちゅうごくごEUC

[編集へんしゅう]

中国ちゅうごくひろ使つかわれていた。EUC-CNともいう。ここで、CN中国ちゅうごくくに地域ちいきコードであって、簡体字かんたいじ用字ようじけいコード (Hans) でも中国ちゅうごく言語げんごコード (zh) でもない。たんにGB 2312といった場合ばあいでも、文字もじ集合しゅうごうとしてのGB 2312でなく、EUC-CNのことをしている場合ばあいおおい。

  • G0 - ASCII
  • G1 - GB 2312
  • G2 - なし
  • G3 - なし

EUC-CNを拡張かくちょうしたGBKという体系たいけい存在そんざいする。

繁体字はんたいじ中国語ちゅうごくごEUC

[編集へんしゅう]

EUC-TWともいう。ここで、TW台湾たいわんくに地域ちいきコードであって、繁体字はんたいじ用字ようじけいコード (Hant) でも中国語ちゅうごくご言語げんごコード (zh) でもない。台湾たいわん規格きかくであるが、あまり使つかわれておらず、一般いっぱんにはBig5使つかわれる。

  • G0 - ASCII
  • G1 - CNS 11643 だいいち字面じめん
  • G2 - CNS 11643 だい-だいじゅうろく字面じめん
  • G3 - なし

G2の文字もじ以下いかの4バイトで構成こうせいされる。

  • シングルシフト2 (0x8E)
  • 字面じめん選択せんたくするコード(0xA2-0xB0)
  • 文字もじだい1バイト(0xA1-0xFE)
  • 文字もじだい2バイト(0xA1-0xFE)

課題かだい

[編集へんしゅう]

EUCの利用りようは、すべての文字もじコードを包含ほうがんしたり、複数ふくすう文字もじコードをえて表示ひょうじする機能きのう必要ひつようせい否定ひていする場合ばあいがあり、おおくの文字もじ表示ひょうじするながれにたいしてうしきであったてん課題かだいである。これは、文字もじコード自体じたい課題かだいではなく、EUCを利用りようしているプログラマ、利用りようしゃ課題かだいである。

関連かんれん項目こうもく

[編集へんしゅう]