この
記事 きじ には
複数 ふくすう の問題 もんだい があります。
改善 かいぜん や
ノートページ での
議論 ぎろん にご
協力 きょうりょく ください。
Microsoft コードページ 932 (マイクロソフト コードページ 932)は(以下 いか CP932)、マイクロソフト 及 およ び、MS-DOS のOEM ベンダがShift_JIS を独自 どくじ に拡張 かくちょう した文字 もじ コード である。また、同時 どうじ にCP932は、Shift_JISのWindows アプリケーションにおける「実装 じっそう 」を指 さ す用語 ようご であるとも言 い える。
MS932とその他 た の日本語 にほんご に関連 かんれん した文字 もじ 集合 しゅうごう との関係 かんけい オイラー図 ず
この項 こう では、主 おも にShift_JISにおけるマイクロソフトおよび各 かく ベンダの独自 どくじ 拡張 かくちょう 部分 ぶぶん について言及 げんきゅう する。ベンダ独自 どくじ 拡張 かくちょう 部分 ぶぶん 以外 いがい の内容 ないよう については、Shift_JIS を参照 さんしょう されたい。
また、マイクロソフト標準 ひょうじゅん キャラクタセット の項目 こうもく も併 あわ せて参照 さんしょう されたい。
Windows-31J
Windows 3.1 (J) のリリースに合 あ わせて、マイクロソフトが IBM と日本電気 にほんでんき (NEC) のコードを統合 とうごう して作 つく った符号 ふごう 化 か 文字 もじ 集合 しゅうごう 。1993 年 ねん 以降 いこう 、マイクロソフトが自社 じしゃ のドキュメント等 とう で「CP932」という用語 ようご を使 つか って表 あらわ している対象 たいしょう は、常 つね にこの「Windows-31J」である。この名前 なまえ は IANA に登録 とうろく されている。
MS932
Java で、「IBM のコードページ 932」と「Windows-31J」を区別 くべつ するための用語 ようご 。Windows-31Jを指 さ す。
CP932
MS-DOS とWindowsにおける日本語 にほんご コードページを表 あらわ す用語 ようご 。「Windows-31J」が制定 せいてい されるまでは、OEMベンダによって文字 もじ 集合 しゅうごう が違 ちが う。
MS 漢字 かんじ コード
「CP932」とほぼ同 おな じ意味 いみ の用語 ようご である。マイクロソフトが(Shift_JIS という符号 ふごう 化 か 方式 ほうしき を)策定 さくてい したという点 てん や、マイクロソフトが(JIS X 0208という文字 もじ 集合 しゅうごう に対 たい して)文字 もじ を独自 どくじ に追加 ついか した点 てん を強調 きょうちょう したい場合 ばあい に用 もち いられる。また、単 たん に「シフトJIS」のことを指 さ している場合 ばあい もある。
OEM コードページ 932
Windows 3.1 日本語 にほんご 版 ばん の発売 はつばい 以前 いぜん における、OEMベンダ各自 かくじ の拡張 かくちょう を許 ゆる した仕様 しよう の文字 もじ セット。
以下 いか は、マイクロソフトから離 はな れ、現在 げんざい では公的 こうてき 機関 きかん からも認 みと められた文字 もじ 符号 ふごう 化 か 方式 ほうしき を指 さ す用語 ようご である。
シフトJIS
JIS X 0208 符号 ふごう 化 か 文字 もじ 集合 しゅうごう を一定 いってい の規則 きそく に従 したが ってシフトした文字 もじ 符号 ふごう 化 か 方式 ほうしき 。具体 ぐたい 的 てき な内容 ないよう はJIS X 0208:1997に「シフト符号 ふごう 化 か 表現 ひょうげん 」として記載 きさい がある。しかし、文脈 ぶんみゃく によってはベンダ拡張 かくちょう されたコードセットを指 さ している場合 ばあい もある。
Shift_JIS
「シフトJIS」のIANA登録 とうろく 名 めい 。
SJIS
Shift_JIS の短縮形 たんしゅくけい 。JavaではShift_JISと同義語 どうぎご 。
第 だい 1バイト
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
0
␀
␁
␂
␃
␄
␅
␆
␇
␈
␉
␊
␋
␌
␍
␎
␏
1
␐
␑
␒
␓
␔
␕
␖
␗
␘
␙
␚
␛
␜
␝
␞
␟
2
␠
!
"
#
$
%
&
'
(
)
*
+
,
-
.
/
3
0
1
2
3
4
5
6
7
8
9
:
;
<
=
>
?
4
@
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
5
P
Q
R
S
T
U
V
W
X
Y
Z
[
¥
]
^
_
6
`
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
7
p
q
r
s
t
u
v
w
x
y
z
{
|
}
‾
␡
8
9
A
。
「
」
、
・
ヲ
ァ
ィ
ゥ
ェ
ォ
ャ
ュ
ョ
ッ
B
ー
ア
イ
ウ
エ
オ
カ
キ
ク
ケ
コ
サ
シ
ス
セ
ソ
C
タ
チ
ツ
テ
ト
ナ
ニ
ヌ
ネ
ノ
ハ
ヒ
フ
ヘ
ホ
マ
D
ミ
ム
メ
モ
ヤ
ユ
ヨ
ラ
リ
ル
レ
ロ
ワ
ン
゙
゚
E
F
第 だい 2バイト
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
ASCII制御 せいぎょ 文字 もじ
ASCIIと同一 どういつ の文字 もじ
ASCIIと異 こと なる文字 もじ
半角 はんかく カナ
2バイト文字 もじ の第 だい 1バイト
2バイト文字 もじ の第 だい 2バイト(区 く 番号 ばんごう が奇数 きすう の場合 ばあい )
2バイト文字 もじ の第 だい 2バイト(区 く 番号 ばんごう が偶数 ぐうすう の場合 ばあい )
未 み 使用 しよう
Shift_JISでは空 あ き領域 りょういき や未 み 使用 しよう であった13区 く (874016 - 879E16 )、89 - 92区 く (ED4016 - EEFC16 )、115 - 119区 く (FA4016 - FC9E16 )に合計 ごうけい 845文字 もじ を追加 ついか 。ただし同 おな じ文字 もじ が互換 ごかん 性 せい のため重複 じゅうふく して含 ふく まれており実質 じっしつ 447文字 もじ の追加 ついか である。また、95 - 114区 く (F04016 - F9FC16 )も利用 りよう 者 しゃ 定義 ていぎ 領域 りょういき (外字 がいじ 領域 りょういき )となっている。
CP932が、現在 げんざい の「Windows-31J」の形 かたち として完成 かんせい に至 いた るまでには複雑 ふくざつ な経緯 けいい がある。
1982年 ねん (JIS X 0208-1983策定 さくてい の前年 ぜんねん )、JIS C 6226(JIS X 0208) を複雑 ふくざつ にシフトさせた文字 もじ 符号 ふごう 化 か 方式 ほうしき としてShift_JIS が誕生 たんじょう した。この符号 ふごう 化 か 方式 ほうしき (を利用 りよう した拡張 かくちょう 符号 ふごう 化 か 文字 もじ 集合 しゅうごう )は、マイクロソフトによりMS-DOSにおける標準 ひょうじゅん 日本語 にほんご コードとして採用 さいよう され、「コードページ 932 (CP932) 」という管理 かんり 番号 ばんごう を与 あた えられた。
しかし、マイクロソフトは、MS-DOSにおける唯一 ゆいいつ の日本語 にほんご 用 よう コードページである「CP932」を、OEM メーカーの自由 じゆう に任 まか せていた。そのため、NECのPC-9800シリーズ 、IBMのPS/55 シリーズ 、富士通 ふじつう のFMRシリーズ などは全 すべ て、MS-DOSを搭載 とうさい し文字 もじ 符号 ふごう 化 か 方式 ほうしき もShift_JISを採用 さいよう しているコンピュータであるにもかかわらず、登録 とうろく されている文字 もじ 集合 しゅうごう がバラバラだった。
以下 いか 、代表 だいひょう 的 てき な2つの実装 じっそう を解説 かいせつ する。
1983年 ねん 、IBMは、日本語 にほんご 処理 しょり に重点 じゅうてん を置 お いたデスクトップコンピュータ「マルチステーション5550 」を発売 はつばい する際 さい 、利用 りよう する符号 ふごう 化 か 文字 もじ 集合 しゅうごう を以下 いか のように定 さだ めた。
Shift_JISをベースとする。
JIS C 6226が規定 きてい する94区 く × 94点 てん の領域 りょういき に拡張 かくちょう 文字 もじ 追加 ついか を行 おこ なわない。
95 - 114区 く をユーザ外字 がいじ 領域 りょういき とする。
115 - 119区 く にJIS C 6226に非 ひ 登録 とうろく のDBCS-Host [ 1] 文字 もじ を登録 とうろく することで、DBCS-Hostの文字 もじ セット全体 ぜんたい を表現 ひょうげん する。
2バイト文字 もじ 部分 ぶぶん だけの符号 ふごう 化 か 文字 もじ 集合 しゅうごう の名称 めいしょう をDBCS-PCとし、コードページ番号 ばんごう [ 2] として「301」を割 わ り当 あ てる。
1バイト・2バイト文字 もじ 全体 ぜんたい の符号 ふごう 化 か 文字 もじ 集合 しゅうごう のコードページ番号 ばんごう として「932」を割 わ り当 あ てる。
こうしてできたDBCS-PCは1990年 ねん 発売 はつばい のDOS/V にも引 ひ き継 つ がれることとなる。
一方 いっぽう NECは、1983年 ねん に PC-9800シリーズの漢字 かんじ 処理 しょり オプション提供 ていきょう を開始 かいし した。特 とく に、MS-DOS およびCP/M-86 搭載 とうさい 機 き における漢字 かんじ ROM に収容 しゅうよう する文字 もじ 集合 しゅうごう を以下 いか のように定 さだ めた。
Shift_JISをベースとする。
JIPS [ 3] の9 - 13区 く の特殊 とくしゅ 文字 もじ 領域 りょういき をそのままの区点 くてん 番号 ばんごう で配置 はいち 。
JIS C 6226-1978 非 ひ 漢字 かんじ ・第 だい 一 いち 水準 すいじゅん 漢字 かんじ ・第 だい 二 に 水準 すいじゅん 漢字 かんじ はそのままの字形 じけい で、そのままの区点 くてん 番号 ばんごう に配置 はいち 。
IBM のメインフレームの「IBM 漢字 かんじ (DBCS-Host)」の中 なか でJIS C 6226に登録 とうろく の無 な い漢字 かんじ をIBMのDBCS-PCと同様 どうよう の並 なら びで89 - 92区 く に配置 はいち [ 4] 。DBCS-PCと違 ちが い、115 - 119区 く ではなく、GL表現 ひょうげん も可能 かのう なように追加 ついか 文字 もじ 全 すべ てを 94区内 くない に全 すべ て配置 はいち した。
マイクロソフトは1993年 ねん 、Windows 3.1の日本語 にほんご 版 ばん を出 だ すにあたり、「CP932の誕生 たんじょう と発展 はってん 」節 ふし で述 の べたように多様 たよう 化 か した「CP932」の仕様 しよう をOEMメーカーの自由 じゆう に任 まか せるという方針 ほうしん を撤回 てっかい した。日本 にっぽん のパーソナルコンピュータ 市場 いちば で、特 とく に大 おお きなシェアを持 も つ上記 じょうき 2社 しゃ の統合 とうごう コードをWindowsにおける日本語 にほんご 標準 ひょうじゅん コードとし、また、これをIANA に「Windows-31J」という名 な で登録 とうろく した。IANA登録 とうろく 名 めい の「Windows-31J 」とは、読 よ んで字 じ のごとく、「Windows3.1 Japanese 」を意味 いみ している。IBMはマイクロソフトによる「CP932」の統合 とうごう を受 う けて、「Windows-31J」と各 かく 文字 もじ のコードポイントまで同一 どういつ にした「CP943 」を策定 さくてい し、同社 どうしゃ のOSであるOS/2 、AIX 、DBMS であるDB2 などに搭載 とうさい している。
統合 とうごう の概要 がいよう は以下 いか のとおりである。
マイクロソフトによるIBM & NEC統合 とうごう の概要 がいよう
ベースとなる符号 ふごう 化 か 文字 もじ 集合 しゅうごう としてJIS X 0208-1990を採用 さいよう 。
NECが9 - 13区 く に登録 とうろく していた特殊 とくしゅ 文字 もじ の内 うち 、13区 く のものだけを継承 けいしょう 。この 13区 く 登録 とうろく の 83文字 もじ のことを「NEC特殊 とくしゅ 文字 もじ 」と命名 めいめい 。
NECが89 - 92区 く に登録 とうろく していた漢字 かんじ と非 ひ 漢字 かんじ は全 すべ て継承 けいしょう 。このエリアの374文字 もじ のことを「NEC選定 せんてい IBM拡張 かくちょう 文字 もじ 」と命名 めいめい 。
IBMが115 - 119区 く に登録 とうろく していた漢字 かんじ と非 ひ 漢字 かんじ も全 すべ て継承 けいしょう 。このエリアの388文字 もじ のことを「IBM拡張 かくちょう 文字 もじ 」と命名 めいめい 。
上記 じょうき の統合 とうごう 以後 いご は、「CP932」と言 い えば、マイクロソフトの技術 ぎじゅつ 文書 ぶんしょ 以外 いがい でも、一般 いっぱん 的 てき に「Windows-31J」を指 さ すようになった。しかし、統合 とうごう 前 まえ の文字 もじ セットが全 まった く利用 りよう されなくなったというわけではない。例 れい として、Java では、「CP932」がIBMの「CP932」を指 さ し、「MS932」が「Windows-31J」を指 さ す。JDK 1.4.1以降 いこう では「MS932」の代 か わりに「Windows-31J」というキーワードでも「Windows-31J」文字 もじ セットを指定 してい できるようになっている。
Windows-31J に重複 じゅうふく 登録 とうろく されたコード
編集 へんしゅう
前節 ぜんせつ で触 ふ れたように、「Windows-31J」はNECとIBMのそれぞれのコードを統合 とうごう して(互換 ごかん 性 せい を維持 いじ する形 かたち で)作 つく られた経緯 けいい があるため文字 もじ の重複 じゅうふく があり、大 おお まかに言 い えば「NEC選定 せんてい IBM拡張 かくちょう 文字 もじ 」と「IBM拡張 かくちょう 文字 もじ 」がほぼまるごと重複 じゅうふく している。漢字 かんじ 部分 ぶぶん についていえば、すべての漢字 かんじ がきっかり2つずつ登録 とうろく されている。
以下 いか 、拡張 かくちょう 文字 もじ を(非 ひ 符号 ふごう 化 か )文字 もじ 集合 しゅうごう として詳 くわ しく見 み ると、まずNEC選定 せんてい IBM拡張 かくちょう は漢字 かんじ 360文字 もじ と小文字 こもじ のローマ数字 すうじ 「ⅰ」‐「ⅹ」 、および「¬」「¦」「'」「"」 で構成 こうせい されるが、これらはすべてIBM拡張 かくちょう に含 ふく まれる。IBM拡張 かくちょう はこのNEC選定 せんてい IBM拡張 かくちょう に、大文字 おおもじ のローマ数字 すうじ 「Ⅰ」‐「Ⅹ」 と「㈱」「№」「℡」「∵」 の計 けい 14文字 もじ を加 くわ えたものである。そしてこの差分 さぶん の14文字 もじ はすべてNEC特殊 とくしゅ 文字 もじ にも含 ふく まれており、NEC特殊 とくしゅ 文字 もじ はこの14文字 もじ と、IBM拡張 かくちょう ・NEC選定 せんてい IBM拡張 かくちょう のいずれにも含 ふく まれない69文字 もじ で構成 こうせい される。したがってNEC選定 せんてい IBM拡張 かくちょう 文字 もじ とNEC特殊 とくしゅ 文字 もじ を合 あ わせると、過不足 かふそく のない拡張 かくちょう 文字 もじ の集合 しゅうごう の全体 ぜんたい になる。また、これらのうちでJIS X 0208:1990と重複 じゅうふく するのは非 ひ 漢字 かんじ のみであり、それは3重複 じゅうふく である「¬」「∵」の2文字 もじ と、NEC特殊 とくしゅ 文字 もじ との2重複 じゅうふく である「≒」「≡」「∫」「√」「⊥」「∠」「∩」「∪」の8文字 もじ である。なお、JIS X 0208:1990の持 も つこれら10文字 もじ の重複 じゅうふく はすべて、JIS X 0208:1983の段階 だんかい で追加 ついか された文字 もじ である。
Windows-31Jが符号 ふごう 化 か の対象 たいしょう とする文字 もじ 集合 しゅうごう
IBM拡張 かくちょう 文字 もじ (388文字 もじ )
NEC選定 せんてい IBM拡張 かくちょう 文字 もじ (374文字 もじ )
NEC特殊 とくしゅ 文字 もじ (83文字 もじ )
373文字 もじ
ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ¦'" 纊褜鍈銈蓜俉炻昱棈鋹曻彅丨仡仼伀伃伹佖侒侊侚侔俍偀倢俿倞偆偰偂傔僴僘兊兤冝冾凬刕劜劦勀勛匀匇匤卲厓厲叝﨎咜咊咩哿喆坙坥垬埈埇﨏塚增 ぞう 墲夋奓奛奝奣妤妺孖寀甯寘寬 ひろし 尞岦岺峵崧嵓﨑嵂嵭嶸嶹巐弡弴彧德忞恝悅 えつ 悊惞惕愠惲愑愷愰憘戓抦揵摠撝擎敎昀昕昻昉昮昞昤晥晗晙晴 はれ 晳暙暠暲暿曺朎朗杦枻桒柀栁桄棏﨓楨﨔榘槢樰橫橆橳橾櫢櫤毖氿汜沆汯泚洄涇浯涖涬淏淸淲淼渹湜渧渼溿澈澵濵瀅瀇瀨 せ 炅炫焏焄煜煆煇凞燁燾犱犾猤猪獷玽珉珖珣珒琇珵琦琪琩琮瑢璉璟甁畯皂皜皞皛皦益 えき 睆劯砡硎硤硺礰礼神 かみ 祥 さち 禔福禛竑竧靖竫箞精 せい 絈絜綷綠緖 いとぐち 繒罇羡羽茁荢荿菇菶葈蒴蕓蕙蕫﨟薰蘒﨡蠇裵訒訷詹誧誾諟諸 しょ 諶譓譿賰賴 よりゆき 贒赶﨣軏﨤逸遧郞都 と 鄕鄧釚釗釞釭釮釤釥鈆鈐鈊鈺鉀鈼鉎鉙鉑鈹鉧銧鉷鉸鋧鋗鋙鋐﨧鋕鋠鋓錥錡鋻﨨錞鋿錝錂鍰鍗鎤鏆鏞鏸鐱鑅鑈閒 あいだ 隆 たかし 﨩隝隯霳霻靃靍靏靑 あお 靕顗顥飯飼餧館 かん 馞驎髙髜魵魲鮏鮱鮻鰀鵰鵫鶴 づる 鸙黑
13文字 もじ
ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ№℡㈱
61文字 もじ
①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳㍉㌔㌢㍍㌘㌧㌃㌶㍑㍗㌍㌦㌣㌫㍊㌻㎜㎝㎞㎎㎏㏄㎡㍻〝〟㏍㊤㊥㊦㊧㊨㈲㈹㍾㍽㍼∮∑∟⊿
1文字 もじ ¬
1文字 もじ ∵
8文字 もじ ≒≡∫√⊥∠∩∪
6869文字 もじ (省略 しょうりゃく )
JIS X 0208:1990(6879文字 もじ )
重複 じゅうふく 文字 もじ が含 ふく まれる領域 りょういき は以下 いか の表 ひょう のとおりである。
文字種 もじしゅ 名 めい
コードポイント(16進数 しんすう 表記 ひょうき )
区 く 番号 ばんごう
重複 じゅうふく 文字数 もじすう
JIS X 0208の非 ひ 漢字 かんじ (1983年 ねん 追加 ついか 文字 もじ )の一部 いちぶ
-
2区 く
10文字 もじ
NEC特殊 とくしゅ 文字 もじ
8740 - 879C
13区 く
22文字 もじ
NEC選定 せんてい IBM拡張 かくちょう 文字 もじ
ED40 - EEFC
89 - 92区 く
374文字 もじ (全部 ぜんぶ )
IBM拡張 かくちょう 文字 もじ
FA40 - FC4B
115 - 119区 く
388文字 もじ (全部 ぜんぶ )
文字 もじ コード変換 へんかん 時 じ の重複 じゅうふく 文字 もじ の影響 えいきょう
編集 へんしゅう
文字 もじ コード変換 へんかん を行 おこな う際 さい には、この重複 じゅうふく 文字 もじ というのは厄介 やっかい になる。別 べつ の文字 もじ コードから、「Windows-31J」に変換 へんかん する場合 ばあい に、重複 じゅうふく するどちらの文字 もじ へと変換 へんかん するべきかが問題 もんだい になる。
それに関 かん して、WindowsのAPIの仕様 しよう における優先 ゆうせん 順位 じゅんい は、以下 いか のようになっている。
JIS X 0208-1990 の登録 とうろく 文字 もじ である場合 ばあい は、これに統一 とういつ
例 れい : 「√ (ルート)」、「∵ (なぜならば)」、「¬ (否定 ひてい )」
「NEC特殊 とくしゅ 文字 もじ 」「IBM拡張 かくちょう 文字 もじ 」が重複 じゅうふく する場合 ばあい は、「NEC特殊 とくしゅ 文字 もじ 」に統一 とういつ
例 れい : 「№ (ナンバー)」 、「㈱ (かっこかぶ)」、「Ⅲ (大文字 おおもじ ローマ数字 すうじ の3)」
「NEC選定 せんてい IBM拡張 かくちょう 文字 もじ 」「IBM拡張 かくちょう 文字 もじ 」が重複 じゅうふく する場合 ばあい は、「IBM拡張 かくちょう 文字 もじ 」に統一 とういつ
例 れい : 「﨑 (たちざき)」 、「髙 (はしごだか)」 、「ⅲ (小文字 こもじ ローマ数字 すうじ の 3)」
この基準 きじゅん に従 したが って、Microsoft IME によって、「㈱ (かっこかぶ)」を入力 にゅうりょく しようとした場合 ばあい には、IBM 拡張 かくちょう 文字 もじ のコードである FA5816進 しん ではなく、NEC 特殊 とくしゅ 文字 もじ としてのコードである 878A16進 しん が引 ひ き当 あ てられる。
文字種 もじしゅ 別 べつ
文字数 もじすう
Windows-31J変換 へんかん 後 ご に残 のこ る文字数 もじすう
NEC特殊 とくしゅ 文字 もじ
83文字 もじ (非 ひ 漢字 かんじ 83文字 もじ )
74文字 もじ
NEC選定 せんてい IBM拡張 かくちょう 文字 もじ
374文字 もじ (非 ひ 漢字 かんじ 14文字 もじ 、漢字 かんじ 360文字 もじ )
0文字 もじ
IBM拡張 かくちょう 文字 もじ
388文字 もじ (非 ひ 漢字 かんじ 28文字 もじ 、漢字 かんじ 360文字 もじ )
373文字 もじ
合計 ごうけい
-
447文字 もじ (非 ひ 漢字 かんじ 87文字 もじ 、漢字 かんじ 360文字 もじ )
JIS X 0208-1990の登録 とうろく 文字 もじ 10文字 もじ (「≒」「≡」「∫」「√」「⊥」「∠」「∵」「∩」「∪」「¬」)をJIS78を基準 きじゅん した場合 ばあい の機種 きしゅ 依存 いぞん 文字 もじ として扱 あつか う場合 ばあい がある。
[ 5] [ 6]
インターネット上 じょう での Windows-31J の利用 りよう について
編集 へんしゅう
IANAのcharset登録 とうろく 簿 ぼ には「Windows-31J」が登録 とうろく されているが、「限定 げんてい された、または特殊 とくしゅ な使用 しよう のためのもの」とされており、インターネット上 じょう で用 もち いることが推奨 すいしょう されるまでには至 いた っていない。ただし、文字 もじ 符号 ふごう 化 か 方式 ほうしき としてShift_JIS を用 もち いてデータを交換 こうかん しあう二 に 者 しゃ 間 あいだ において、明示 めいじ 的 てき に使用 しよう が合意 ごうい されている場合 ばあい は、Windows-31Jを使 つか っても問題 もんだい が無 な い。
Unicode 範囲 はんい を完全 かんぜん に表現 ひょうげん 可能 かのう なUTF-8 等 ひとし の文字 もじ 符号 ふごう 化 か 方式 ほうしき を用 もち いてデータの交換 こうかん をする場合 ばあい は、話 はなし が若干 じゃっかん ややこしくなる。IBM拡張 かくちょう 文字 もじ 等 とう のWindows-31J独自 どくじ 追加 ついか の文字 もじ は、他 た のJIS X 0208 非 ひ 登録 とうろく のCJK統合 とうごう 漢字 かんじ に比 くら べて、異 い 機種 きしゅ (OS / アプリケーション)間 あいだ でのデータ交換 こうかん を、文字 もじ 化 ば け を起 お こしたりせずにデータのやり取 と りが正常 せいじょう に行 おこな える確 かく 率 りつ が高 たか いからである。これについては、デスクトップOSとしてのWindowsの普及 ふきゅう 率 りつ が非常 ひじょう に高 たか いことも理由 りゆう の1つである。機種 きしゅ 依存 いぞん 文字 もじ の項 こう も併 あわ せて参照 さんしょう のこと。
とは言 い え、UTF-8などのようなUnicodeの登録 とうろく 文字 もじ を全 すべ て利用 りよう できる文字 もじ 符号 ふごう 化 か 方式 ほうしき を利用 りよう している場合 ばあい であっても、あえてJIS X 0208登録 とうろく 文字 もじ だけを用 もち いてデータ交換 こうかん を行 おこな った方 ほう が、問題 もんだい が起 お こりにくい。
また、Unicodeに変換 へんかん した際 さい 、一部 いちぶ の文字 もじ がShift_JISとは異 こと なるコードに割 わ り当 あ てられていることでの文字 もじ 化 ば けを起 お こすことがある。Unicode#波 なみ ダッシュ・全角 ぜんかく チルダ問題 もんだい および波 なみ ダッシュ#Unicodeに関連 かんれん する問題 もんだい を参照 さんしょう のこと。
NEC特殊 とくしゅ 文字 もじ ・IBM拡張 かくちょう 文字 もじ
編集 へんしゅう
NEC特殊 とくしゅ 文字 もじ や IBM拡張 かくちょう 文字 もじ はもともとベンダの独断 どくだん で作 つく られた文字 もじ セットであるが、これがデファクトスタンダードとしての影響 えいきょう 力 りょく を持 も った結果 けっか として[要 よう 出典 しゅってん ] 現在 げんざい では各種 かくしゅ の公的 こうてき な規格 きかく でも全部 ぜんぶ または一部 いちぶ が採用 さいよう されている。
Windows-31J
全 ぜん 83文字 もじ を、13区 く に収録 しゅうろく 。
「≒」「≡」「∫」「√」「⊥」「∠」「∵」「∩」「∪」の9文字 もじ は2区 く にも重複 じゅうふく して収録 しゅうろく 。
「∵」の1文字 もじ はさらに115区 く にも重複 じゅうふく して収録 しゅうろく 。
Unicode
83文字 もじ 全 すべ てを基本 きほん 多言 たげん 語 ご (BMP) 面 めん に収録 しゅうろく 。
JIS X 0212 -1990
「№」の1文字 もじ を2区 く 81点 てん に収録 しゅうろく 。
JIS X 0213:2004
「≒」「≡」「∫」「√」「⊥」「∠」「∵」「∩」「∪」の9文字 もじ は2区 く に収録 しゅうろく 。
「∑ (N-ARY SUMMATION)」の1文字 もじ は収録 しゅうろく されていない。6区 く 18点 てん のギリシャ大文字 おおもじ シグマ「Σ しぐま 」で代用 だいよう できるため。
上記 じょうき 以外 いがい の 73文字 もじ はWindows-31Jと同一 どういつ 区点 くてん (1 区 く )上 じょう に収録 しゅうろく 。
Windows-31J
全 ぜん 388文字 もじ を、2ないし 3重複 じゅうふく して収録 しゅうろく 。
Unicode
388文字 もじ 全 すべ てを基本 きほん 多言 たげん 語 ご 面 めん (BMP) に収録 しゅうろく 。ただし、「羽 はね 」「都 と 」「精 せい 」「祥 さち 」 などその一部 いちぶ はCJK互換 ごかん 漢字 かんじ としての採用 さいよう であり、統合 とうごう 漢字 かんじ において別 べつ の字体 じたい を標準 ひょうじゅん とするコードポイントに包摂 ほうせつ されているものである。Unicodeに基 もと づいてこれらの字体 じたい を特定 とくてい 的 てき に使用 しよう したい場合 ばあい には、統合 とうごう 漢字 かんじ のIVS を用 もち いることが推奨 すいしょう されている。
JIS X 0212 -1990
全 ぜん 388文字 もじ 中 ちゅう 280文字 もじ を収録 しゅうろく 。
このうち漢字 かんじ 部分 ぶぶん は全 ぜん 360文字 もじ 中 ちゅう 279文字 もじ を収録 しゅうろく 。
JIS X 0213:2004
全 ぜん 388文字 もじ 中 ちゅう 304文字 もじ を収録 しゅうろく 。
このうち漢字 かんじ 部分 ぶぶん は全 ぜん 360文字 もじ 中 ちゅう 276文字 もじ を収録 しゅうろく 。
富士通 ふじつう JEF
388文字 もじ 全 すべ てを収録 しゅうろく 。
NEC JIPS
388文字 もじ 全 すべ てを収録 しゅうろく 。
日立製作所 ひたちせいさくしょ KEIS (90)
「'」「"」以外 いがい の386文字 もじ を収録 しゅうろく 。
IBM DBCS-Host
388文字 もじ 全 すべ てを収録 しゅうろく 。
三菱電機 みつびしでんき JSII
388文字 もじ 全 すべ てを収録 しゅうろく 。
BIPROGY Lets-J
388文字 もじ 中 ちゅう 328文字 もじ を収録 しゅうろく 。
JIS X 0208以外 いがい の公的 こうてき 規格 きかく にて登録 とうろく のあるNEC特殊 とくしゅ 文字 もじ 一覧 いちらん
編集 へんしゅう
JIS X 0212-1990に登録 とうろく されているNEC特殊 とくしゅ 文字 もじ (全部 ぜんぶ )
編集 へんしゅう
№
JIS X 0213:2004 に登録 とうろく されているNEC特殊 とくしゅ 文字 もじ (全部 ぜんぶ )
編集 へんしゅう
① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ ⑪ ⑫ ⑬ ⑭ ⑮ ⑯ ⑰ ⑱ ⑲ ⑳ Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ ㍉ ㌔ ㌢ ㍍ ㌘ ㌧ ㌃ ㌶ ㍑ ㍗ ㌍ ㌦ ㌣ ㌫ ㍊ ㌻ ㎜ ㎝ ㎞ ㎎ ㎏ ㏄ ㎡ ㍻ 〝 〟 № ㏍ ℡ ㊤ ㊥ ㊦ ㊧ ㊨ ㈱ ㈲ ㈹ ㍾ ㍽ ㍼ ≒ ≡ ∫ ∮ √ ⊥ ∠ ∟ ⊿ ∵ ∩ ∪
JIS X 0208以外 いがい の公的 こうてき 規格 きかく にて登録 とうろく のあるIBM拡張 かくちょう 文字 もじ 一覧 いちらん
編集 へんしゅう
人名 じんめい 用 よう 漢字 かんじ (2004年 ねん 改正 かいせい )に登録 とうろく されているIBM拡張 かくちょう 文字 もじ (全部 ぜんぶ )
編集 へんしゅう
寬 ひろし 薰 かおる 瀨 せ 增 ぞう 德 とく 賴 よりゆき 朗 ろう 橫 よこ 黑 くろ 緖 いとぐち 諸 しょ 祥 さち 神 かみ 都 と 福 ふく 郞 ろう
JIS X 0212-1990に登録 とうろく されているIBM拡張 かくちょう 文字 もじ (全部 ぜんぶ )
編集 へんしゅう
№ 丨 仡 伀 伃 伹 佖 侊 侒 侔 侚 俉 俍 俿 倞 倢 偀 偂 偆 偰 傔 僘 兊 兤 冝 冾 刕 劜 劦 劯 勀 勛 匀 卲 厓 厲 叝 咜 咩 哿 喆 坥 垬 埇 埈 墲 夋 奓 奛 奝 奣 妤 妺 孖 寀 寘 尞 岦 岺 崧 嵂 嵭 嶸 嶹 巐 弡 弴 彅 彧 忞 恝 悊 惕 惞 惲 愑 愰 愷 憘 戓 抦 揵 摠 撝 擎 昀 昉 昕 昞 昤 昮 昱 晗 晙 曻 晳 暙 暠 暲 暿 曺 朎 杦 枻 柀 桒 桄 棈 棏 楨 榘 槢 樰 橆 橳 橾 櫤 毖 氿 汜 汯 沆 泚 洄 浯 涇 涖 涬 淏 淼 渧 渹 渼 湜 溿 澈 澵 濵 瀅 瀇 炅 炫 焄 焏 煆 煇 煜 燁 燾 犱 犾 猤 獷 玽 珉 珒 珖 珣 珵 琇 琦 琩 琪 琮 瑢 璉 璟 甯 畯 皛 皜 皦 睆 砡 硎 硤 硺 禔 禛 竑 竫 箞 絈 絜 綷 繒 纊 罇 羡 茁 荿 菇 菶 葈 蒴 蓜 蕓 蕙 蕫 裵 褜 訒 訷 詹 誧 誾 諟 諶 譓 賰 贒 軏 遧 鄧 釗 釚 釞 釤 釥 釭 釮 鈆 鈊 鈐 鈹 鈺 鈼 鉀 鉎 鉑 鉙 鉧 鉷 鉸 銈 銧 鋐 鋓 鋕 鋗 鋙 鋠 鋧 鋹 鋻 鋿 錂 錝 錞 錡 錥 鍈 鍗 鍰 鎤 鏆 鏞 鏸 鐱 鑅 鑈 隝 隯 霳 靃 靏 靕 顗 顥 餧 驎 髜 魵 鮏 鮱 鮻 鰀 鵫 鵰 鸙
JIS X 0213:2004に登録 とうろく されているIBM拡張 かくちょう 文字 もじ (全部 ぜんぶ )
編集 へんしゅう
ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ ⅹ Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ ¬ ¦ ' " ㈱ № ℡ ∵ 丨 仡 伃 佖 侊 侔 俉 偀 傔 兊 冝 刕 勛 匀 匇 厓 厲 咜 咩 哿 喆 﨏 埇 埈 塚 づか 增 ぞう 奝 妤 孖 寘 寬 ひろし 尞 岺 崧 﨑 嵓 嵭 嶸 弴 彅 彧 德 とく 忞 惕 愰 愷 揵 摠 擎 昀 昉 昕 昞 昤 昱 曻 晙 晥 晳 暠 暲 曺 朗 ろう 杦 枻 柀 栁 桒 棈 楨 﨔 槢 橫 よこ 橳 櫤 毖 汜 沆 洄 涇 涬 淼 湜 澈 濵 瀅 瀨 せ 炅 炫 焏 煆 煇 煜 凞 燁 燾 犾 猪 いのしし 珉 珖 珣 琇 琦 琪 琮 瑢 璉 璟 甁 びん 甯 畯 皛 皞 皦 睆 硎 神 かみ 祥 さち 福 ぶく 竫 箞 絈 絜 綠 みどり 緖 いとぐち 繒 纊 罇 茁 荢 菇 葈 蒴 蕙 﨟 薰 かおる 裵 褜 訒 訷 詹 誧 諟 諶 諸 しょ 賴 よりゆき 贒 郞 ろう 都 と 鄕 鄧 釗 釤 釥 釭 鈐 鈹 鈺 鈼 鉀 鉸 銈 鋓 鋠 鋿 錡 錥 鍈 鍰 鏆 鏞 隆 たかし 隝 霳 霻 靍 靏 顗 顥 馞 驎 魲 魵 鮏 鰀 鵰 黑 くろ 伀 侒 侚 倞 倢 偂 偆 偰 劦 劯 匤 咊 垬 夋 奛 寀 岦 嵂 嶹 悊 惲 憘 抦 撝 晗 暙 暿 桄 﨓 棏 榘 樰 橆 橾 氿 泚 淏 渧 渼 溿 澵 瀇 炻 焄 犱 獷 皜 砡 硤 礰 禔 禛 竑 竧 綷 荿 蓜 蕓 蘒 﨡 誾 譿 賰 﨤 釚 釮 鈊 鉎 鉑 鉙 鉧 銧 鋐 鋗 鋙 鋧 鋹 鋻 錂 錝 錞 鍗 鑅 隯 靕 髜 鮱 鵫 鸙
CP932に定義 ていぎ されているが、JIS X 0212・JIS X 0213にない文字 もじ
編集 へんしゅう
JIS X 0213で字形 じけい が包摂 ほうせつ されているものも含 ふく む。
∑ 仼 僴 凬 坙 峵 悅 えつ 愠 敎 きょう 昻 櫢 淲 淸 きよし 皂 蠇 赶 閒 あいだ 靑 あお 髙 﨎 晴 はれ 益 えき 礼 靖 やすし 精 せい 羽 わ 﨣 逸 いっ 﨧 﨨 﨩 飯 めし 飼 館 かん 鶴
CP932においては、95 - 114区 く までの1880文字 もじ の領域 りょういき が「利用 りよう 者 しゃ 定義 ていぎ 領域 りょういき (外字 がいじ 領域 りょういき )」となっている。
Unicodeとの変換 へんかん について、Windows API の仕様 しよう では、BMP 面 めん の私用 しよう 領域 りょういき 6400文字 もじ 分 ぶん の領域 りょういき の先頭 せんとう から1880文字 もじ 目 め までと、95 - 114区 く の当 とう 領域 りょういき を1対 たい 1の写像 しゃぞう 変換 へんかん するようになっている。
Windows-31J以外 いがい のベンダ拡張 かくちょう シフトJIS
編集 へんしゅう
Apple Computer は自社 じしゃ のコンピュータのOSとしてMS-DOSやCP/M-86を採用 さいよう しなかったが、Macintosh が用 もち いる文字 もじ コードとしてシフトJISを利用 りよう した。
そのMacintosh(漢字 かんじ Talk 7.1 以降 いこう )搭載 とうさい のシフトJISの9 - 15区 く にはアップルコンピュータ独自 どくじ の特殊 とくしゅ 文字 もじ が登録 とうろく されている。このエリアには13区 く が含 ふく まれるため、Windows-31Jの「NEC特殊 とくしゅ 文字 もじ 」領域 りょういき と被 こうむ っている。文字 もじ の例 れい を挙 あ げれば、NEC特殊 とくしゅ 文字 もじ の「① 」は Apple特殊 とくしゅ 文字 もじ の「㈰ 」が同 おな じコードポイント に登録 とうろく されている。さらに、117区 く に「縦 たて 書 が き用 よう 文字 もじ 」が登録 とうろく されている点 てん も Windows-31J と異 こと なる。IBM拡張 かくちょう 文字 もじ の領域 りょういき は存在 そんざい しない[ 7] 。この文字 もじ コードについては、MacJapanese を参照 さんしょう のこと。
漢字 かんじ Talk 6以前 いぜん のMacintosh では、NEC互換 ごかん のシフトJISが使 つか われており、13区 く のNEC特殊 とくしゅ 文字 もじ もMacintosh上 じょう で利用 りよう できた。macOS 標準 ひょうじゅん ウェブブラウザ のSafari では、Mac用 よう シフトJIS (MacJapanese) で表示 ひょうじ するのか、Windows-31Jで表示 ひょうじ するのかを選択 せんたく できる。
富士通 ふじつう のMS-DOS搭載 とうさい コンピュータのOEMコードページ932として使 つか われる文字 もじ コードに、「R90」というものがある。これはFMRシリーズで利用 りよう された。この符号 ふごう 化 か 文字 もじ 集合 しゅうごう の特徴 とくちょう は、87 - 93区 く に「OASYS 拡張 かくちょう 文字 もじ 」の領域 りょういき を持 も つことである。ベースとなる文字 もじ 集合 しゅうごう はJIS X 0208-1990 であるが、第 だい 一 いち 水準 すいじゅん 漢字 かんじ の中 なか で「78⇔83非 ひ 入 いれ 替 がえ 文字 もじ 」でない漢字 かんじ (203文字 もじ )の字形 じけい をJIS C 6226-1978に合 あ わせてある点 てん に特色 とくしょく がある。なお、富士通 ふじつう のマニュアル等 とう では、「R90」のことを「SJIS (R90)」と呼 よ び、「Windows-31J」のことを「SJIS (MS)」と呼 よ んで区別 くべつ している。
NTTドコモ のiモード は標準 ひょうじゅん 日本語 にほんご コードにシフトJISを採用 さいよう している。この文字 もじ 集合 しゅうごう においてはJIS X 0208-1990 を以下 いか のように拡張 かくちょう している。
13区 く にPC-9800シリーズ用 よう の特殊 とくしゅ 文字 もじ が搭載 とうさい されている。NEC選定 せんてい IBM 拡張 かくちょう 文字 もじ は搭載 とうさい されていない。
112 - 114区 く に絵文字 えもじ を登録 とうろく している。この 112 - 114区 く というのは、CP932における 95 - 114区 く にある1880文字 もじ のユーザ外字 がいじ 登録 とうろく 領域 りょういき の最 さい 後尾 こうび の位置 いち に当 あ たる。
京 きょう セラ のPHS ・AH-K3001V の搭載 とうさい するシフトJIS は、9 - 13区 く にPC-9800シリーズ用 よう の特殊 とくしゅ 文字 もじ が搭載 とうさい されている。
文字 もじ コード 5C と 7E については、ASCII とも JIS X 0201 とも違 ちが う文字 もじ が登録 とうろく されている[要 よう 検証 けんしょう – ノート ] 。日本人 にっぽんじん の多 おお くが「ASCII 文字 もじ 」と呼 よ んでいるものは実 じつ は、「Windows -31J 文字 もじ 」であるということも言 い われている。(しかし少 すく なくともIANA における Windows -31J の定義 ていぎ は JIS X 0201を用 もち いるものである)
マイクロソフトが規定 きてい するCP932に関連 かんれん があるコード
編集 へんしゅう
E いー メールで用 もち いるために7ビットコードで「Windows-31J」の文字 もじ 集合 しゅうごう (=マイクロソフト標準 ひょうじゅん キャラクタセット [ 8] )を表現 ひょうげん した「CP50220 」や、GR領域 りょういき にマイクロソフト標準 ひょうじゅん キャラクタセットを表現 ひょうげん した「CP51932 」というものがある。これらは、マイクロソフトのInternet Explorer や、EmEditor 、秀 しゅう 丸 まる エディタ などのWindowsアプリケーションで利用 りよう されている。
Internet Explorer 6.0(日本語 にほんご 版 ばん )における表記 ひょうき と Microsoft コードページの対応 たいおう
IE6.0における表記 ひょうき
マイクロソフトのコードページ
文字 もじ 集合 しゅうごう と符号 ふごう 化 か 方式 ほうしき
日本語 にほんご (シフト JIS)
CP932
マイクロソフト標準 ひょうじゅん キャラクタセットをシフト符号 ふごう 化 か 表現 ひょうげん
日本語 にほんご (JIS)
CP50220
マイクロソフト標準 ひょうじゅん キャラクタセットをRFC1468 符号 ふごう 化 か 表現 ひょうげん
日本語 にほんご (EUC)
CP51932
マイクロソフト標準 ひょうじゅん キャラクタセットをGR表現 ひょうげん [ 9]
Unicode
CP1200
Unicode をUTF-16 (Little Endian) で符号 ふごう 化 か
Unicode (Big-Endian)
CP1201
UnicodeをUTF-16 (Big Endian) で符号 ふごう 化 か
Unicode (UTF-8)
CP65001
UnicodeをUTF-8 で符号 ふごう 化 か
^ メインフレームにて搭載 とうさい されている符号 ふごう 化 か 文字 もじ 集合 しゅうごう 。単 たん に「IBM漢字 かんじ 」と呼 よ ばれることも多 おお い。IBM コードページ300という管理 かんり 番号 ばんごう が割 わ り振 ふ られている。日本語 にほんご カナ版 ばん EBCDIC(IBMコードページ290)と組 く み合 あ わせて IBMコードページ930 として用 もち いられたり、日本語 にほんご 英 えい 小文字 こもじ 版 ばん EBCDIC(IBMコードページ1027)と組 く み合 あ わせてIBMコードページ939として用 もち いられることが多 おお い。
^ マイクロソフトおよびIBMは、それぞれ独自 どくじ に「コードページ###(#は数字 すうじ )」という形 かたち で、符号 ふごう 化 か 文字 もじ 集合 しゅうごう を管理 かんり している。また、同 おな じ番号 ばんごう のコードページ同士 どうし が同 おな じ文字 もじ 集合 しゅうごう を指 さ しているわけではない。
^ JIPS は、NECが1979年 ねん に開発 かいはつ したメインフレーム 用 よう の日本語 にほんご 処理 しょり システムの名前 なまえ だが、ここではそのシステムで使 つか われる符号 ふごう 化 か 文字 もじ 集合 しゅうごう を以ってJIPSと呼 よ ぶ。JIPSでは「JIS C 6226-1978 」がGLに呼 よ び出 だ され、その9 - 13区 く に特殊 とくしゅ 文字 もじ が実装 じっそう され、また、GR領域 りょういき に「G1集合 しゅうごう 」と呼 よ ばれる拡張 かくちょう 漢字 かんじ 領域 りょういき が実装 じっそう されている。
^ NECとしては、JIPSのG1集合 しゅうごう を収 おさ める方 ほう が建前 たてまえ として良 よ かったのかもしれない。しかし、CP/M-86やMS-DOSなどのオペレーティングシステム (OS) 搭載 とうさい 機 き においては、符号 ふごう 化 か 方式 ほうしき としてシフトJISが前提 ぜんてい だった。G1集合 しゅうごう 部分 ぶぶん を収 おさ めるには配置 はいち 制約 せいやく を大 おお きく受 う けることになるため断念 だんねん したものと考 かんが えられる。また、漢字 かんじ ROM容量 ようりょう の都合 つごう 上 じょう 、G1集合 しゅうごう 部分 ぶぶん を収 おさ めても利用 りよう することは不可能 ふかのう だったとも考 かんが えられる。
^ Shift_JIS(CP932)でCSVダウンロードできるかな?(Windows機種 きしゅ 依存 いぞん 文字 もじ ) | Chibineko
^ 既存 きそん COBOL資産 しさん を有効 ゆうこう 活用 かつよう した事例 じれい 紹介 しょうかい
^ マイクロソフトはこのコードに対 たい して、コードページ10001という管理 かんり 番号 ばんごう を付与 ふよ している。
^ 本節 ほんぶし では、マイクロソフト標準 ひょうじゅん キャラクタセットが JIS X 0208 のコードポイントを拡張 かくちょう する形 かたち で表現 ひょうげん されているものと仮定 かてい した場合 ばあい の説明 せつめい を行 おこな っている。
^ マイクロソフトは「CP51932」のほかに「CP20932」という EUC-JP に似 に たコードページを有 ゆう している。「CP20932」は上位 じょうい バイト A016進 しん - FE16進 しん 、下位 かい バイト 2016進 しん - 7E16進 しん という 2 バイトの組 く み合 あ わせを利用 りよう することで補助 ほじょ 漢字 かんじ を表現 ひょうげん する。eucJP-openとの対応 たいおう においては、「CP51932」よりも「CP20932」の方 ほう が、レパートリ の一致 いっち 度 ど が高 たか い。