マルチバイト文字もじ

マルチバイト文字もじ（マルチバイトもじ）とは、コンピュータ上うえで

1文字もじを複数ふくすうバイトで表あらわす体系たいけい（文字もじコード）
1文字もじのバイト数すうが可変かへんであるような体系たいけい
そのような体系たいけいで表あらわされる文字もじ

を指さすが、文脈ぶんみゃくにより意味合いみあいが異ことなる。

文字もじ集合しゅうごうにおけるマルチバイト文字もじ編集へんしゅう

ISO 2022の体系たいけいを前提ぜんていとした図形ずけい文字もじ集合しゅうごうにおいて、1文字もじが1バイトの文字もじ集合しゅうごう（英えい: single-byte character set、94文字もじ集合しゅうごうまたは96文字もじ集合しゅうごう）に対たいして、1文字もじが2バイト以上いじょうの文字もじ集合しゅうごうを、マルチバイト文字もじ集合しゅうごう（英えい: multibyte character set）という。94×94文字もじ集合しゅうごう（2バイト）、96×96文字もじ集合しゅうごう（2バイト）、94×94×94文字もじ集合しゅうごう（3バイト）などがこれに該当がいとうするが、実際じっさいには94×94文字もじ集合しゅうごう以外いがいはまれである。

特とくに、1文字もじが2バイトの文字もじ集合しゅうごうを2バイト文字もじ集合しゅうごう（英えい: double-byte character set）といい、以下いかのようなものがある。

なお、2バイト文字もじ集合しゅうごうの文字もじのことを2バイト文字もじと呼よぶことがある。しかし、1バイト文字もじ集合しゅうごうの文字もじであっても、EUC-JPにおけるJIS X 0201カタカナなどのように、符号ふごう化か方式ほうしきによっては一見いっけん1文字もじあたり2バイトであるかのような符号ふごう化かをされることがある。また近年きんねん^[いつ?]では、Unicode で処理しょりすることも多おおい。そのため、文字もじ集合しゅうごうでなく個々ここの文字もじを指さして1バイト文字もじ・2バイト文字もじと表現ひょうげんすることは、混乱こんらんを招まねくことがある。

符号ふごう化か方式ほうしきにおけるマルチバイト文字もじ編集へんしゅう

シングルバイト文字もじとの対比たいひ編集へんしゅう

符号ふごう化か方式ほうしきにおいて、1文字もじが常つねに1バイトとなる符号ふごう化か方式ほうしき^{[注釈ちゅうしゃく 1]}に対たいして、1文字もじが2バイト以上いじょうになることのある符号ふごう化か方式ほうしき、およびそれによって符号ふごう化かされた文字もじ（列れつ）のことを、マルチバイト文字もじ（列れつ）という。

実際じっさいには、ほぼ例外れいがいなく ASCII あるいは ISO 646 をベースとし、バイト値ち 80 - FF_{16進しん法ほう}（あるいはそのサブセット）で始はじまるバイト列れつによりそれ以外いがいの文字もじ集合しゅうごうを表現ひょうげんする。 1文字もじのバイト数すうが可変かへんのため、プログラムでの操作そうさに留意りゅういを要ようする。

符号ふごう化か方式ほうしきであるから厳密げんみつには character set（文字もじ集合しゅうごう）と呼よぶのは不正ふせい確かくだが、とくにIBMやマイクロソフトの用語ようごとして、single-byte character set（単たんバイト文字もじ集合しゅうごう）、double-byte character set（2バイト文字もじ集合しゅうごう）、multibyte character set（多たバイト文字もじ集合しゅうごう）と呼よぶことが多おおい。

以下いかのようなものがある。

Big5（Microsoftコードページ950）
EUC-CN（コードページ936）
EUC-JP
EUC-KR（コードページ949）
ISO-2022-JP
Shift_JIS（コードページ932/942）
UTF-8（多たバイト符号ふごう化か方式ほうしき）

ワイド文字もじとの対比たいひ編集へんしゅう

C言語げんごの規格きかくにおいて、char型かた以上いじょうのサイズを持もつwchar_t型かたを利用りようしたワイド文字もじ（列れつ）に対たいして、char型かたを利用りようして1文字もじあたり1バイト以上いじょうの可変長かへんちょうのバイト列れつとして表あらわしたものをマルチバイト文字もじ（列れつ）という。ワイド文字もじに対たいする用語ようごのため、1文字もじをもっぱら1バイトで表あらわすシングルバイト文字もじであっても、この意味いみではマルチバイト文字もじに含ふくまれる。

ワイド文字もじを内部ないぶ処理しょりに用もちいるプラットフォームもある。ワイド文字もじのサイズが2バイトあるいは4バイトの場合ばあい、本来ほんらい1文字もじごとに1バイトで収おさまるはずのASCII範囲はんいの文字もじにも2バイトあるいは4バイトを費ついやすことになり、少すくなくともASCII範囲はんいに関かんしてはメモリ効率こうりつは劣おとることになるが、処理しょり対象たいしょうのデータ中ちゅうにマルチバイト文字もじで表現ひょうげんすると2バイト以上いじょうを費ついやすような文字もじが多数たすう出現しゅつげんする場合ばあいは、ワイド文字もじを利用りようしたほうが処理しょり効率こうりつもメモリ効率こうりつも高たかくなることがある。

ワイド文字もじおよびマルチバイト文字もじの具体ぐたい的てきな表現ひょうげんは環境かんきょう依存いぞんであり規格きかくには定さだめがない。これらは、実在じつざいする具体ぐたい的てきな文字もじ集合しゅうごうや符号ふごう化か方式ほうしきを分類ぶんるいする用語ようごではなく、固定こてい長ちょうか可変長かへんちょうかという概念がいねんを定義ていぎした用語ようごである。そのため、何なにがワイド文字もじで何なにがマルチバイト文字もじかという考かんがえ方かたではなく、ワイド文字もじの表現ひょうげんとして何なにを使つかい、マルチバイト文字もじの表現ひょうげんとして何なにを使つかうか、という考かんがえ方かたをとる。ワイド文字もじとしては、近年きんねん^[いつ?]では Unicode が使つかわれることが多おおい。マルチバイト文字もじの符号ふごう化か方式ほうしきはロケールに依存いぞんするが、ほとんどの場合ばあいは ASCII あるいは ISO 646 をベースにしたものとなり、日本語にほんごロケールであれば一般いっぱん的てきに Shift_JIS や EUC-JP になる。UTF-8 が用もちいられる場合ばあいもある。

ワイド文字もじは当初とうしょ、文字もじ集合しゅうごうにおけるすべての文字もじを等ひとしいサイズのデータで一様いちように処理しょりできるようにすることを想定そうていしていた。しかし、Unicodeにおいてサロゲートペア、結合けつごう文字もじ、異体いたい字じセレクタといった拡張かくちょう概念がいねんが採用さいようされたことにより、UTF-16やUTF-32といった符号ふごう化か方式ほうしきのデータをワイド文字もじに格納かくのうする場合ばあい、たとえワイド文字もじが16ビットあるいは32ビットのサイズを持もっていたとしても、1つのワイド文字もじだけでは表現ひょうげんできないUnicode文字もじも現あらわれるようになった。文字もじ境界きょうかいの判定はんていや文字数もじすうのカウントなど、プログラム上じょうでの扱あつかいはマルチバイト文字もじと同様どうように注意ちゅういを要ようする。

C言語げんご（C95以降いこう）では、マルチバイト文字もじ（列れつ）の操作そうさのために以下いかのような関数かんすうが規定きていされている。ただし、特とくに日本語にほんごのような2バイト文字もじ集合しゅうごうを含ふくむロケールでは、実装じっそうが不十分ふじゅうぶんで実用じつように耐たえない場合ばあいも多おおい。

mblen
mbtowc
wctomb
mbstowcs
wcstombs

Microsoft Windowsでは、ワイド文字もじが2バイト（16ビット）として定義ていぎされており、符号ふごう化か方式ほうしきにUTF-16を利用りようする。多おおくのWindows APIには、入出力にゅうしゅつりょくインターフェイスとして、システムロケール設定せっていに依存いぞんするマルチバイト文字もじセットを利用りようする関数かんすう・構造こうぞう体たい（シンボル末尾まつびにAが付つけられている）と、Unicode文字もじセットを利用りようする関数かんすう・構造こうぞう体たい（シンボル末尾まつびにWが付つけられている）の両方りょうほうが用意よういされており、ヘッダーファイルをインクルードする際さいに_UNICODEシンボルの定義ていぎ有無うむ^[1]でマルチバイト文字もじセット／Unicode文字もじセットを切きり替かえることのできるプリプロセッサマクロも用意よういされているが、マルチバイト文字もじセット用ようのAPIはWindows 9x系けい向むけに書かかれたコードとの互換ごかん性せいのために残のこされているものであり、またWindows NT系けいでは内部ないぶ処理しょりにUTF-16を使用しようしているため、マルチバイト文字もじセット用ようのAPIを使用しようすると変換へんかんのための余計よけいなオーバーヘッドが増ふえる。Microsoft Visual C++はバージョン7.1 (2003) まではマルチバイト文字もじセットが既定きてい値ちだったが、バージョン8.0 (2005) 以降いこうはUnicode文字もじセットが既定きてい値ちとなった。マルチバイト文字もじ列れつの操作そうさや、ワイド文字もじ列れつとの相互そうご変換へんかんのために以下いかのようなAPI関数かんすうが提供ていきょうされている。

MultiByteToWideChar
WideCharToMultiByte
CharNextA
CharPrevA

シンボル末尾まつびにAが付つけられたマルチバイト文字もじセット用ようAPI関数かんすうは、コードページ番号ばんごうを明示めいじ的てきに指定していできず、動作どうさはシステムロケール設定せっていに依存いぞんする。

Unicode 編集へんしゅう

近年きんねん^[いつ?]、符号ふごう化か文字もじ集合しゅうごうとしての ISO 10646（Unicode）、およびその符号ふごう化か方式ほうしき（UTF-8、UTF-16など）が広ひろく使つかわれている。

文字もじ集合しゅうごうとしての ISO 10646 は、1バイト=1オクテット（8ビット）と定義ていぎすれば、一応いちおうマルチバイト文字もじ集合しゅうごうということはできる。しかし、現実げんじつ的てきには、1バイト文字もじ集合しゅうごうとマルチバイト文字もじ集合しゅうごうという分類ぶんるいの前提ぜんていとなっているのは、「1バイト文字もじ集合しゅうごう（ASCII、ISO 646）を基本きほんとしつつマルチバイト文字もじ集合しゅうごうを導入どうにゅうする」という命題めいだいであり、単たん一文字ひともじ集合しゅうごうである Unicode を採用さいようする時点じてんでこの前提ぜんてい自体じたいが崩くずれている。

符号ふごう化か方式ほうしきとしては、シングルバイトの符号ふごう化か方式ほうしきと対比たいひした場合ばあい、UTF-8 などはマルチバイトの符号ふごう化か方式ほうしきといえる。UTF-16 などは ASCII 互換ごかんでないため考慮こうりょされないことが多おおい。また、ワイド文字もじの文脈ぶんみゃくでは、一般いっぱんにワイド文字もじとしては UTF-16 や UTF-32 を使つかい、マルチバイト文字もじとしては、UTF-8 などを使つかう場合ばあいと、従来じゅうらいの Shift_JIS などを使つかう場合ばあいとがある。

脚注きゃくちゅう編集へんしゅう

[脚注きゃくちゅうの使つかい方かた]

注釈ちゅうしゃく編集へんしゅう

^ ISO 8859/1、Windows コードページ1252、Macintosh Roman など

出典しゅってん編集へんしゅう

^ “Unicode Programming Summary” (英語えいご). Microsoft Docs. 2019年ねん7月がつ15日にち閲覧えつらん。

マルチバイト文字もじ

目次もくじ

文字もじ集合しゅうごうにおけるマルチバイト文字もじ編集へんしゅう

符号ふごう化か方式ほうしきにおけるマルチバイト文字もじ編集へんしゅう

シングルバイト文字もじとの対比たいひ編集へんしゅう

ワイド文字もじとの対比たいひ編集へんしゅう

Unicode 編集へんしゅう

脚注きゃくちゅう編集へんしゅう

注釈ちゅうしゃく編集へんしゅう

出典しゅってん編集へんしゅう

関連かんれん項目こうもく編集へんしゅう

マルチバイト文字もじ

文字もじ集合しゅうごうにおけるマルチバイト文字もじ 編集へんしゅう

符号ふごう化か方式ほうしきにおけるマルチバイト文字もじ 編集へんしゅう

シングルバイト文字もじとの対比たいひ 編集へんしゅう

ワイド文字もじとの対比たいひ 編集へんしゅう

Unicode 編集へんしゅう

脚注きゃくちゅう 編集へんしゅう

注釈ちゅうしゃく 編集へんしゅう

出典しゅってん 編集へんしゅう

関連かんれん項目こうもく 編集へんしゅう

文字もじ集合しゅうごうにおけるマルチバイト文字もじ編集へんしゅう

符号ふごう化か方式ほうしきにおけるマルチバイト文字もじ編集へんしゅう

シングルバイト文字もじとの対比たいひ編集へんしゅう

ワイド文字もじとの対比たいひ編集へんしゅう

脚注きゃくちゅう編集へんしゅう

注釈ちゅうしゃく編集へんしゅう

出典しゅってん編集へんしゅう

関連かんれん項目こうもく編集へんしゅう