UTF-7
Unicode |
---|
|
UTF-7 |
UTF-8 |
CESU-8 |
UTF-16 |
UTF-32 |
UTF-EBCDIC |
SCSU |
Punycode (IDN/IDNA) |
GB 18030 |
その |
UCS |
マッピング |
|
BOM |
|
UnicodeとHTML |
Unicodeと |
Unicodeフォント |
UTF-7(ユーティーエフなな、ユーティーエフセブン)はISO/IEC 10646(UCS)とUnicodeで
7ビットでしか
IMAP4では、UTF-7を
機能
[- 62
個 のアルファベットと9個 の記号 (' ( ) , - . / : ?)はそのまま表記 する。 - それ
以外 の文字 はUTF-16のビッグエンディアンで符号 化 し、修正 BASE64で符号 化 する。修正 BASE64とは=を入 れないBASE64エンコーディング形式 である。 - BASE64の
文字 の前 に「+」後 ろに「-」を置 く。 - 「+」の
文字 自体 は「+-」で表現 する。
例
[- 「Hello, World!」は「Hello, World!」とそのまま
表記 できる。 - 「1 + 1 = 2」は「1 +- 1 = 2」になる(「+」は「+-」になる)。
- 「£1」は「+AKM-1」になる。ポンド
記号 はU+00A3はBase64で表記 する。あまった2ビットは0で埋 められる。
Hex digit | 0 | 0 | A | 3 | ||||||||||||||
Bit pattern | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0 | 0 |
Index | 0 | 10 | 12 | |||||||||||||||
Base64-Encoded | A | K | M |
変換 方法
[エンコード
[「£†」(U+00A3 U+2020)の
£ ≡ 0x00A3 |
0000 0000 1010 0011
|
UTF-16BEによる |
†≡ 0x2020 |
0010 0000 0010 0000
| |
£† |
0000000010100011 0010000000100000 |
|
0000000010100011 0010000000100000 |
000000 001010 001100 100000 001000 00 |
|
000000 001010 001100 100000 001000 00 |
000000 001010 001100 100000 001000 000000 |
|
000000 001010 001100 100000 001000 000000 |
AKMgIA |
base64の |
デコード
[AKMgIA |
000000 001010 001100 100000 001000 000000 |
base64の |
000000 001010 001100 100000 001000 000000 |
0000000010100011 0010000000100000 0000 |
|
0000000010100011 0010000000100000 0000 |
0000000010100011 0010000000100000 |
|
0000 0000 1010 0011 |
0x00A3 ≡ £
|
16ビット |
0010 0000 0010 0000 |
0x2020 ≡†
| |
0000000010100011 0010000000100000 |
£† |
デコード |
修正 UTF-7
[- 「&」
以外 の印字 可能 なUS-ASCII文字 は必 ずそのまま表記 する。 - それ
以外 の文字 はUTF-16のビッグエンディアンで符号 化 し、修正 BASE64で符号 化 する。 - BASE64の
文字 の前 に「&」後 ろに「-」を置 く。 - 「&」の
文字 自体 は「&-」で表現 する。
この
- UTF-7 は、シフトするために
文字 "+" を用 いる; これは、メールボックス名 やUSENETニュースグループ名 での "+" のありふれた使用 と衝突 する。 - UTF-7 の
符号 化 は、文字 "/" を用 いる BASE64である; これは、一般 的 な階層 区切 りとしての "/" の使用 と衝突 する。 - UTF-7 は、
符号 化 されない "\" の使用 を禁 じている; これは、一般 的 な階層 区切 りとしての "\" の使用 と衝突 する。 - UTF-7 は、
符号 化 されない "~" の使用 を禁 じている; これは、いくつかのサーバでホームディレクトリを示 すものとしての "~" の使用 と衝突 する。 - UTF-7 は、
同 じ文字 列 を表現 するための、複数 の別 の形式 を許 している;特 に、印字 可能 な US-ASCII文字 が符号 化 形式 で表現 され得 る。
すなわち
関連 項目
[出典
[脚注
[- ^ RFC 2060, 5.1.3. メールボックスの
国際 的 な命名 規則 (日本語 訳 は http://www.lins.jp/~obata/imap/rfc/rfc2060ja.html#s5.1.3 より引用 )