(Translated by https://www.hiragana.jp/)
ISO/IEC 8859 - Wikipedia コンテンツにスキップ

ISO/IEC 8859

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

ISO 8859-1(より正式せいしきにはISO/IEC 8859-1)はISO/IEC 8859だい一部いちぶさだめられた文字もじコード。ヨーロッパの言語げんごもちいられるラテンアルファベットだい部分ぶぶんふくんでいる。くだけたいいかたではLatin-1ともばれる。

ISO 8859-1に追加ついか文字もじを(16しん符号ふごう0x00-0x1Fの「C0領域りょういき」と、0x80-0x9F「C1領域りょういき」の範囲はんいに)てた文字もじコードにISO-8859-1余分よぶんなハイフンに注意ちゅうい)とWindows-1252がある(後述こうじゅつ)。

ISO 8859-1は、当初とうしょISOによって開発かいはつされたが、のちにISOとIECによって合同ごうどう保守ほしゅされた。2004ねん6がつ、8ビット符号ふごう文字もじ集合しゅうごう整備せいび担当たんとうするISO/IECの作業さぎょう部会ぶかいは、国際こくさい符号ふごう文字もじ集合しゅうごう (UCS) とUnicode開発かいはつ専念せんねんするために解散かいさんし、ISO 8859-1をふくむすべてのISO 8859の整備せいび中止ちゅうしした。コンピュータアプリケーションにおいては、(UTF-8UTF-16のような)完全かんぜんなUCSサポートを提供ていきょうするエンコーディングが、ISO 8859-1にもとづくエンコーディングよりもますますおお使つかわれるようになりつつある。

網羅もうら範囲はんい

[編集へんしゅう]

ISO 8859-1が符号ふごうしているものは「ラテン文字もじだい1」とばれ、ラテン用字ようじけいの191文字もじからなる。この文字もじエンコーディングはアメリカしゅう西にしヨーロッパオセアニア、およびアフリカおおくで使つかわれている。ひがしアジア言語げんごのほとんどの標準ひょうじゅんマ字まじ表記ひょうきでもひろ使つかわれている。

かく文字もじ単一たんいつの8ビット符号ふごう符号ふごうされる。これらの符号ふごうは、データ交換こうかんシステムが以下いかのヨーロッパ言語げんご通信つうしんするさい需要じゅようをほぼたす が、りない文字もじのためにわずかな例外れいがいがある。これについては注記ちゅうき参照さんしょうされたい。

現代げんだいのアルファベットを完全かんぜん網羅もうらしている言語げんご

[編集へんしゅう]

アルファベットをほぼ完全かんぜんにカバーしているためひろ対応たいおうしている言語げんご

[編集へんしゅう]
  • オランダ(「IJ」「ij」がりないがこれらは電子でんし形式けいしきではつねに「IJ」や「ij」として表現ひょうげんされるべきである)
  • エストニア外来がいらい使つかわれる「Š」「š」「Ž」「ž」がりない)
    • Windows-1252とISO/IEC 8859-15はこれらをふくむことに注意ちゅうい
  • フランス語ふらんすご(「Œ」「œ」およびきわめてまれな「Ÿ」がりない; これらは一般いっぱん通常つうじょう必要ひつようなリガチャなしで「OE」や「oe」にえられ、トレマなしで「Y」にえられる)
    • Windows-1252とISO-8859-15はこれらをふくむことに注意ちゅうい
  • フィンランド外来がいらい使つかわれる「Š」「š」「Ž」「ž」がりない)
    • Windows-1252とISO-8859-15はこれらをふくむことに注意ちゅうい

やくもの引用いんよう範囲はんい

[編集へんしゅう]

引用いんようとしては「«」「»」、「"」「'」のみをふくみ、上述じょうじゅつ言語げんご印刷いんさつもちいられていた引用いんようふくまない。

また、このエンコーディングはアポストロフィーと方向ほうこうたん引用いんよう提供ていきょうしない。

しかし、テキストちゅうで6がた/9がた引用いんようやアポストロフィーのわりに前進ぜんしんきグレイヴ・アクセントと前進ぜんしんきアキュート・アクセント(これらはどちらもISO 8859-1にふくまれる)を使つかうやりかたもある。なお、このやりかただと、これらの文字もじかたむいたくさびがたのグリフで表示ひょうじされる書体しょたいでもうまく表示ひょうじできる。

歴史れきし

[編集へんしゅう]

ISO 8859-1はDEC有名ゆうめいVT220英語えいごばん端末たんまつ使つかわれていたMultinational Character Set英語えいごばんをもとにつくられた。開発かいはつ欧州おうしゅう電子でんし計算けいさん工業こうぎょうかい(ECMA、げんEcmaインターナショナル)と米国べいこく国家こっか規格きかく協会きょうかい共同きょうどうおこない、1984ねん12がつECMA-94として制定せいてい、1985ねん3がつにECMA-94として出版しゅっぱんされた。ただし、この時点じてんのECMA-94は、13/07「×」と15/07「÷」をふくんでいなかった。1986ねん6がつにECMA-94は改定かいていされており、 ECMA-94 だいはん規格きかく一部いちぶとしてISO/IEC 8859-2ISO/IEC 8859-3、およびISO/IEC 8859-4をもふくんでいる。

ECMA-94の一部いちぶであるISO 8859-1およびISO 8859-2は、1987ねん2がつ15にちにISOの国際こくさい規格きかくとして制定せいていされた。また、ISO 8859-3およびISO 8859-4は、すこおくれて1988ねん4がつ15にち制定せいていされている。

ISO/IEC 8859-15との関係かんけい

[編集へんしゅう]

ISO/IEC 8859-1にはほとんどのフランス語ふらんすごテキストの表記ひょうき十分じゅうぶん文字もじふくまれているが、使用しよう頻度ひんどひく少数しょうすう文字もじけている。文字もじ IJ単一たんいつグリフによる表現ひょうげん外国がいこく固有名詞こゆうめいし少数しょうすう外来がいらい使つかわれるフィンランド文字もじŠŽ)、印刷いんさつよう引用いんようダッシュ、およびユーロ記号きごう (en) () やダガー (†) のようなよく使つかわれる記号きごう不足ふそくしている。

ISO/IEC 8859-15はISO/IEC 8859-1の更新こうしんばんとして開発かいはつされ、これらの文字もじのいくつかを提供ていきょうした。しかしそのためには、ISO/IEC 8859-1からあまり使つかわれない文字もじをいくつかのぞ必要ひつようがあった。のぞかれた文字もじ以下いかとおりで、分数ぶんすう記号きごう単独たんどくのダイアクリティカルマークがふくまれる。¤, ¦, ¨, ´, ¸, ¼, ½, ¾ である。

符号ふごうひょう

[編集へんしゅう]

ISO/IEC 8859-1によって符号ふごうされる191文字もじはすべて「図形ずけい」(graphic。制御せいぎょ符号ふごうでない文字もじあらわすISOの用語ようご)であり、かつほとんどのWebブラウザと互換ごかんせいがあるため、以下いかひょうグリフとしてしめすことができる。空白くうはくノーブレークスペース、およびソフトハイフン文字もじ通常つうじょう不可視ふかしなので、その名前なまえ省略形しょうりゃくけいによって表現ひょうげんしてある。すべてのほか文字もじはそのまま表現ひょうげんしてある。くだり見出みだしとれつ見出みだしは8ビット符号ふごうつくすための16進数しんすうによるけたわせをしめす。たとえば、文字もじ L符号ふごう 4C である。

ISO/IEC 8859-1
x0 x1 x2 x3 x4 x5 x6 x7 x8 x9 xA xB xC xD xE xF
0x 使用しよう
1x
2x SP ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ A B C D E F G H I J K L M N O
5x P Q R S T U V W X Y Z [ \ ] ^ _
6x ` a b c d e f g h i j k l m n o
7x p q r s t u v w x y z { | } ~
8x 使用しよう
9x
Ax NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ SHY ® ¯
Bx ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
Cx À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
Dx Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
Ex à á â ã ä å æ ç è é ê ë ì í î ï
Fx ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

符号ふごう00–1F, 7F–9FはISO/IEC 8859-1では文字もじてていない。

下位かい領域りょういきの20から7E(G0部分ぶぶん集合しゅうごう)はISO 646 USばん通称つうしょうASCII)のG0部分ぶぶん集合しゅうごう正確せいかくおなじマッピングである。ISO 2022指示しじシーケンスは"ESC ( B"。上位じょうい領域りょういきのA0からFF(G1部分ぶぶん集合しゅうごう)はISO 2022のシーケンス"ESC . A"で指示しじされる部分ぶぶん集合しゅうごう正確せいかくおなじマッピングである。

関連かんれんする文字もじマッピング

[編集へんしゅう]

ISO/IEC 8859-1標準ひょうじゅんは、ながあいだ多数たすう文字もじマッピング別名べつめいキャラクタセットcharsets、もしくはコードページ)の基盤きばんとなってきた。キャラクタセットのうちもっとも有名ゆうめいなものは ISO-8859-1Windows-1252である。これらのマッピングはどちらもISO/IEC 8859-1の上位じょうい集合しゅうごうである。すなわち、これらは00–1F, 7F, および 80〜9F範囲はんいにある符号ふごうすくなくとも一部いちぶ追加ついか文字もじをマッピングすることにより、標準ひょうじゅんの191文字もじてを追加ついかする。

1992ねんInternet Assigned Numbers Authority文字もじマッピングISO_8859-1:1987インターネット使つかうために登録とうろくした。ISO_8859-1:1987はISO 8859-1の上位じょうい集合しゅうごうであり、その推奨すいしょうMIMEISO-8859-1(ISO 8859-1に余分よぶんなハイフンがいていることに注意ちゅうい)でよりひろられている。この写像しゃぞうはC0およびC1制御せいぎょ文字もじ符号ふごう00–1F, 7F, および80–9Fにてている。8ビットで可能かのうなあらゆるてをしているため、256文字もじ提供ていきょうしていることになる。

ISO-8859-1は(すくなくとも規格きかくによると)HTTP経由けいゆ配信はいしんされ、"text/"ではじまるMIMEタイプ文書ぶんしょにおける既定きていのエンコーディングである。ISO-8859-1はあるしゅ記述きじゅつてきなHTTPヘッダの既定きていのエンコーディングであり、この文字もじ集合しゅうごう使つかうロケールのほとんどのUNIXマシンじょうX Window Systemによって使つかわれる標準ひょうじゅんエンコーディングである。ISO-8859-1はさらにHTML 3.2文書ぶんしょゆるされる文字もじレパートリのもとになっている(しかしながら、HTML 4.0はUnicodeもとづく)。

エスケープシーケンス(ISO/IEC 6429やISO/IEC 2022由来ゆらいする)はISO-8859-1で符号ふごうされているとラベル付らべるつけされた文書ぶんしょでは解釈かいしゃくされない。上述じょうじゅつ正式せいしき名称めいしょう推奨すいしょうMIMEめいばかりでなく、以下いかのような別名べつめいがISO-8859-1のために登録とうろくされている: ISO_8859-1, ISO-8859-1, iso-ir-100, csISOLatin1, latin1, l1, IBM819, CP819. ISO-8859-1はISO/IEC 10646Unicode最初さいしょの256符号ふごう位置いちにもまれた。

符号ふごう 制御せいぎょ文字もじ 省略形しょうりゃくけい
00 空文字くうもじ Null character NUL
01 ヘッダ開始かいし Start of Heading SOH
02 テキスト開始かいし Start of Text STX
03 テキスト終了しゅうりょう End of Text ETX
04 伝送でんそう終了しゅうりょう End of Transmission EOT
05 わせ Enquiry ENQ
06 肯定こうてい応答おうとう Acknowledge character|Acknowledge ACK
07 ベル Bell character BEL
08 1文字もじ後退こうたい Backspace BS
09 水平すいへいタブ Tab TAB
0A 改行かいぎょう Line Feed LF
0B 垂直すいちょくタブ Vertical Tab VT
0C 書式しょしきおく Form Feed FF
0D 復帰ふっき Carriage Return CR
0E シフトアウト Shift Out SO
0F シフトイン Shift In SI
10 データリンク拡張かくちょう Data Link Escape DLE
11 装置そうち制御せいぎょ1 Device Control 1 DC1
12 装置そうち制御せいぎょ2 Device Control 2 DC2
13 装置そうち制御せいぎょ3 Device Control 3 DC3
14 装置そうち制御せいぎょ4 Device Control 4 DC4
15 否定ひてい応答おうとう Negative-acknowledge character NAK
16 同期どうき信号しんごう Synchronous Idle SYN
17 伝送でんそうブロック終了しゅうりょう End of Transmission Block ETB:
18 キャンセル Cancel character CAN
19 媒体ばいたい終端しゅうたん End of Medium EM
1A 置換ちかん Substitute (character) SUB
1B エスケープ Escape character ESC
1C ファイルセパレータ File Separator FS
1D グループセパレータ Group Separator GS
1E レコードセパレータ Record Separator RS
1F ユニットセパレータ Unit Separator US
7F 削除さくじょ Delete DEL
 
符号ふごう 制御せいぎょ文字もじ 省略形しょうりゃくけい
80 Padding Character PAD
81 High Octet Preset HOP
82 Break Permitted Here BPH
83 No Break Here NBH
84 Index IND
85 Next Line NEL
86 Start of Selected Area SSA
87 End of Selected Area ESA
88 Character Tabulation Set HTS
89 Character Tabulation with Justification HTJ
8A Line Tabulation Set VTS
8B Partial Line Forward PLD
8C Partial Line Backward PLU
8D Reverse Line Feed RI
8E Single Shift 2 SS2
8F Single Shift 3 SS3
90 Device Control String DCS
91 Private Use 1 PU1
92 Private Use 2 PU2
93 Set Transmit State STS
94 Cancel Character CCH
95 Message Waiting MW
96 Start of Guarded Area SPA
97 End of Guarded Area EPA
98 Start of String SOS
99 Single Graphic Character Introducer SGCI
9A Single Character Introducer SCI
9B Control Sequence Introducer CSI
9C String Terminator ST
9D Operating System Command OSC
9E Privacy Message PM
9F Application Program Command APC

ちゅう: これらの制御せいぎょ文字もじのほとんどは、移植いしょく可能かのうなISO-8859-1で符号ふごうされたプレーンテキスト文書ぶんしょ使つかうために設計せっけいされたわけではなく、動作どうさ標準ひょうじゅんされている数個すうこ文字もじ例外れいがいとして、特定とくていのプロトコルや機器ききでのみ使つかわれる。例外れいがいつぎとおり。TAB (09), LF (0A), CR (0D), NEL (85)。TAB以外いがいくだりわりや段落だんらく区切くぎりを符号ふごうするために使つかわれ、TABはしばしばホワイトスペースと等価とうかであるとみなされる。しかしながら FF (0C) もプレーンテキスト文書ぶんしょ解釈かいしゃくするいくつかのアプリケーションで追加ついか無視むし可能かのう行頭ぎょうとうのホワイトスペースとしてひろれられ、印刷いんさつ明示めいじてきあらためページ位置いちしめすために使つかわれる。

また、いくつかのエンコーディングでは、BS (08) を使つかって印刷いんさつ機器ききじょうでの複数ふくすう文字もじかさちをエミュレートすることによって追加ついか文字もじ作成さくせいすることをみとめている。

いくつかのISO標準ひょうじゅん(たとえば ISO 2022)ではいくつかの制御せいぎょ記号きごう特定とくてい機能きのうてている。 SO (0E), SI (0F), DLE (10), ESC (1B) および SS2 (8E) が後続こうぞく文字もじエンコーディングの制御せいぎょや、複数ふくすうのエンコーディングあいだでのえに使つかわれる。

NUL文字もじ (00) はいくつかのプログラミング言語げんごにおける文字もじれつ終端しゅうたんやデータベースレコードのくさとしてひろ使つかわれ、無視むしされなければならず、符号ふごうされたテキストの一部いちぶではない。STX (02) とETX (03) はいくつかの伝送でんそうプロトコルでフレームの区切くぎりとしてひろ使つかわれる。SUB (1A) も入力にゅうりょく伝送でんそうストリームで検出けんしゅつされたエラーをしめすためにひろ使つかわれ、図形ずけいてき描画びょうがされることもある。DC1 (11) とDC3 (13) はXON/XOFFプロトコルで伝送でんそう速度そくど制御せいぎょひろ使つかわれる。最後さいごに、EM (19) やEOT (04) はいくつかのテキストファイル形式けいしきでファイル終端しゅうたんマーカーとして使つかわれることがある。

ISO-8859-1とWindows-1252のちが

[編集へんしゅう]

実際じっさいにはWindows-1252符号ふごうされているのに、あやまってキャラクタセットISO-8859-1のラベルをけることは、きわめてよくあるあやまりである。Windows-1252では、0x80から0x9Fのあいだ符号ふごう文字もじやくもの使つかわれるが、ISO-8859-1では制御せいぎょ符号ふごうである。おおくのWebブラウザや電子でんしメールクライアントはこのようなラベル付らべるつけのあやまりに対応たいおうするため、ISO-8859-1の制御せいぎょ符号ふごうをWindows-1252の文字もじ解釈かいしゃくするが、これは標準ひょうじゅん準拠じゅんきょしたいではなく、ISO-8859-1とラベル付らべるつけされた内容ないようではこういった文字もじ生成せいせいすることをけるよう注意ちゅういはらわれるべきである。

類似るいじのキャラクタセット

[編集へんしゅう]

Apple MacintoshコンピュータはMac OS Roman英語えいごばんばれる文字もじエンコーディングを、1984ねん導入どうにゅうした。Mac Romanは西欧せいおうDTP適切てきせつであることを意図いとしていた。Mac RomanはISO-8859-1と同様どうようASCII上位じょうい集合しゅうごうであり、ISO-8859-1の文字もじをほとんどふくんでいるが、文字もじ配列はいれつ完全かんぜんことなる。Internet Assigned Numbers Authorityが "Macintosh" として登録とうろくした後継こうけいバージョンは国際こくさい通貨つうか記号きごう ¤ をユーロ記号きごう € でえた。ISO 8859-1にふくまれるがこの集合しゅうごうふくまれないわずかな文字もじは、しばしばふるいMacintoshブラウザ(Internet Explorer for Mac最終さいしゅうばんふくむ)でWebサイトじょうのテキストを編集へんしゅうするとき、トラブルのもととなる。しかしながらMacRomanでは、Windows-1252がC1符号ふごう範囲はんい追加ついか文字もじにはすべて対応たいおうしており、わずかに不足ふそくしている少数しょうすう文字もじのぞき、グリフの符号ふごう番号ばんごうをマッピングしなおすことによって、MacintoshでISO-8859-1(C1制御せいぎょ文字もじふくむ)やWindows-1252として符号ふごう/マークされたファイル (および電子でんしメール) を送受信そうじゅしんできる。

DOSにはコードページ850存在そんざいし、これはISO-8859-1がつすべての印字いんじ可能かのう文字もじを (配列はいれつ完全かんぜんことなるものの) ち、くわえてコードページ437もっとひろ使つかわれる図形ずけい文字もじふくむ。

関連かんれん項目こうもく

[編集へんしゅう]

外部がいぶリンク

[編集へんしゅう]