字じ符ふ编码

字じ符ふ编码（英語えいご：Character encoding）、字じ碼、字じ集しゅう碼是これ把わ字じ符ふ集しゅう中なか的てき字じ符ふ为指定してい集合しゅうごう中ちゅう某ぼう一いち对象（例れい如：位い元もと模も式しき、自然しぜん数すう序列じょれつ、八はち位い元もと或ある者もの电脉冲），以便文ぶん本ほん在ざい计算机つくえ中ちゅう存そん储和通どおり过通信つうしん网络的てき传递。有ゆう時じ，為ため強調きょうちょう其所使用しよう的てき方式ほうしき而使用しよう其他術語じゅつご，譬たとえ如：為ため說明せつめい「電腦でんのう系統けいとう『內部』處理しょり文字もじ資料しりょう所しょ使用しよう的てき字じ符ふ編へん碼」時じ，會かい使用しよう內碼。為ため「不同ふどう電腦でんのう系統けいとう之の間あいだ，為ため了りょう『交換こうかん』資料しりょう所しょ採用さいよう的てき字じ符ふ編へん碼」時じ，會かい使用しよう交換こうかん碼。

常つね见的例れい子こ包括ほうかつ将しょう拉ひしげ丁字ていじ母はは表おもて编码成なり摩ま斯电码和わASCII。其中，ASCII将はた字母じぼ、数字すうじ和わ其它符号ふごう編へん號ごう，並なみ用よう7位い元もと的てき二に进制來らい表示ひょうじ这个整数せいすう。通常つうじょう會かい額がく外がい使用しよう一个扩充的位元，以便于以1个字じ节的てき方式ほうしき存そん储。

在ざい计算机つくえ技わざ术发展てん的てき早期そうき，如ASCII（1963年ねん）和わEBCDIC（1964年ねん）这样的てき字じ符ふ集しゅう逐漸成なり為ため標準ひょうじゅん。但ただし这些字じ符ふ集しゅう的てき局限きょくげん很快就变得とく明あかり显，于是人じん们开发了許多きょた方法ほうほう来らい扩展它们。对于支持しじ包括ほうかつ东亚CJK字じ符ふ家族かぞく在ざい内的ないてき写うつし作さく系けい统的てき要求ようきゅう能のう支持しじ更さら大量たいりょう的てき字じ符ふ，并且需要じゅよう一种系统而不是临时的方法实现这些字符的编码。

简单字じ符ふ集しゅう

按照惯例，人にん们认为字符ふ集しゅう和字わじ符ふ编码是ぜ同どう义词，因いん为使用しよう同どう样的标准来き定てい义提供ていきょう什么字じ符ふ并且这些字じ符ふ如何いか编码到一系列的代码单元（通常つうじょう一个字符一个单元）。由よし于历史し的てき原因げんいん，MIME和わ使用しよう这种编码的てき系けい统使用しよう术语字じ符ふ集しゅう来らい表示ひょうじ用よう于将一组字符编码成一系列八位字节数据的整个系统。

现代编码模型もけい

由ゆかり統一とういつ碼和わ通用つうよう字じ符ふ集しゅう所ところ構成こうせい的てき现代字じ符ふ编码模型もけい則そく没ぼつ有ゆう跟从简单字じ符ふ集しゅう的てき观点。它们将はた字じ符ふ编码的てき概念がいねん分ぶん为：有ゆう哪些字じ符ふ、它们的てき编号、这些编号如何いか编码成なり一いち系列けいれつ的てき“码元”（有限ゆうげん大小だいしょう的てき数字すうじ）以及最さい后きさき这些单元如何いか組成そせい八はち位い字じ节流。區分くぶん這些概念的がいねんてき核心かくしん思想しそう是ぜ建立こんりゅう一个能够用不同方法來编码的一个通用字符集。为了正せい确地表示ひょうじ这个模型もけい需要じゅよう更さら多比たび“字じ符ふ集しゅう”和かず“字じ符ふ编码”更さら为精确的术语表示ひょうじ。在ざいUnicode Technical Report (UTR) #17中ちゅう，现代编码模型もけい分ぶん为5个层次じ，所用しょよう的てき术语列れつ在ざい下面かめん：

抽象ちゅうしょう字じ符ふ表ひょう（Abstract character repertoire）是ぜ一个系统支持的所有抽象字符的集合。字じ符ふ表ひょう可か以是封ふう闭的，即そく除じょ非ひ创建一いち个新的てき标准（ASCII和わ多数たすうISO/IEC 8859系列けいれつ都と是ぜ这样的てき例れい子こ），否いや則のり不ふ允まこと许添加てんか新しん的てき符号ふごう；字じ符ふ表ひょう也可以是开放的てき，即そく允まこと许添加てんか新しん的てき符号ふごう（統一とういつ碼和一定いってい程度ていど上じょう代だい碼頁是ぜ这方面ほうめん的てき例れい子こ）。特定とくてい字じ符ふ表ひょう中ちゅう的てき字じ符ふ反映はんえい了りょう如何いか将はた书写系けい统分解ぶんかい成なり线性信しん息いき单元的てき决定。例れい如拉丁ひのと、希まれ腊和斯拉夫おっと字母じぼ表ひょう分ぶん为字母はは、数字すうじ、变音符号ふごう、标点和わ如空格かく这样的てき一些少数特殊字符，它们都と能のう按照一种简单的线性序列排列（尽つき管かん对它们的处理需要じゅよう另外的てき规则，如带有ゆう变音符号ふごう的てき字母じぼ这样的てき特定とくてい序列じょれつ如何いか解かい释——但ただし这不属ぞく于字符ふ表ひょう的てき范畴）。为了方便ほうべん起おこり见，这样的てき字じ符ふ表ひょう可か以包括ほうかつ预先编号的てき字母じぼ和かず变音符号ふごう的てき组合。其它的てき书写系けい统，如阿拉ひしげ伯はく语和希まれ伯はく莱语，由ゆかり于要适应双そう向こう文字もじ和わ在ざい不ふ同情どうじょう形がた下か按照不同ふどう方式ほうしき交叉こうさ在ざい一いち起おこり的てき字形じけい，就使用よう更さら为复杂的符号ふごう表ひょう表示ひょうじ。
编码字じ符ふ集しゅう（CCS:Coded Character Set）是これ将はた字じ符ふ集しゅう $C$ 中ちゅう每まい个字符ふ映うつ射い到いた1个坐标（整数せいすう值对：x, y）或ある者もの表示ひょうじ为1个非负整数すう $N$ 。字じ符ふ集しゅう及码位い映うつ射い称しょう为编码字符ふ集しゅう。例れい如，在ざい一个给定的字符表中，表示ひょうじ大だい写うつし拉ひしげ丁字ていじ母はは“A”的てき字じ符ふ被ひ赋予整数せいすう65、字じ符ふ“B”是ぜ66，如此继续下か去さ。多た个编码字符ふ集しゅう可か以表示ひょうじ同どう样的字じ符ふ表ひょう，例れい如ISO-8859-1和かずIBM的てき代だい码页037和代かずよ码页500含蓋同どう样的字じ符ふ表ひょう但ただし是これ将はた字じ符ふ映うつ射い为不同ふどう的てき整数せいすう。由よし此产生せい了りょう编码空そら间（encoding space）的てき概念がいねん：简单说就是ぜ包含ほうがん所有しょゆう字じ符ふ的てき表ひょう的てき维度。可か以用一对整数来描述，例れい如：GB 2312的てき汉字编码空そら间是94 x 94。可か以用一个整数来描述，例れい如：ISO-8859-1的てき编码空そら间是256。也可以用字ようじ符ふ的てき存そん储单元もと尺寸しゃくすん来らい描述，例れい如：ISO-8859-1是ぜ一いち个8比ひ特とく的てき编码空そら间。编码空そら间还可か以用其子集しゅう来らい表おもて述じゅつ，如行、列れつ、面めん（plane）等とう。编码空そら间中的てき一いち个位置いち（position）称しょう为码位（code point）。一个字符所占用的码位称为码位值（code point value）。1个编码字符ふ集しゅう就是把わ抽象ちゅうしょう字じ符ふ映うつ射い为码位い值。
字じ符ふ编码表ひょう（CEF:Character Encoding Form），也称为"storage format"，是ぜ将はた编码字じ符ふ集しゅう的てき非ひ负整数すう值（即そく抽象ちゅうしょう的てき码位）转换成なり有限ゆうげん比ひ特とく长度的てき整せい型がた值（称しょう为码元code units）的てき序列じょれつ。这对于定长编码来说是个到自身じしん的てき映うつ射い（null mapping），但ただし对于变长编码来らい说，该映射しゃ比ひ较复杂，把わ一些码位映射到一个码元，把わ另外一些码位映射到由多个码元组成的序列。例れい如，使用しよう16比ひ特とく长的存そん储单元もと保存ほぞん数字すうじ信しん息いき，系けい统每个单元もと只ただ能のう够直接ちょくせつ表示ひょうじ从0到いた65,535的てき数すう值，但ただし是ぜ如果使用しよう多た个16位い单元就能够表示ひょうじ更さら大だい的てき整数せいすう。这就是ぜCEF的てき作用さよう，它可以把Unicode从0到いた140万的码空间范围的每个码位映射到单个或多个在0到いた65,5356范围内ない的てき码值。最さい简单的てき字じ符ふ编码表ひょう就是單純たんじゅん地ち选择足あし够大的てき单位，以保证编码字符ふ集中しゅうちゅう的てき所有しょゆう数すう值能够直接ちょくせつ编码（一个码位对应一个码值）。这对于能够用使用しよう八位元组來表示的编码字符集（如多数すう传统的てき非ひCJK的てき字じ符ふ集しゅう编码）是ぜ合理ごうり的てき，对于能のう够使用しよう十じゅう六位元來表示的编码字符集（如早期き版本はんぽん的てきUnicode）来らい说也足あし够合理ごうり。但ただし是ぜ，随ずい着ぎ编码字じ符ふ集しゅう的てき大小だいしょう增加ぞうか（例れい如，现在的てきUnicode的てき字じ符ふ集しゅう至いたり少しょう需要じゅよう21位い才能さいのう全部ぜんぶ表示ひょうじ），这种直接ちょくせつ表示法ひょうじほう变得越来ごえく越えつ没ぼつ有效ゆうこう率りつ，并且很难让现有ゆう计算机つくえ系けい统适应更大だい的てき码值。因よし此，许多使用しよう新しん近きん版本はんぽんUnicode的てき系けい统，或ある者もの将はたUnicode码位對應たいおう為ため可か变长度ど的てき8位い字じ节序列じょれつ的てきUTF-8，或ある者もの将はた码位對應たいおう为可变长度ど的てき16位い序列じょれつ的てきUTF-16。
字じ符ふ编码方案ほうあん（CES:Character Encoding Scheme），也称作さく"serialization format"。將はた定てい长的整せい型がた值（即そく码元）映うつ射い到いた8位い字じ节序列じょれつ，以便编码后きさき的てき数すう据すえ的てき文ぶん件けん存そん储或网络传输。在ざい使用しようUnicode的てき场合，使用しよう一个简单的字符来指定字节顺序是大だい端はし序じょ或ある者もの小しょう端はし序じょ（但ただし对于UTF-8来らい说并不ふ需要じゅよう专门指ゆび明あかり字じ节序）。然しか而，有ゆう些复杂的字じ符ふ编码机つくえ制せい（如ISO/IEC 2022）使用しよう控ひかえ制せい字じ符ふ转义序列じょれつ在ざい几种编码字じ符ふ集しゅう或ある者もの用よう于减小しょう每ごと个单元もと所用しょよう字じ节数的てき压缩机つくえ制せい（如SCSU、BOCU和わPunycode）之の间切换。
传输编码语法（transfer encoding syntax），用よう于处理り上じょう一层次的字符编码方案提供的字节序列。一般其功能包括两种：一是把字节序列的值映射到一套更受限制的值域内，以满足あし传输环境的てき限きり制せい，例れい如Email传输时Base64或ある者ものquoted-printable，都みやこ是ただし把わ8位い的てき字じ节编码为7位い长的数すう据すえ；另一是压缩字节序列的值，如LZW或ある者もの行程こうてい长度编码等とう无损压缩技わざ术。

高こう层机制せい（higher level protocol）提供ていきょう了りょう额外信がいしん息いき，用よう于选择Unicode字じ符ふ的てき特定とくてい变种，如XML属性ぞくせいxml:lang

字じ符ふ映うつ射い（character map）在ざいUnicode中ちゅう保持ほじ了りょう其传统意义：从字符ふ序列じょれつ到いた编码后きさき的てき字じ节序列じょれつ的てき映うつ射い，包括ほうかつ了りょう上述じょうじゅつ的てきCCS, CEF, CES层次。

字じ符ふ集しゅう、代だい码页，与あずか字じ符ふ映うつ射い

术语字じ符ふ编码（character encoding），字じ符ふ映うつ射い（character map），字じ符ふ集しゅう（character set）或ある者もの代だい码页，在ざい历史上じょう往往おうおう是ぜ同どう义概念がいねん，即そく字じ符ふ表ひょう（repertoire）中ちゅう的てき字じ符ふ如何いか编码为码元もと的てき流りゅう（stream of code units）–通常つうじょう每ごと个字符ふ对应单个码元。

码元（Code Unit，也称「代だい码单元もと」）是ぜ指ゆび一个已编码的文本中具有最短的比特组合的单元。对于UTF-8来らい说，码元是ぜ8比ひ特とく长；对于UTF-16来らい说，码元是ぜ16比ひ特とく长；对于UTF-32来らい说，码元是ぜ32比ひ特とく长^[1]。码值（Code Value）是ぜ过时的てき用法ようほう。

代だい码页通常つうじょう意味いみ着ぎ面めん向こう字じ节的编码，但ただし强つよ调是一套用于不能语言的编码方案的集合.著名ちょめい的てき如"Windows"代だい码页系列けいれつ，"IBM"/"DOS"代だい码页系列けいれつ.

IBM的てき字じ符ふ数すう据すえ表示ひょうじ体系たいけい（Character Data Representation Architecture - CDRA）与あずか编码字じ符ふ集しゅう标识符ふ（coded character set identifiers - CCSIDs）常常つねづね把わcharset, character set, code page, or CHARMAP等とう类似意い义的术语混用こんよう.

Unix或あるLinux不ふ使用しよう代だい码页概念がいねん，它们用ようcharmap，比ひlocales具有ぐゆう更さら广泛的てき含义.

与あずか上うわ文ぶん的てき编码字じ符ふ集しゅう（Coded Character Set - CCS）不同ふどう，字じ符ふ编码（character encoding）是ぜ从抽象ちゅうしょう字じ符ふ到いた代だい码字（code word）的てき映うつ射しゃ. HTTP（与あずかMIME）的てき用法ようほう中ちゅう，字じ符ふ集しゅう（character set）与あずか字じ符ふ编码同どう义，但ただし与あずかCCS不ふ是ぜ一いち个意思いし.

字じ符ふ编码（不全ふぜん）

ASCII
EBCDIC

西欧せいおう标准

DOS字じ符ふ集しゅう（又また称たたえIBM代だい码页）

Windows字じ符ふ集しゅう

亞あ洲しゅう字じ符ふ集しゅう

尤ゆう其是漢字かんじ編へん碼。

臺灣たいわん

日本にっぽん

中國ちゅうごく大陸たいりく及港澳

朝あさ鲜半岛

越こし南みなみ

越えつ南みなみ資し訊交換こうかん標準ひょうじゅん代だい碼

印度いんど

印度いんど文字もじ資し訊交換こうかん碼

統一とういつ碼

字じ符ふ转换工具こうぐ

由よし于有很多种字符ふ编码方法ほうほう被ひ使用しよう，从一种字符编码转换到另一种，需要じゅよう一いち些工具ぐ。

跨またが平台ひらだい：

网页浏览器き–大だい多数たすう现代的てき网页浏览器き都と具有ぐゆう此功能のう。一般是在菜单"查看"（View）/"字じ符ふ编码"（Character Encoding）
iconv –程ほど序じょ与あずか编程API，用よう于字符ふ编码转换
convert_encoding.py –基もと于Python的てき转换工具こうぐ.^[2]
decodeh.py –用よう于启发性猜测编码方案ほうあん的てき算法さんぽう与あずか模も块.^[3]
國際こくさい統一とういつ碼部件けん –一いち套C语言与あずかJava语言的てき开源库，由ゆかりIBM提供ていきょう，用よう于統一碼等多语言编码的转换、实现.
chardet – Mozilla的てき编码自じ动检测代码的Python语言实现.
新しん版本はんぽん的てきUnix命令めいれいFile做字符ふ编码的てき检测.（cygwin与あずかmac都みやこ有ゆう此命令れい）

Linux:

recode – ^[4]
utrac – 将はた整せい个文件けん内容ないよう从一种字符编码转换到另外一种^[5]
cstocs –
convmv –转换文ぶん件名けんめい.^[6]
enca –分析ぶんせき编码模も式しき.^[7]

Microsoft Windows:

Encoding.Convert – .NET API^[8]
MultiByteToWideChar/WideCharToMultiByte – Windows API^[9]
cscvt –转换工具こうぐ^[10]
enca –分析ぶんせき编码方法ほうほう^[11]

参考さんこう文献ぶんけん

^ Glossary of Unicode Terms. [2012-04-07]. （原始げんし内容ないよう存そん档于2015-12-26）.
^ Homepage of Michael Goerz – convert_encoding.py. [2012-03-23]. （原始げんし内容ないよう存そん档于2010-10-28）.
^ Decodeh – heuristically decode a string or text file. [2012-03-23]. （原始げんし内容ないよう存そん档于2008-01-08）.
^ Recode – GNU Project – Free Software Foundation (FSF). [2012-03-23]. （原始げんし内容ないよう存そん档于2021-02-10）.
^ Utrac Homepage. [2006-05-12]. （原始げんし内容ないよう存そん档于2021-01-25）.
^ Convmv – converts filenames from one encoding to another. [2012-03-23]. （原始げんし内容ないよう存そん档于2018-06-11）.
^ Extremely Naive Charset Analyser. [2012-03-23]. （原始げんし内容ないよう存そん档于2010-12-04）.
^ Microsoft .NET Framework Class Library – Encoding.Convert Method. [2012-03-23]. （原始げんし内容ないよう存そん档于2012-04-21）.
^ MultiByteToWideChar/WideCharToMultiByte – Convert from ANSI to Unicode & Unicode to ANSI. [2012-03-23]. （原始げんし内容ないよう存そん档于2015-02-12）.
^ Character Set Converter. [2012-03-23]. （原始げんし内容ないよう存そん档于2012-03-26）.
^ Extremely Naive Charset Analyser. [2012-03-23]. （原始げんし内容ないよう存そん档于2012-03-15）.

參まいり閱

Category:字じ符ふ编码—关于通用つうよう字じ符ふ编码的てき文章ぶんしょう
Category:字じ符ふ集しゅう—关于特殊とくしゅ字じ符ふ编码的てき文章ぶんしょう
亂らん碼—非ひ映うつ射い字じ符ふ集しゅう
代だい码页
字形じけい
位い圖ず
像ぞう素もと
體からだ素もと
中ちゅう文ぶん軟體
中ちゅう文ぶん系統けいとう

外部がいぶ链接

Character sets registered by Internet Assigned Numbers Authority（页面存そん档备份，存そん于互联网档案あん馆）
Unicode Technical Report #17: Character Encoding Model
SIL's freeware fonts, editors and documentation （页面存そん档备份，存そん于互联网档案あん馆） See SIL
ICU Converter Explorer （页面存そん档备份，存そん于互联网档案あん馆）
The Cyrillic Charset soup（页面存そん档备份，存そん于互联网档案あん馆）
Early history of character set standardization
Character Sets And Code Pages At The Push Of A Button （页面存そん档备份，存そん于互联网档案あん馆）
A complete introduction to Japanese character encodings
A tutorial on character code issues （页面存そん档备份，存そん于互联网档案あん馆）
Online Char (ASCII), HEX, Binary, Base64, etc... Encoder/Decoder with MD2, MD4, MD5, SHA1+2, etc. hashing algorithms
Universal Cyrillic decoder （页面存そん档备份，存そん于互联网档案あん馆）,一个用来帮助恢复由于错误字符编码产生的不可读的西里にしざと尔字母はは的てき在ざい线程序じょ（以及其它的てき一いち些程序じょ）.
Introduction to i18n（页面存そん档备份，存そん于互联网档案あん馆），请参阅Chapter 3 - Important Concepts for Character Coding Systems
汉字字じ符ふ编码查询
精せい确解释Unicode （页面存そん档备份，存そん于互联网档案あん馆）

[1] Glossary of Unicode Terms. [2012-04-07]. （原始げんし内容ないよう存そん档于2015-12-26）.

[2] Homepage of Michael Goerz – convert_encoding.py. [2012-03-23]. （原始げんし内容ないよう存そん档于2010-10-28）.

[3] Decodeh – heuristically decode a string or text file. [2012-03-23]. （原始げんし内容ないよう存そん档于2008-01-08）.

[4] Recode – GNU Project – Free Software Foundation (FSF). [2012-03-23]. （原始げんし内容ないよう存そん档于2021-02-10）.

[5] Utrac Homepage. [2006-05-12]. （原始げんし内容ないよう存そん档于2021-01-25）.

[6] Convmv – converts filenames from one encoding to another. [2012-03-23]. （原始げんし内容ないよう存そん档于2018-06-11）.

[7] Extremely Naive Charset Analyser. [2012-03-23]. （原始げんし内容ないよう存そん档于2010-12-04）.

[8] Microsoft .NET Framework Class Library – Encoding.Convert Method. [2012-03-23]. （原始げんし内容ないよう存そん档于2012-04-21）.

[9] MultiByteToWideChar/WideCharToMultiByte – Convert from ANSI to Unicode & Unicode to ANSI. [2012-03-23]. （原始げんし内容ないよう存そん档于2015-02-12）.

[10] Character Set Converter. [2012-03-23]. （原始げんし内容ないよう存そん档于2012-03-26）.

[11] Extremely Naive Charset Analyser. [2012-03-23]. （原始げんし内容ないよう存そん档于2012-03-15）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]