(Translated by https://www.hiragana.jp/)
熵 (信息论) - 维基百科,自由的百科全书 とべ转到内容ないよう

熵 (しんいき论)

本页使用了标题或全文手工转换
维基百科ひゃっか自由じゆうてき百科ひゃっかぜん
2 bitてき熵。

ざいしんいきなか英語えいごentropyまたたたえしんいきしんげん平均へいきん自信じしんいきりょう接收せっしゅうてきごとじょう消息しょうそくちゅう包含ほうがんてきしんいきてき平均へいきんりょう。这里てき消息しょうそく代表だいひょうらい自分じぶんぬのあるかずすえりゅうちゅうてき事件じけん、样本あるとくせい。(熵最こう理解りかい为不确定性的せいてきりょう而不确定性的せいてきりょういん为越ずいつくえてきしんげんてき熵越だい。)らい自信じしんげんてき另一个特征是样本的概率分布。这里てきそうほう不可能ふかのう发生てき事情じじょうとう它发せいりょうかい提供ていきょうさらてきしんいきよし于一些其てき原因げんいんしんじいき(熵)てい义为がいりつ分布ぶんぷてき对数てき相反あいはんすうゆう道理どうりてき事件じけんてきがいりつ分布ぶんぷごと事件じけんてきしんいきりょう构成りょう一个随机变量,这个ずいつくえ变量てきひとし值(そくもち)就是这个分布ぶんぷ产生てきしんいき量的りょうてき平均へいきん值(そく熵)。熵的单位通常つうじょう为比とくただし也用Sh、nat、Hart计量,决于てい义用いた对数てきそこ

さいようがいりつ分布ぶんぷてき对数さく为信いきてきりょうてき原因げんいん其可せいれい如,とう掷一次硬币提供了1 Shてきしんいき,而掷m就为mさら一般いっぱん,你需要用ようようlog2(n)らい表示ひょうじいち个可以取n个值てき变量。

ざい1948ねんかつ劳德·もぐさ尔伍とく·はたねつ力學りきがくてき熵,引入いたしんいきいん此它またしょうためこう农熵(Shannon entropy)[1][2]

简介

[编辑]

熵的概念がいねん最早もはや起源きげん物理ぶつりがくよう于度りょう一个热力学系统的无序程度。ざいしんいきさとめん,熵是对不确定せいてき测量。ただしざいしんいき世界せかい,熵越だか,则能传输えつてきしんいき,熵越てい,则意味いみ传输てきしんいきえつしょう

えいぶん本数ほんすうすえりゅうてき熵比较低,いん为英语很容易ようい读懂,也就说很容易ようい预测。そく便びんわが们不知道ともみち一段英语文字是什么内容,ただしわが们能很容易ようい预测,如,字母じぼe总是字母じぼzあるものqu字母じぼ组合てき可能かのうせい总是ちょう过qあずかにんなん其它字母じぼてき组合。如果经压缩,一段英文文本的每个字母需要8个比とくらい编码,ただし实际じょう英文えいぶんぶんほんてき熵大がいただゆう4.7とく。這是よし英文えいぶんてきへん包含ほうがんりょうかくしき符號ふごう,如逗ごう、引號とうよし英文えいぶん輸入ゆにゅうほう使用しようりょう8元來がんらいひょうたちいちども256字母じぼ及符ごう

如果压缩无损てきそくどおり过解压缩以百分之百地恢复初始的消息内容,么压缩后てき消息しょうそく携带てきしんいき压缩てき原始げんし消息しょうそくいち样的。而压缩后てき消息しょうそく以通过较しょうまととく传递,いん此压缩消いきてきまい个比とくのう携带さらてきしんいき,也就说压缩信いきてき熵更だか。熵更だか意味いみ较难于预测压缩消いき携带てきしんいき原因げんいんざい于压缩消いきさとめんぼつゆう冗余,そくまい个比とくてき消息しょうそく携带りょう一个比特的信息。こう农的しんげん编码定理ていり揭示けいじりょうにんなん无损压缩わざ不可能ふかのう让一比特的消息携带超过一比特的信息。消息しょうそくてき熵乘以消いきてき长度决定りょう消息しょうそく以携带多しょうしんいき

こう农的しんげん编码定理ていりどう揭示けいじりょうにんなん无损压缩わざ不可能ふかのう缩短にんなん消息しょうそくすえ鸽笼原理げんり,如果ゆう一些消息变短,则至しょうゆういちじょう消息しょうそく变长。ざい实际使用しようちゅうゆかり于我们通常つうじょうただ关注于压缩特定とくていてきぼういち类消いきしょ以这通常つうじょう问题。れい如英语文档和ずいつくえ文字もじ数字すうじあきらかた噪音,みやこただし不同ふどう类型てき所以ゆえん如果一个压缩算法会将某些不太可能出现的,あるもの标类がたてき消息しょうそく变得さらだい通常つうじょう无关紧要てきただしざいわが们的日常にちじょう使用しようちゅう,如果压缩やめ经压缩过てきすうすえ,仍会现问题。れい如,はたいち个已经是FLAC格式かくしきてきおと乐文けん压缩为ZIPぶんけん很难使它占ようてきそら间变しょう

熵的计算

[编辑]

如果ゆう一枚理想的硬币,其出现正めん反面はんめんてきつくえかい相等そうとう,则抛かた事件じけんてき熵等于其のう够达到てき最大さいだい值。わが们无ほう知道ともみち一个硬币抛掷的结果是什么,いん此每一次抛硬币都是不可预测的。よし此,使用しよう一枚正常硬币进行若干次抛掷,这个事件じけんてき熵是いちとくいん为结はてそと乎两个——正面しょうめんあるもの反面はんめん表示ひょうじ0, 1编码,而且两个结果彼此ひし相互そうご独立どくりつわか进行nつぎ独立どくりつ实验,则熵为nいん为可以用长度为nてきとくりゅう表示ひょうじ[3]ただし如果一枚硬币的两面完全相同,个这个系列けいれつほうかた事件じけんてき熵等于零,いん为结はてのうじゅん确预测。现实世界せかいさとわが收集しゅうしゅういたてきすうすえてき熵介于上めん两种じょう况之间。

另一个稍微复杂的例子是假设一个ずいつくえ变量X三种可能值がいりつぶん别为么编码平均へいきんとく长度。其熵为3/2。

いん此熵实际对随つくえ变量てきとくりょう顺次发生がいりつ相乘そうじょうさい总和てき数学すうがくもち

てい

[编辑]

すえBoltzmann's H-theorem,こう农把ずいつくえ变量Xてき熵值 Ηいーたまれ腊字ははEtaてい义如,其值いき为{x1, ..., xn}:

其中,P为Xてきりつ質量しつりょう函數かんすう(probability mass function),E为もち函數かんすう,而I(X)これXてき訊量(またたたえため本體ほんたい)。I(X)本身ほんみずい變數へんすう

とう有限ゆうげんてき样本时,熵的公式こうしき表示ひょうじため

ざい這裏bこれ對數たいすうところ使用しようてきそこ通常つうじょう2,自然しぜん常數じょうすうeある10。とうb = 2,熵的單位たんいbitとうb = e,熵的單位たんいnat;而當b = 10,熵的單位たんいHart。

pi = 0时,对於いちi值,对应てき被加数ひかすう0 logb 0てき值将かい0,这与极限一致いっち

还可以定义事件じけん X あずか Y ぶん别取 xi  yj 时的条件じょうけん

其中p(xiyj)为 X = xi 且 Y = yj 时的がいりつ。这个りょう应当理解りかい为你知道ともみちYてき前提ぜんていずいつくえ变量 X てきずいつくえ性的せいてきりょう

はんれい

[编辑]
ほうかた币的熵H(X)(そくもち自信じしんいき),以もと度量どりょうあずかこれ相對そうたいてきかたぬさてき公正こうせいPr(X=1).

注意ちゅうい图的最大さいだい值取决於分布ぶんぷざい這裡,よう傳達でんたつ一個公正的拋硬幣結果至多需要1もとただしよう傳達でんたついち公正こうせいてき骰子さいころ結果けっかいたり需要じゅようlog2(6)もと

如果ゆういち个系统Sうち存在そんざい事件じけんS = {E1,...,En},まい事件じけんてきりつ分布ぶんぷP = {p1, ..., pn},则每个事件じけん本身ほんみてき訊息(本體ほんたい)为:

(对数以2为底,单位もと(bit))
(对数以为底,单位纳特/nats)

如英语有26个字ははかり如每个字ははざい文章ぶんしょう中出なかいで现次すう平均へいきんてき话,まい个字ははてき訊息りょう为:

以日ぶん五十音平假名作為相對範例,假設かせつごと平假名ひらがな文字もじざい文章ぶんしょうちゅう出現しゅつげんてきりつ相等そうとうまい平假名ひらがな文字もじ攜帶てき訊量ため

而汉常用じょうようてきゆう2500个,かり如每个汉字ざい文章ぶんしょう中出なかいで现次すう平均へいきんてき话,まい个汉てきしんいきりょう为:

实际じょうまい个字ははごと个汉ざい文章ぶんしょう中出なかいで现的次数じすう并不平均へいきんかた说较しょう见字はは(如z)かず罕用汉字就具有ぐゆうしょう对高てきしんいきりょうただし上述じょうじゅつ计算提供ていきょうりょう以下いか概念がいねん使用しよう书写单元えつてき文字もじまい个单もとしょ包含ほうがんてき訊息りょうえつだい

熵是せい个系统的平均へいきん消息しょうそくりょうそく

いん为和热力がくちゅう描述热力がくてき玻尔兹曼公式こうしきほん质相どう(仅仅单位不同ふどういち纳特てきしんいきりょうそく相当そうとうkこげみみまい开尔ぶんてき热力がく熵),所以ゆえん也称为“熵”。

如果两个けい具有ぐゆうどう样大てき消息しょうそくりょう,如一篇用不同文字写的同一文章,よし于汉てきしんいきりょう较大,ちゅうぶん文章ぶんしょう应用てき汉字就比英文えいぶん文章ぶんしょう使用しようてき字母じぼようしょう所以ゆえん汉字印刷いんさつてき文章ぶんしょうよう其他应用总体数量すうりょうしょうてき字母じぼ印刷いんさつてき文章ぶんしょうようたんそく使つかい一个汉字占用两个字母的空间,汉字印刷いんさつてき文章ぶんしょう也要英文えいぶん字母じぼ印刷いんさつてきよう纸少。

熵的特性とくせい

[编辑]

以用很少てき标准らい描述农熵てき特性とくせいはたざい下面かめんれつにんなん满足这些かり设的熵的てい义均せい以下いか形式けいしき

其中,Kあずか选择てき度量どりょう单位しょう对应てきいち个正常数じょうすう

しも文中ぶんちゅうpi = Pr(X = xi)且

连续せい

[编辑]

该量连续がいりつ值小はば变化ただのう引起熵的微小びしょう变化。

对称せい

[编辑]

符号ふごうxiじゅうしんはいじょきさき,该量应不变。

ひとし

极值せい

[编辑]

とう所有しょゆう符号ふごうゆう同等どうとう機會きかい现的じょう况下,熵达到最大さいだい值(所有しょゆう可能かのうてき事件じけん同等どうとうがいりつ时不确定せい最高さいこう)。

とうがいりつ事件じけんてき熵应ずい符号ふごうてき数量すうりょう增加ぞうか

せい

[编辑]

熵的りょうあずか该过ほど如何いか划分无关。

さいきさき给出てき这个函数かんすう关系こくりょう一个系统与其子系统的熵的关系。如果けい统之间的相互そうご作用さようやめ知的ちてき,则可以通过子けい统的熵来计算一个系统的熵。

给定n个均匀分布ぶんぷ元素げんそてき集合しゅうごうふんk个箱(けい统),まい个里めんゆう b1, ..., bk元素げんそごうおこりらいてき熵应とう于系统的熵与かく个箱てき熵的まい个箱てき权重为在该箱ちゅうてきがいりつ

对于せい整数せいすうbi其中b1 + ... + bk = nらい说,

选取k = nb1 = ... = bn = 1,这意味いみ确定符号ふごうてき熵为れいΗいーた1(1) = 0。这就说可以用n进制熵来ていn个符ごうてきしんげん符号ふごうしゅうてき效率こうりつまいりしんいき冗余

いちせい

[编辑]

こう农熵满足以下いかせい质,藉由はた熵看なりざい揭示けいじずいつくえ变量Xてき值後,したがえちゅういたてきしんいきりょうあるしょうじょてき确定せいりょう)」,らい幫助理解りかい其中いち些性しつ

  • 增減ぞうげん一概率为零的事件不改变熵:
具有ぐゆうひとし匀概りつ分布ぶんぷてきしんげん符号ふごうしゅう有效ゆうこう达到最大さいだい熵logb(n):所有しょゆう可能かのうてき事件じけんとうがいりつてき时候,确定せい最大さいだい
  • 计算 (X,Y)とくいたてき熵或しんいきりょうそくどう时计さんXYとう于通过进ぎょう两个连续实验いたてきしんいきさき计算Yてき值,しかきさきざい你知どうYてき条件下じょうけんかとくXてき值。うつしさく
  • 如果Y=f(X),其中f确定せいてきΗいーた(f(X)|X) = 0。应用まえいち公式こうしきΗいーた(X, f(X))就会产生
所以ゆえんΗいーた(f(X)) ≤ Ηいーた(X),いん此当きさきしゃどおり过确定性ていせい函数かんすう传递时,变量てき熵只のうくだてい
  • 如果XY两个独立どくりつ实验,么知どうYてき值不かげ响我们对X值的认知(いん为两しゃ独立どくりつ所以ゆえん互不かげ响):
  • 两个事件じけんどう时发せいてき熵不だい于每个事件じけん单独发生てき熵的总和,且仅とう两个事件じけん独立どくりつてきじょう况下相等そうとうさら具体ぐたい说,如果XYどう一概率空间的两个随机变量,而 (X,Y)表示ひょうじ它们てきふえ卡尔积,则
ざいぜん两条熵的せい质基础上,很容易よういよう数学すうがく证明这いちてん

かず热力がく熵的联系

[编辑]

物理ぶつりがく化学かがく对一个系统自发地从初始状态向前演进过程中,遵循热力がくだい二定律而发生的熵的变化更感兴趣。ざい传统热力がくちゅう,熵被てい义为对系统的ひろし观测じょう,并没ゆうわたる及概りつ分布ぶんぷ,而概りつ分布ぶんぷしんいき熵的核心かくしんてい义。

すえJaynes(1957)てき观点,热力がく熵可以被视为农信いき论的いち个应よう: 热力がく熵被解釋かいしゃくなりあずか定義ていぎ系統けいとうてきほろたいほそぶししょ需的しん一步香农資訊量成正比,なみ茲曼常數じょうすうため比例ひれいけいすう,其中系統けいとうあずか外界がいかい交流こうりゅうただもたれ古典こてんねつ力學りきがくてききょかん變數へんすうしょ描述。加熱かねつ系統けいとうかいひさげだか其热力学りきがく熵,いんため行為こうい增加ぞうかりょう符合ふごうはかきょかん變數へんすう てき系統けいとうほろたいてきすうもく,也使とく所有しょゆう系統けいとうてきてきかんせい敘述へんどくさらちょう。(假想かそうてきむぎかつ斯韦妖利用りようごと分子ぶんしてきじょう态信いきてい热力がく熵,ただしこれおっと·らんどうなんじえいRolf Landauer(於1961ねんかず及其どうことそく證明しょうめいりょう,让小妖精ようせい行使こうし职责本身ほんみ——そく便びんただ了解りょうかい储存ごと分子ぶんし最初さいしょてきこう农信いき——就会给系统带らい热力がく熵的增加ぞうかいん此总てきらい说,けい统的熵的总量ぼつゆう减少。这就かい决了Maxwell思想しそう实验引发てきもとらんどうしか原理げんり也為現代げんだい計算けいさん處理しょり大量たいりょう訊時所產しょさんせいてき熱量ねつりょうきゅうりょう下限かげん,雖然現在げんざい計算けいさんてきはいねつとおとお這個げんせいだか

いっ

[编辑]

贝尔实验しつ曾流传一则可信度不高的传闻:冯诺依曼けん议香农为这个概念がいねんめい为“熵”,理由りゆう这个热力学名がくめい词别じん懂,容易ようい唬住。[4]

まいり

[编辑]

参考さんこう

[编辑]
  1. ^ Shannon, Claude E. A Mathematical Theory of Communication. Bell System Technical Journal. July 1948, 27 (3): 379–423. doi:10.1002/j.1538-7305.1948.tb01338.x. hdl:10338.dmlcz/101429.  (PDF, archived from here页面そん档备份そん互联网档あん))
  2. ^ Shannon, Claude E. A Mathematical Theory of Communication. Bell System Technical Journal. October 1948, 27 (4): 623–656. doi:10.1002/j.1538-7305.1948.tb00917.x. hdl:11858/00-001M-0000-002C-4317-B.  (PDF, archived from here页面そん档备份そん互联网档あん))
  3. ^ Douglas Robert Stinson; Maura Paterson. だい2.4节“熵”. Cryptography Theory and Practice [みつ学理がくり论与实践] 2. 
  4. ^ 詹姆斯·かくかみなりかつ. だい9しょう“熵及其妖”. The Information: A History, a Theory, a Flood [しんいき简史]. こうひろし (こぼし译), ろう伟珊 (审校), こうまなぶ栋 (审校), 松峰まつみね (审校) 1. 人民じんみん邮电出版しゅっぱんしゃ. 2013: 265. ISBN 978-7-115-33180-9 ちゅうぶん中国ちゅうごくだい陆)). すえざい贝尔实验しつさとりゅう传的いち个说ほう约翰·冯·诺依曼建议香农使用しよう这个词,いん为没有人ゆうじん懂这个词てき意思いし所以ゆえんあずかひとそう论时以无往而不利ふり。这件ごと虽然きょ乌有,ただし听起らい乎有てん道理どうり 

外部がいぶ链接

[编辑]