相互そうご情報じょうほう量りょう

相互そうご情報じょうほう量りょう（そうごじょうほうりょう、英えい: mutual information）または伝達でんたつ情報じょうほう量りょう（でんたつじょうほうりょう、英えい: transinformation）は、確率かくりつ論ろんおよび情報じょうほう理論りろんにおいて、2つの確かく率りつ変数へんすうの相互そうご依存いぞんの尺度しゃくどを表あらわす量りょうである。最もっとも典型てんけい的てきな相互そうご情報じょうほう量りょうの物理ぶつり単位たんいはビットであり、2 を底そことする対数たいすうが使つかわれることが多おおい。

定義ていぎ

形式けいしき的てきには、2つの離散りさん確かく率りつ変数へんすう $X$ と $Y$ の相互そうご情報じょうほう量りょうは以下いかで定義ていぎされる。

I(X;Y)=\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}p(x,y)\log {\frac {p(x,y)}{p(x)p(y)}},\!

ここで、 $p(x,y)$ は $X$ と $Y$ の同時どうじ分布ぶんぷ関数かんすう、 $p(x)$ と $p(y)$ はそれぞれ $X$ と $Y$ の周辺しゅうへん確かく率りつ分布ぶんぷ関数かんすうである。

連続れんぞく確かく率りつ変数へんすうの場合ばあい、総和そうわの代かわりに定てい積分せきぶんを用もちいる。

I(X;Y)=\int _{\mathcal {Y}}\int _{\mathcal {X}}p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}}\;dx\,dy,\!

ここで、 $p(x,y)$ は $X$ と $Y$ の同時どうじ分布ぶんぷ密度みつど関数かんすうであり、 $p(x)$ と $p(y)$ はそれぞれ $X$ と $Y$ の周辺しゅうへん確かく率りつ密度みつど関数かんすうである。

どちらの場合ばあいでも相互そうご情報じょうほう量りょうは負まけとならず（ $I(X;Y)\geq 0$ ）、対称たいしょう性せいがある（ $I(X;Y)=I(Y;X)$ ）。

これらの定義ていぎは対数たいすうの底そこが明示めいじされていない。離散りさん確かく率りつ変数へんすうの場合ばあい、最もっとも一般いっぱん的てきな相互そうご情報じょうほう量りょうの尺度しゃくどはビットであるため、底そことして 2 を指定していすることが多おおい。一方いっぽう、連続れんぞく確かく率りつ変数へんすうの場合ばあい、ネイピア数すう $e=2.718..$ をとることが多おおい。

直観ちょっかん的てきには、相互そうご情報じょうほう量りょうは $X$ と $Y$ が共有きょうゆうする情報じょうほう量りょうの尺度しゃくどであり、一方いっぽうの変数へんすうを知しることでもう一方いっぽうをどれだけ推測すいそくできるようになるかを示しめす。例たとえば、 $X$ と $Y$ が独立どくりつであれば、 $X$ をいくら知しっても $Y$ に関かんする情報じょうほうは得えられないし、逆ぎゃくも同様どうようである。このとき、相互そうご情報じょうほう量りょうはゼロである。逆ぎゃくに、 $X$ と $Y$ が同おなじであれば、 $X$ と $Y$ は全ぜん情報じょうほうを共有きょうゆうしているという事ことができ、 $X$ を知しれば $Y$ も知しることになり、逆ぎゃくも同様どうようである。結果けっかとして、相互そうご情報じょうほう量りょうは $Y$ （すなわち $X$ ）単独たんどくの情報じょうほう量りょう（エントロピー）と同おなじとなる。

相互そうご情報じょうほう量りょうは、以下いかのような意味いみで相互そうごの依存いぞん性せい（非ひ独立どくりつ性せい）の尺度しゃくどでもある。これは一方向いちほうこうから考かんがえると分わかり易やすい。 $X$ と $Y$ が独立どくりつなら、 $p(x,y)=p(x)p(y)$ であるから、次つぎが成なり立たつ。

\log {\frac {p(x,y)}{p(x)\,p(y)}}=\log 1=0.\!

したがって、離散りさん確かく率りつ変数へんすうの場合ばあいも連続れんぞく確かく率りつ変数へんすうの場合ばあいも $I(X;Y)=0$ となる。実際じっさいは逆ぎゃくも成なり立たち、 $I(X;Y)=0$ であることと、 $X$ と $Y$ が独立どくりつな確かく率りつ変数へんすうであることは同値どうちである。

また、後述こうじゅつするように $X$ と $Y$ が独立どくりつな場合ばあいの同時どうじ分布ぶんぷと実際じっさいの同時どうじ分布ぶんぷの（擬なずらえ）距離きょりを示しめす量りょうであるとも考かんがえられる。

他たの情報じょうほう量りょうとの関係かんけい

相互そうご情報じょうほう量りょうは次つぎのようにも表あらわせる。

{\begin{aligned}I(X;Y)&=H(X)-H\left(X\mathop {|} Y\right)\\&=H(Y)-H\left(Y\mathop {|} X\right)\\&=H(X)+H(Y)-H(X,Y)\end{aligned}}

ここで、 $H(X)$ と $H(Y)$ は周辺しゅうへんエントロピー、 $H(X\mathop {|} Y)$ と $H(Y\mathop {|} X)$ は条件じょうけん付つきエントロピー、 $H(X,Y)$ は $X$ と $Y$ の結合けつごうエントロピーである。 $H(X)\geq H(X\mathop {|} Y)$ であるため、相互そうご情報じょうほう量りょうは常つねに非負ひふであることがわかる。

直観ちょっかん的てきに、エントロピー $H(X)$ が確かく率りつ変数へんすうの不確ふたしかさの尺度しゃくどであるとすれば、 $H(X\mathop {|} Y)$ は「 $Y$ を知しった後のちにも残のこる $X$ の不確ふたしかさの量りょう」と見みることができ、最初さいしょの行くだりの右辺うへんは「 $X$ の不確ふたしかさの量りょうから $Y$ を知しった後のちに残のこった $X$ の不確ふたしかさの量りょうを引ひいたもの」となり、「 $Y$ を知しったことで削減さくげんされる $X$ の不確ふたしかさの量りょう」と等価とうかである。これは、相互そうご情報じょうほう量りょうが2つの確かく率りつ変数へんすうについて互たがいにもう一方いっぽうを知しったことで得えられる別べつの一方いっぽうに関かんする情報じょうほう量りょうという直観ちょっかん的てき定義ていぎとも合あっている。

離散りさんの場合ばあい、 $H(X\mathop {|} X)=0$ であるから、 $H(X)=I(X;X)$ となる。従したがって $I(X;X)\geq I(X;Y)$ であり、ある確かく率りつ変数へんすうは他たのどんな確かく率りつ変数へんすうよりも自分じぶん自身じしんについての情報じょうほうを多おおくもたらすという基本きほん原理げんりが定式ていしき化かされている。

相互そうご情報じょうほう量りょうは、2つの確かく率りつ変数へんすう $X$ と $Y$ の周辺しゅうへん分布ぶんぷの積せき $p(x)p(y)$ と同時どうじ分布ぶんぷ $p(x,y)$ のカルバック・ライブラー情報じょうほう量りょうで表あらわすこともできる。

I(X;Y)=D_{\mathrm {KL} }\left(p(x,y)\mathop {\|} p(x)p(y)\right)

さらに、 $p(x,y)=p(x\mathop {|} y)p(y)$ を用もちいて変形へんけいすると、次つぎのようになる。

{\begin{aligned}I(X;Y)&{}=\sum _{y}p(y)\sum _{x}p(x\mathop {|} y)\log {\frac {p(x\mathop {|} y)}{p(x)}}\\&{}=\sum _{y}p(y)\;D_{\mathrm {KL} }\left(p(x\mathop {|} y)\mathop {\|} p(x)\right)\\&{}=\mathbb {E} _{Y}\{D_{\mathrm {KL} }\left(p(x\mathop {|} y)\mathop {\|} p(x)\right)\}\end{aligned}}

従したがって、相互そうご情報じょうほう量りょうは、 $p(x\mathop {|} y)$ の $p(x)$ に対たいするカルバック・ライブラー情報じょうほう量りょうの期待きたい値ちとして解釈かいしゃくすることもできる。ここで、 $p(x\mathop {|} y)$ は $Y$ を与あたえられた時ときの $X$ の条件じょうけん付つき分布ぶんぷ、 $p(x)$ は $X$ の確かく率りつ分布ぶんぷである。 $p(x\mathop {|} y)$ と $p(x)$ の分布ぶんぷに差さがあればあるほど、情報じょうほう利得りとく（カルバック・ライブラー情報じょうほう量りょう）は大おおきくなる。

多た変数へんすうの場合ばあい

多た確かく率りつ変数へんすうの相互そうご情報じょうほう量りょうは、一般いっぱんに次つぎのように表あらわされる。ただし、 ${\boldsymbol {y}}$ は $q$ 次元じげんベクトルである。

I({\boldsymbol {y}})=\left\{\sum _{j=1}^{q}H\left(y_{j}\right)\right\}-H({\boldsymbol {y}})

これは、二に確かく率りつ変数へんすうの相互そうご情報じょうほう量りょうの自然しぜんな拡張かくちょうと見みなせる。

応用おうよう

多おおくの場合ばあい、相互そうご情報じょうほう量りょうを最大さいだい化かさせ（つまり相互そうご依存いぞん性せいを強つよめ）、条件じょうけん付つきエントロピーを最小さいしょう化かさせるという方向ほうこうで使つかわれる。以下いかのような例れいがある。

通信つうしん路ろ容量ようりょうは相互そうご情報じょうほう量りょう（伝達でんたつ情報じょうほう量りょう）を使つかって定義ていぎされる。
多重たじゅう配列はいれつアラインメントによるRNAの二に次じ構造こうぞう予測よそく
機械きかい学習がくしゅうにおける特徴とくちょう選択せんたくや特徴とくちょう変換へんかんの尺度しゃくどとして相互そうご情報じょうほう量りょうが使つかわれてきた。
相互そうご情報じょうほう量りょうはコーパス言語げんご学がくにおける連語れんごの計算けいさんにおける重おもみ付づけ関数かんすうとして使つかわれることが多おおい。
相互そうご情報じょうほう量りょうは医用いよう画像がぞう処理しょりにおける画像がぞうの位置いち合あわせに使つかわれる。ある画像がぞうと別べつの画像がぞうの座標ざひょうを合あわせるために、両者りょうしゃの相互そうご情報じょうほう量りょうが最大さいだいとなるように位置いち合あわせを行おこなう。
時どき系列けいれつ解析かいせきにおける位相いそう同期どうき（英語えいご版ばん）の検出けんしゅつ。
情報じょうほう量りょう最大さいだい化か独立どくりつ成分せいぶん分析ぶんせきアルゴリズムでも利用りようされている。
ターケンスの定理ていり（英語えいご版ばん）では平均へいきん相互そうご情報じょうほう量りょうを使つかって埋うめ込こみ遅延ちえんパラメータを求もとめる。

参考さんこう文献ぶんけん

Cilibrasi, R.; Paul Vitányi (2005). “Clustering by compression” (PDF). IEEE Transactions on Information Theory 51 (4): 1523-1545.
Coombs, C. H., Dawes, R. M. & Tversky, A. (1970), Mathematical Psychology: An Elementary Introduction, Prentice-Hall, Englewood Cliffs, NJ.
Cronbach L. J. (1954). On the non-rational application of information measures in psychology, in H Quastler, ed., Information Theory in Psychology: Problems and Methods, Free Press, Glencoe, Illinois, pp. 14—30.
Kenneth Ward Church and Patrick Hanks. Word association norms, mutual information, and lexicography, Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics, 1989.
Guiasu, Silviu (1977), Information Theory with Applications, McGraw-Hill, New York.
Li, Ming; Paul Vitányi (February 1997). An introduction to Kolmogorov complexity and its applications. New York: Springer-Verlag. ISBN 0387948686
Lockhead G. R. (1970). Identification and the form of multidimensional discrimination space, Journal of Experimental Psychology 85(1), 1-10.
Athanasios Papoulis. Probability, Random Variables, and Stochastic Processes, second edition. New York: McGraw-Hill, 1984. (See Chapter 15.)
Press, W. H., Flannery, B. P., Teukolsky, S. A. & Vetterling, W. T. (1988), Numerical Recipes in C: The Art of Scientific Computing, Cambridge University Press, Cambridge.
Strehl, Alexander; Joydeep Ghosh (2002). “Cluster ensembles -- a knowledge reuse framework for combining multiple partitions” (PDF). Journal of Machine Learning Research 3: 583-617.
Witten, Ian H. & Frank, Eibe (2005), Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann, Amsterdam.
Yao, Y. Y. (2003) Information-theoretic measures for knowledge discovery and data mining, in Entropy Measures, Maximum Entropy Principle and Emerging Applications , Karmeshu (ed.), Springer, pp. 115-136.
Peng, H.C., Long, F., and Ding, C., "Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp.1226-1238, 2005. Program

外部がいぶリンク

『相互そうご情報じょうほう量りょうの意味いみとエントロピーとの関係かんけい』 - 高校こうこう数学すうがくの美うつくしい物語ものがたり
Mutual Information （英語えいご） - スカラーペディア百科ひゃっか事典じてん「相互そうご情報じょうほう量りょう」の項目こうもく。