(Translated by https://www.hiragana.jp/)
相互情報量 - Wikipedia コンテンツにスキップ

相互そうご情報じょうほうりょう

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

相互そうご情報じょうほうりょう(そうごじょうほうりょう、えい: mutual information)または伝達でんたつ情報じょうほうりょう(でんたつじょうほうりょう、えい: transinformation)は、確率かくりつろんおよび情報じょうほう理論りろんにおいて、2つのかくりつ変数へんすう相互そうご依存いぞん尺度しゃくどあらわりょうである。もっと典型てんけいてき相互そうご情報じょうほうりょう物理ぶつり単位たんいビットであり、2 をそことする対数たいすう使つかわれることがおおい。

定義ていぎ

[編集へんしゅう]

形式けいしきてきには、2つの離散りさんかくりつ変数へんすう 相互そうご情報じょうほうりょう以下いか定義ていぎされる。

ここで、同時どうじ分布ぶんぷ関数かんすう はそれぞれ 周辺しゅうへんかくりつ分布ぶんぷ関数かんすうである。

連続れんぞくかくりつ変数へんすう場合ばあい総和そうわわりにてい積分せきぶんもちいる。

ここで、同時どうじ分布ぶんぷ密度みつど関数かんすうであり、 はそれぞれ 周辺しゅうへんかくりつ密度みつど関数かんすうである。

どちらの場合ばあいでも相互そうご情報じょうほうりょうまけとならず()、対称たいしょうせいがある()。

これらの定義ていぎ対数たいすうそこ明示めいじされていない。離散りさんかくりつ変数へんすう場合ばあいもっと一般いっぱんてき相互そうご情報じょうほうりょう尺度しゃくどはビットであるため、そことして 2 を指定していすることがおおい。一方いっぽう連続れんぞくかくりつ変数へんすう場合ばあい、ネイピアすうをとることがおおい。

直観ちょっかんてきには、相互そうご情報じょうほうりょう共有きょうゆうする情報じょうほうりょう尺度しゃくどであり、一方いっぽう変数へんすうることでもう一方いっぽうをどれだけ推測すいそくできるようになるかをしめす。たとえば、独立どくりつであれば、 をいくらっても かんする情報じょうほうられないし、ぎゃく同様どうようである。このとき、相互そうご情報じょうほうりょうはゼロである。ぎゃくに、おなじであれば、ぜん情報じょうほう共有きょうゆうしているということができ、れば ることになり、ぎゃく同様どうようである。結果けっかとして、相互そうご情報じょうほうりょう(すなわち 単独たんどく情報じょうほうりょうエントロピー)とおなじとなる。

相互そうご情報じょうほうりょうは、以下いかのような意味いみ相互そうご依存いぞんせい独立どくりつせい)の尺度しゃくどでもある。これは一方向いちほうこうからかんがえるとかりやすい。独立どくりつなら、 であるから、つぎつ。

したがって、離散りさんかくりつ変数へんすう場合ばあい連続れんぞくかくりつ変数へんすう場合ばあい となる。実際じっさいぎゃくち、 であることと、独立どくりつかくりつ変数へんすうであることは同値どうちである。

また、後述こうじゅつするように独立どくりつ場合ばあい同時どうじ分布ぶんぷ実際じっさい同時どうじ分布ぶんぷの(なずらえ距離きょりしめりょうであるともかんがえられる。

情報じょうほうりょうとの関係かんけい

[編集へんしゅう]

相互そうご情報じょうほうりょうつぎのようにもあらわせる。

ここで、周辺しゅうへんエントロピー条件じょうけんきエントロピー結合けつごうエントロピーである。 であるため、相互そうご情報じょうほうりょうつね非負ひふであることがわかる。

直観ちょっかんてきに、エントロピー かくりつ変数へんすう不確ふたしかさの尺度しゃくどであるとすれば、 は「ったのちにものこ不確ふたしかさのりょう」とることができ、最初さいしょくだり右辺うへんは「不確ふたしかさのりょうから ったのちのこった 不確ふたしかさのりょういたもの」となり、「ったことで削減さくげんされる 不確ふたしかさのりょう」と等価とうかである。これは、相互そうご情報じょうほうりょうが2つのかくりつ変数へんすうについてたがいにもう一方いっぽうったことでられるべつ一方いっぽうかんする情報じょうほうりょうという直観ちょっかんてき定義ていぎともっている。

離散りさん場合ばあい であるから、 となる。したがって であり、あるかくりつ変数へんすうのどんなかくりつ変数へんすうよりも自分じぶん自身じしんについての情報じょうほうおおくもたらすという基本きほん原理げんり定式ていしきされている。

相互そうご情報じょうほうりょうは、2つのかくりつ変数へんすう 周辺しゅうへん分布ぶんぷせき 同時どうじ分布ぶんぷ カルバック・ライブラー情報じょうほうりょうあらわすこともできる。

さらに、もちいて変形へんけいすると、つぎのようになる。

したがって、相互そうご情報じょうほうりょうは、たいするカルバック・ライブラー情報じょうほうりょう期待きたいとして解釈かいしゃくすることもできる。ここで、あたえられたとき条件じょうけん分布ぶんぷかくりつ分布ぶんぷである。分布ぶんぷがあればあるほど、情報じょうほう利得りとく(カルバック・ライブラー情報じょうほうりょう)はおおきくなる。

変数へんすう場合ばあい

[編集へんしゅう]

かくりつ変数へんすう相互そうご情報じょうほうりょうは、一般いっぱんつぎのようにあらわされる。ただし、 次元じげんベクトルである。

これは、かくりつ変数へんすう相互そうご情報じょうほうりょう自然しぜん拡張かくちょうなせる。

応用おうよう

[編集へんしゅう]

おおくの場合ばあい相互そうご情報じょうほうりょう最大さいだいさせ(つまり相互そうご依存いぞんせいつよめ)、条件じょうけんきエントロピー最小さいしょうさせるという方向ほうこう使つかわれる。以下いかのようなれいがある。

関連かんれん項目こうもく

[編集へんしゅう]

参考さんこう文献ぶんけん

[編集へんしゅう]
  • Cilibrasi, R.; Paul Vitányi (2005). “Clustering by compression” (PDF). IEEE Transactions on Information Theory 51 (4): 1523-1545. http://www.cwi.nl/~paulv/papers/cluster.pdf. 
  • Coombs, C. H., Dawes, R. M. & Tversky, A. (1970), Mathematical Psychology: An Elementary Introduction, Prentice-Hall, Englewood Cliffs, NJ.
  • Cronbach L. J. (1954). On the non-rational application of information measures in psychology, in H Quastler, ed., Information Theory in Psychology: Problems and Methods, Free Press, Glencoe, Illinois, pp. 14—30.
  • Kenneth Ward Church and Patrick Hanks. Word association norms, mutual information, and lexicography, Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics, 1989.
  • Guiasu, Silviu (1977), Information Theory with Applications, McGraw-Hill, New York.
  • Li, Ming; Paul Vitányi (February 1997). An introduction to Kolmogorov complexity and its applications. New York: Springer-Verlag. ISBN 0387948686 
  • Lockhead G. R. (1970). Identification and the form of multidimensional discrimination space, Journal of Experimental Psychology 85(1), 1-10.
  • Athanasios Papoulis. Probability, Random Variables, and Stochastic Processes, second edition. New York: McGraw-Hill, 1984. (See Chapter 15.)
  • Press, W. H., Flannery, B. P., Teukolsky, S. A. & Vetterling, W. T. (1988), Numerical Recipes in C: The Art of Scientific Computing, Cambridge University Press, Cambridge.
  • Strehl, Alexander; Joydeep Ghosh (2002). “Cluster ensembles -- a knowledge reuse framework for combining multiple partitions” (PDF). Journal of Machine Learning Research 3: 583-617. http://strehl.com/download/strehl-jmlr02.pdf. 
  • Witten, Ian H. & Frank, Eibe (2005), Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann, Amsterdam.
  • Yao, Y. Y. (2003) Information-theoretic measures for knowledge discovery and data mining, in Entropy Measures, Maximum Entropy Principle and Emerging Applications , Karmeshu (ed.), Springer, pp. 115-136.
  • Peng, H.C., Long, F., and Ding, C., "Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp.1226-1238, 2005. Program

外部がいぶリンク

[編集へんしゅう]