(Translated by https://www.hiragana.jp/)
単純ベイズ分類器 - Wikipedia コンテンツにスキップ

単純たんじゅんベイズ分類ぶんるい

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

単純たんじゅんベイズ分類ぶんるい(たんじゅんベイズぶんるいき、えい: Naive Bayes classifier)は、単純たんじゅんかくりつてき分類ぶんるいうつわである。

概要がいよう[編集へんしゅう]

単純たんじゅんベイズ分類ぶんるいもととなるかくりつモデルはつよい(単純たんじゅんな)独立どくりつせい仮定かていともベイズの定理ていり適用てきようすることにもとづいており、より正確せいかくえば「独立どくりつ特徴とくちょうモデル; independent feature model」とぶべきものである。

かくりつモデルの性質せいしつもとづいて、単純たんじゅんベイズ分類ぶんるい教師きょうしあり学習がくしゅう設定せってい効率こうりつてき訓練くんれん可能かのうである。おおくの実用じつようれいでは、単純たんじゅんベイズ分類ぶんるいのパラメータ推定すいていには最尤法さいゆうほう使つかわれる。つまり、単純たんじゅんベイズ分類ぶんるい使用しようするにあたって、ベイズかくりつやそののベイズてき手法しゅほう使つか必要ひつようはない。

設計せっけい仮定かてい非常ひじょう単純たんじゅんであるにもかかわらず、単純たんじゅんベイズ分類ぶんるい複雑ふくざつじつ世界せかい状況じょうきょうにおいて、期待きたいよりもずっとうまくはたらく。近頃ちかごろ、ベイズ分類ぶんるい問題もんだい注意深ちゅういぶか解析かいせきによって、単純たんじゅんベイズ分類ぶんるい効率こうりつせい理論りろんてき理由りゆうがあることがしめされた[1]単純たんじゅんベイズ分類ぶんるい利点りてんは、分類ぶんるい不可欠ふかけつなパラメータ(変数へんすうぐん平均へいきん分散ぶんさん)を見積みつもるのに、訓練くんれんれいデータがすくなくててんである。変数へんすうぐん独立どくりつであると仮定かていされているため、かくクラスについての変数へんすう分散ぶんさんだけが必要ひつようであり、きょう分散ぶんさん行列ぎょうれつ全体ぜんたい不要ふようである。

単純たんじゅんベイズかくりつモデル[編集へんしゅう]

抽象ちゅうしょうてきには、分類ぶんるいかくりつモデルはつぎのような依存いぞんクラス変数へんすう についての条件じょうけんきモデルである。クラスは、いくつかの特徴とくちょう変数へんすう から までに依存いぞんしている。

問題もんだいは、特徴とくちょうすう おおきいとき、あるいは特徴とくちょうがとりうる範囲はんいおおきいとき、確率かくりつひょうもとづいたようなモデルは現実げんじつてきでなくなることである。そこで、モデルをよりあつかいやすく変形へんけいする。

ベイズの定理ていり使つかえば、つぎのようになる。

このしき英語えいごあらわすとつぎのようになる(Posterior = 事後じご、Prior = 事前じぜん、Likelihood = ゆう、Evidence = 証拠しょうこ)。

実際じっさいには、分母ぶんぼ依存いぞんしておらず、分母ぶんぼ実質じっしつてき一定いっていであるように あたえられるため、分子ぶんしだけを考慮こうりょすればよい。分子ぶんしは、つぎのようにあらわされる同時どうじかくりつモデルと等価とうかである。

これに条件じょうけんかくりつ定義ていぎかえ適用てきようすると、つぎのようにえられる。

ここで、「単純たんじゅん」な条件じょうけん独立どくりつせい英語えいごばん仮定かていする。すなわち、かく特徴とくちょう変数へんすう 条件じょうけんきで独立どくりつであるとする。独立どくりつせいより、つぎしきつ。

すると、同時どうじモデルはつぎのようにあらわされる。

つまり、上述じょうじゅつのような独立どくりつせい仮定かていのもとで、クラス変数へんすう 条件じょうけん分布ぶんぷつぎのようにあらわされる。

ここで、 にのみ依存いぞんする係数けいすうであり、特徴とくちょう変数へんすうぐん既知きちであれば定数ていすうとなる。

このようなモデルのほうあつかいやすい。いわゆる「クラス事前じぜんかくりつ独立どくりつかくりつ分布ぶんぷ かれているからである。 のクラスがあり、 のモデルを のパラメータで表現ひょうげんできるとき、対応たいおうする単純たんじゅんベイズモデルは (k − 1) + n r k のパラメータをつ。こう分類ぶんるいでは であり、予測よそく使つかわれる2特徴とくちょう個数こすうである。

パラメータ推定すいてい[編集へんしゅう]

すべてのモデルパラメータ(すなわち、クラス事前じぜんかくりつ特徴とくちょうかくりつ分布ぶんぷ)は、訓練くんれんれい集合しゅうごうから相対そうたい度数どすうによって見積みつもることができる。それらはかくりつさいゆう推定すいていりょうである。離散りさんてきでない特徴とくちょう場合ばあい離散りさん事前じぜんおこな必要ひつようがある。離散りさんには教師きょうしなし(場当ばあたりてき手法しゅほう)と教師きょうしあり(訓練くんれんデータにもとづいた手法しゅほう)の手法しゅほうがある。

あるクラスとある特徴とくちょう組合くみあわせが訓練くんれんれいでは出現しゅつげんしない場合ばあい度数どすうもとづいたかくりつ推定すいていはゼロとなる。これを乗算じょうざんもちいるとせきがゼロになってしまうという問題もんだいしょうじる。これをふせぐため、確率かくりつ推定すいていをわずかに修正しゅうせいしてどの組合くみあわせの確率かくりつもゼロにならないようにすることがおこなわれる(擬似ぎじカウント英語えいごばん)。

かくりつモデルからの分類ぶんるい構築こうちく[編集へんしゅう]

ここまでの説明せつめいで、独立どくりつ特徴とくちょうモデル、すなわち単純たんじゅんベイズかくりつモデルが導出みちびきだされた。単純たんじゅんベイズ分類ぶんるいはそのモデルに決定けってい規則きそくわせたものである。よく使つかわれる決定けってい規則きそくは、もっと事後じごかくりつたか仮説かせつ採用さいようするというもので、最大さいだい事後じごかくりつ(MAP)決定けってい規則きそくばれている。そのような分類ぶんるい関数かんすう とすると、つぎのようにあらわされる。

議論ぎろん[編集へんしゅう]

独立どくりつせい仮定かていすることで、事後じごかくりつ計算けいさん結果けっか予期よきしないものとなる可能かのうせい懸念けねんする場合ばあいがある。観測かんそく結果けっか依存いぞんせいがある状況じょうきょうでは、かくりつかんするだい公理こうり、すなわちかくりつつねに 1 以下いかでなければならないという公理こうりはんする結果けっかられる可能かのうせいがある。

独立どくりつせい仮定かてい広範囲こうはんい適用てきようすることが正確せいかくせいけるという事実じじつがあるにもかかわらず、単純たんじゅんベイズ分類ぶんるい実際じっさいにはおどろくほど有効ゆうこうである。とくに、クラスの条件じょうけん特徴とくちょう分布ぶんぷ分離ぶんりすることは、かく分布ぶんぷを1次元じげん分布ぶんぷとして見積みつもることができることを意味いみしている。そのため、特徴とくちょうすうえることで指数しすう関数かんすうてき必要ひつようなデータ集合しゅうごうおおきくなるという「次元じげんのろ」からしょうじる問題もんだい緩和かんわできる。MAP 規則きそく使つかったかくりつてき分類ぶんるいつねとして、ただしいクラスがのクラスよりもっともらしい場合ばあいかぎり、ただしいクラスに到達とうたつする。それゆえ、クラスかくりつはうまく見積みつもられていなくてもよい。いいかえれば、根底こんていにある単純たんじゅんかくりつモデルの重大じゅうだい欠陥けっかん無効むこうにするほど、分類ぶんるい全体ぜんたいとしてじゅうふん頑健がんけんである。単純たんじゅんベイズ分類ぶんるいがうまく機能きのうする理由りゆうについての議論ぎろんは、後述こうじゅつ参考さんこう文献ぶんけんにもある。

れい: 文書ぶんしょ分類ぶんるい[編集へんしゅう]

単純たんじゅんベイズ分類ぶんるい文書ぶんしょ分類ぶんるい問題もんだい適用てきようしたれいしめす。文書ぶんしょぐんをその内容ないようによって分類ぶんるいする問題もんだいであり、たとえば、電子でんしメールスパム (C=0) とスパムでないもの (C=1) に分類ぶんるいする。文書ぶんしょは、単語たんごぐんとしてモデルできるいくつかのクラスからされるものとする。ここで、文書ぶんしょのiばん単語たんご が、クラス C からされた文書ぶんしょ出現しゅつげんする(独立どくりつな)かくりつは、つぎのようにあらわせる。

ただしこのしきでは、問題もんだいをより簡単かんたんにするため、単語たんご文書ぶんしょちゅうにランダムに分布ぶんぷすると仮定かていしている。すなわち、単語たんご出現しゅつげんかくりつは、文書ぶんしょながさ、文書ぶんしょちゅうでのほか単語たんごとの位置いち関係かんけい、その文脈ぶんみゃくには依存いぞんしないものとする。

すると、あるクラスCあたえられたとき文書ぶんしょDされるかくりつつぎのようになる。

きたい問題もんだいは、「ある文書ぶんしょ D が、あるクラス Cぞくするかくりつ」であり、いいかえれば である。

ここで、定義ていぎから(かくりつ空間くうかん参照さんしょう

かつ

となる。ベイズの定理ていりによれば、ゆう関数かんすう使つかってかくりつつぎのようにあらわされる。

ここで、クラスは S と ¬S の2つしかないと仮定かていする(たとえば、スパムかそうでないか)。

かつ

となる。上記じょうきのベイズの結果けっか使つかうと、つぎのようになる。

一方いっぽう他方たほうると、つぎのようになる。

これをえると、つぎとおり。

したがって、かくりつ比率ひりつ p(S | D) / p(¬S | D) は、一連いちれんゆう使つかってあらわされる。実際じっさいかくりつ p(S | D) は、p(S | D) + p(¬S | D) = 1 であることから、容易よういに log (p(S | D) / p(¬S | D)) からもとめられる。

これらのすべ対数たいすうにすると、つぎしきられる。

統計とうけいがくでは、このようなゆう対数たいすう使つかうのが一般いっぱんてき技法ぎほうである。このれいのようなこう分類ぶんるいでは、そのシグモイド曲線きょくせんえがく(ロジット参照さんしょう)。

このようにして文書ぶんしょ分類ぶんるいされる。 なら、その文書ぶんしょはスパムであり、そうでなければスパムではない。

Complement Naive Bayes[編集へんしゅう]

単純たんじゅんベイズ分類ぶんるいで、あるクラスにぞくさない集合しゅうごうえい: Complement)をもちいて学習がくしゅうさせる拡張かくちょうComplement Naive Bayesという。

たとえば文章ぶんしょう分類ぶんるい純粋じゅんすい単純たんじゅんベイズ分類ぶんるいでは文章ぶんしょうちゅうのそのクラスにぞくする単語たんご出現しゅつげんりつおおきくなってしまうが、ぞくさないかくりつもっとひくいクラスとして識別しきべつすることで文章ぶんしょうちゅうのこのばらつきを最低限さいていげんおさえられる。これによってよい識別しきべつ可能かのうになる。

脚注きゃくちゅう[編集へんしゅう]

参考さんこう文献ぶんけん[編集へんしゅう]

  • Domingos, Pedro & Michael Pazzani (1997) "On the optimality of the simple Bayesian classifier under zero-one loss". Machine Learning, 29:103–­137. CiteSeer にあるオンラインばん: [1]
  • Rish, Irina. (2001). "An empirical study of the naive Bayes classifier". IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence. (オンラインばん: PDF, PostScript)
  • Hand, DJ, & Yu, K. (2001). "Idiot's Bayes - not so stupid after all?" International Statistical Review. Vol 69 part 3, pages 385-399. ISSN 0306-7734.
  • Mozina M, Demsar J, Kattan M, & Zupan B. (2004). "Nomograms for Visualization of Naive Bayesian Classifier". In Proc. of PKDD-2004, pages 337-348. (オンラインばん: PDF)
  • Maron, M. E. (1961). "Automatic Indexing: An Experimental Inquiry." Journal of the ACM (JACM) 8(3):404–417. (オンラインばん: PDF)
  • Minsky, M. (1961). "Steps toward Artificial Intelligence." Proceedings of the IRE 49(1):8-30.
  • McCallum, A. and Nigam K. "A Comparison of Event Models for Naive Bayes Text Classification". In AAAI/ICML-98 Workshop on Learning for Text Categorization, pp. 41-48. Technical Report WS-98-05. AAAI Press. 1998. (オンラインばん: PDF)
  • Harry Zhang "The Optimality of Naive Bayes". (オンラインばん: PDF)
  • S.Kotsiantis, P. Pintelas, Increasing the Classification Accuracy of Simple Bayesian Classifier, Lecture Notes in Artificial Intelligence, AIMSA 2004, Springer-Verlag Vol 3192, pp. 198-207, 2004 (PDF)
  • S. Kotsiantis, P. Pintelas, Logitboost of Simple Bayesian Classifier, Computational Intelligence in Data mining Special Issue of the Informatica Journal, Vol 29 (1), pp. 53-59, 2005 (PDF)

関連かんれん項目こうもく[編集へんしゅう]

外部がいぶリンク[編集へんしゅう]

ソフトウェア[編集へんしゅう]