単純たんじゅんベイズ分類ぶんるい器き

単純たんじゅんベイズ分類ぶんるい器き（たんじゅんベイズぶんるいき、英えい: Naive Bayes classifier）は、単純たんじゅんな確かく率りつ的てき分類ぶんるい器うつわである。

概要がいよう[編集へんしゅう]

単純たんじゅんベイズ分類ぶんるい器きの元もととなる確かく率りつモデルは強つよい（単純たんじゅんな）独立どくりつ性せい仮定かていと共ともにベイズの定理ていりを適用てきようすることに基もとづいており、より正確せいかくに言いえば「独立どくりつ特徴とくちょうモデル; independent feature model」と呼よぶべきものである。

確かく率りつモデルの性質せいしつに基もとづいて、単純たんじゅんベイズ分類ぶんるい器きは教師きょうしあり学習がくしゅうの設定せっていで効率こうりつ的てきに訓練くんれん可能かのうである。多おおくの実用じつよう例れいでは、単純たんじゅんベイズ分類ぶんるい器きのパラメータ推定すいていには最尤法さいゆうほうが使つかわれる。つまり、単純たんじゅんベイズ分類ぶんるい器きを使用しようするにあたって、ベイズ確かく率りつやその他たのベイズ的てき手法しゅほうを使つかう必要ひつようはない。

設計せっけいも仮定かていも非常ひじょうに単純たんじゅんであるにもかかわらず、単純たんじゅんベイズ分類ぶんるい器きは複雑ふくざつな実じつ世界せかいの状況じょうきょうにおいて、期待きたいよりもずっとうまく働はたらく。近頃ちかごろ、ベイズ分類ぶんるい問題もんだいの注意深ちゅういぶかい解析かいせきによって、単純たんじゅんベイズ分類ぶんるい器きの効率こうりつ性せいに理論りろん的てき理由りゆうがあることが示しめされた^[1]。単純たんじゅんベイズ分類ぶんるい器きの利点りてんは、分類ぶんるいに不可欠ふかけつなパラメータ（変数へんすう群ぐんの平均へいきんと分散ぶんさん）を見積みつもるのに、訓練くんれん例れいデータが少すくなくて済すむ点てんである。変数へんすう群ぐんは独立どくりつであると仮定かていされているため、各かくクラスについての変数へんすうの分散ぶんさんだけが必要ひつようであり、共きょう分散ぶんさん行列ぎょうれつ全体ぜんたいは不要ふようである。

単純たんじゅんベイズ確かく率りつモデル[編集へんしゅう]

抽象ちゅうしょう的てきには、分類ぶんるい器きの確かく率りつモデルは次つぎのような依存いぞんクラス変数へんすう $C$ についての条件じょうけん付つきモデルである。クラスは、いくつかの特徴とくちょう変数へんすう $F_{1}$ から $F_{n}$ までに依存いぞんしている。

p(C\vert F_{1},\dots ,F_{n})\,

問題もんだいは、特徴とくちょう数すう $n$ が大おおきいとき、あるいは特徴とくちょうがとりうる値ねの範囲はんいが大おおきいとき、確率かくりつ表ひょうに基もとづいたようなモデルは現実げんじつ的てきでなくなることである。そこで、モデルをより扱あつかいやすく変形へんけいする。

ベイズの定理ていりを使つかえば、次つぎのようになる。

p(C\vert F_{1},\dots ,F_{n})={\frac {p(C)\ p(F_{1},\dots ,F_{n}\vert C)}{p(F_{1},\dots ,F_{n})}}\,

この式しきを英語えいごで表あらわすと次つぎのようになる（Posterior = 事後じご、Prior = 事前じぜん、Likelihood = 尤ゆう度ど、Evidence = 証拠しょうこ）。

Posterior={\frac {Prior\times Likelihood}{Evidence}}\,

実際じっさいには、分母ぶんぼは $C$ に依存いぞんしておらず、分母ぶんぼが実質じっしつ的てきに一定いっていであるように $F_{i}$ が与あたえられるため、分子ぶんしだけを考慮こうりょすればよい。分子ぶんしは、次つぎのように表あらわされる同時どうじ確かく率りつモデルと等価とうかである。

p(C,F_{1},\dots ,F_{n})\,

これに条件じょうけん付つき確かく率りつの定義ていぎを繰くり返かえし適用てきようすると、次つぎのように書かき換かえられる。

p(C,F_{1},\dots ,F_{n})\,

=p(C)\ p(F_{1},\dots ,F_{n}\vert C)

=p(C)\ p(F_{1}\vert C)\ p(F_{2},\dots ,F_{n}\vert C,F_{1})

=p(C)\ p(F_{1}\vert C)\ p(F_{2}\vert C,F_{1})\ p(F_{3},\dots ,F_{n}\vert C,F_{1},F_{2})

=p(C)\ p(F_{1}\vert C)\ p(F_{2}\vert C,F_{1})\ p(F_{3}\vert C,F_{1},F_{2})\ p(F_{4},\dots ,F_{n}\vert C,F_{1},F_{2},F_{3})

ここで、「単純たんじゅん」な条件じょうけん付つき独立どくりつ性せい（英語えいご版ばん）を仮定かていする。すなわち、各かく特徴とくちょう変数へんすう $F_{1},\dots ,F_{n}$ が条件じょうけん付つきで独立どくりつであるとする。独立どくりつ性せいより、次つぎの式しきが成なり立たつ。

p(F_{i}\mid C,F_{1},\ldots ,F_{i-1})=p(F_{i}\mid C)\,

すると、同時どうじモデルは次つぎのように表あらわされる。

p(C,F_{1},\dots ,F_{n})=p(C)\ p(F_{1}\vert C)\ p(F_{2}\vert C)\ p(F_{3}\vert C)\ \cdots \,

=p(C)\prod _{i=1}^{n}p(F_{i}\vert C)\,

つまり、上述じょうじゅつのような独立どくりつ性せいの仮定かていのもとで、クラス変数へんすう $C$ の条件じょうけん付つき分布ぶんぷは次つぎのように表あらわされる。

p(C\vert F_{1},\dots ,F_{n})={\frac {1}{Z}}p(C)\prod _{i=1}^{n}p(F_{i}\vert C)

ここで、 $Z$ は $F_{1},\dots ,F_{n}$ にのみ依存いぞんする係数けいすうであり、特徴とくちょう変数へんすう群ぐんの値ねが既知きちであれば定数ていすうとなる。

このようなモデルの方ほうが扱あつかいやすい。いわゆる「クラス事前じぜん確かく率りつ」 $p(C)$ と独立どくりつ確かく率りつ分布ぶんぷ $p(F_{i}\vert C)$ に分わかれているからである。 $k$ 個このクラスがあり、 $p(F_{i})$ のモデルを $r$ 個このパラメータで表現ひょうげんできるとき、対応たいおうする単純たんじゅんベイズモデルは (k − 1) + n r k 個このパラメータを持もつ。二に項こう分類ぶんるいでは $k=2$ であり、 $n$ は予測よそくに使つかわれる2値ちの特徴とくちょうの個数こすうである。

パラメータ推定すいてい[編集へんしゅう]

全すべてのモデルパラメータ（すなわち、クラス事前じぜん確かく率りつと特徴とくちょう確かく率りつ分布ぶんぷ）は、訓練くんれん例れいの集合しゅうごうから相対そうたい度数どすうによって見積みつもることができる。それらは確かく率りつの最さい尤ゆう推定すいてい量りょうである。離散りさん的てきでない特徴とくちょうの場合ばあい、離散りさん化かを事前じぜんに行おこなう必要ひつようがある。離散りさん化かには教師きょうしなし（場当ばあたり的てきな手法しゅほう）と教師きょうしあり（訓練くんれんデータに基もとづいた手法しゅほう）の手法しゅほうがある。

あるクラスとある特徴とくちょう値ちの組合くみあわせが訓練くんれん例れいでは出現しゅつげんしない場合ばあい、度数どすうに基もとづいた確かく率りつ推定すいていはゼロとなる。これを乗算じょうざんに用もちいると積せきがゼロになってしまうという問題もんだいが生しょうじる。これを防ふせぐため、確率かくりつ値ちの推定すいていをわずかに修正しゅうせいしてどの組合くみあわせの確率かくりつ値ちもゼロにならないようにすることが行おこなわれる（擬似ぎじカウント（英語えいご版ばん））。

確かく率りつモデルからの分類ぶんるい器き構築こうちく[編集へんしゅう]

ここまでの説明せつめいで、独立どくりつ特徴とくちょうモデル、すなわち単純たんじゅんベイズ確かく率りつモデルが導出みちびきだされた。単純たんじゅんベイズ分類ぶんるい器きはそのモデルに決定けってい規則きそくを合あわせたものである。よく使つかわれる決定けってい規則きそくは、最もっとも事後じご確かく率りつが高たかい仮説かせつを採用さいようするというもので、最大さいだい事後じご確かく率りつ（MAP）決定けってい規則きそくと呼よばれている。そのような分類ぶんるい器きを関数かんすう $\mathrm {classify}$ とすると、次つぎのように表あらわされる。

\mathrm {classify} (f_{1},\dots ,f_{n})=\mathop {\mathrm {argmax} } _{c}\ p(C=c)\prod _{i=1}^{n}p(F_{i}=f_{i}\vert C=c)

議論ぎろん[編集へんしゅう]

独立どくりつ性せいを仮定かていすることで、事後じご確かく率りつの計算けいさん結果けっかが予期よきしないものとなる可能かのう性せいを懸念けねんする場合ばあいがある。観測かんそく結果けっかに依存いぞん性せいがある状況じょうきょうでは、確かく率りつに関かんする第だい二にの公理こうり、すなわち確かく率りつは常つねに 1 以下いかでなければならないという公理こうりに反はんする結果けっかが得えられる可能かのう性せいがある。

独立どくりつ性せいの仮定かていを広範囲こうはんいに適用てきようすることが正確せいかく性せいに欠かけるという事実じじつがあるにもかかわらず、単純たんじゅんベイズ分類ぶんるい器きは実際じっさいには驚おどろくほど有効ゆうこうである。特とくに、クラスの条件じょうけん付つき特徴とくちょう分布ぶんぷを分離ぶんりすることは、各かく分布ぶんぷを1次元じげんの分布ぶんぷとして見積みつもることができることを意味いみしている。そのため、特徴とくちょう数すうが増ふえることで指数しすう関数かんすう的てきに必要ひつようなデータ集合しゅうごうが大おおきくなるという「次元じげんの呪のろい」から生しょうじる問題もんだいを緩和かんわできる。MAP 規則きそくを使つかった確かく率りつ的てき分類ぶんるい器きの常つねとして、正ただしいクラスが他たのクラスより尤もっともらしい場合ばあいに限かぎり、正ただしいクラスに到達とうたつする。それゆえ、クラス確かく率りつはうまく見積みつもられていなくてもよい。い換いかえれば、根底こんていにある単純たんじゅんな確かく率りつモデルの重大じゅうだいな欠陥けっかんを無効むこうにするほど、分類ぶんるい器きは全体ぜんたいとして十じゅう分ふんに頑健がんけんである。単純たんじゅんベイズ分類ぶんるい器きがうまく機能きのうする理由りゆうについての議論ぎろんは、後述こうじゅつの参考さんこう文献ぶんけんにもある。

例れい: 文書ぶんしょ分類ぶんるい[編集へんしゅう]

単純たんじゅんベイズ分類ぶんるい器きを文書ぶんしょ分類ぶんるい問題もんだいに適用てきようした例れいを示しめす。文書ぶんしょ群ぐんをその内容ないようによって分類ぶんるいする問題もんだいであり、例たとえば、電子でんしメールをスパム (C=0) とスパムでないもの (C=1) に分類ぶんるいする。文書ぶんしょは、単語たんご群ぐんとしてモデル化かできるいくつかのクラスから取とり出だされるものとする。ここで、文書ぶんしょのi番ばん目めの単語たんご $w_{i}$ が、クラス C から取とり出だされた文書ぶんしょに出現しゅつげんする（独立どくりつな）確かく率りつは、次つぎのように書かき表あらわせる。

p(w_{i}\vert C)\,

ただしこの式しきでは、問題もんだいをより簡単かんたんにするため、単語たんごは文書ぶんしょ中ちゅうにランダムに分布ぶんぷすると仮定かていしている。すなわち、単語たんごの出現しゅつげん確かく率りつは、文書ぶんしょの長ながさ、文書ぶんしょ中ちゅうでの他ほかの単語たんごとの位置いち関係かんけい、その他たの文脈ぶんみゃくには依存いぞんしないものとする。

すると、あるクラスCが与あたえられた時とき、文書ぶんしょD が取とり出だされる確かく率りつは次つぎのようになる。

p(D\vert C)=\prod _{i}p(w_{i}\vert C)\,

解ときたい問題もんだいは、「ある文書ぶんしょ D が、あるクラス C に属ぞくする確かく率りつ」であり、い換いかえれば $p(C\vert D)\,$ の値ねである。

ここで、定義ていぎから（確かく率りつ空間くうかん参照さんしょう）

p(D\vert C)={p(D\cap C) \over p(C)}

かつ

p(C\vert D)={p(D\cap C) \over p(D)}

となる。ベイズの定理ていりによれば、尤ゆう度ど関数かんすうを使つかって確かく率りつが次つぎのように表あらわされる。

p(C\vert D)={p(C) \over p(D)}\,p(D\vert C)

ここで、クラスは S と ¬S の2つしかないと仮定かていする（例たとえば、スパムかそうでないか）。

p(D\vert S)=\prod _{i}p(w_{i}\vert S)\,

かつ

p(D\vert \neg S)=\prod _{i}p(w_{i}\vert \neg S)\,

となる。上記じょうきのベイズの結果けっかを使つかうと、次つぎのようになる。

p(S\vert D)={p(S) \over p(D)}\,\prod _{i}p(w_{i}\vert S)

p(\neg S\vert D)={p(\neg S) \over p(D)}\,\prod _{i}p(w_{i}\vert \neg S)

一方いっぽうを他方たほうで割わると、次つぎのようになる。

{p(S\vert D) \over p(\neg S\vert D)}={p(S)\,\prod _{i}p(w_{i}\vert S) \over p(\neg S)\,\prod _{i}p(w_{i}\vert \neg S)}

これを書かき換かえると、次つぎの通とおり。

{p(S\vert D) \over p(\neg S\vert D)}={p(S) \over p(\neg S)}\,\prod _{i}{p(w_{i}\vert S) \over p(w_{i}\vert \neg S)}

これらの比ひを全すべて対数たいすうにすると、次つぎの式しきが得えられる。

\ln {p(S\vert D) \over p(\neg S\vert D)}=\ln {p(S) \over p(\neg S)}+\sum _{i}\ln {p(w_{i}\vert S) \over p(w_{i}\vert \neg S)}

統計とうけい学がくでは、このような尤ゆう度ど比ひの対数たいすうを使つかうのが一般いっぱん的てきな技法ぎほうである。この例れいのような二に項こう分類ぶんるいでは、その値ねはシグモイド曲線きょくせんを描えがく（ロジット参照さんしょう）。

このようにして文書ぶんしょが分類ぶんるいされる。 $\ln {p(S\vert D) \over p(\neg S\vert D)}>0$ なら、その文書ぶんしょはスパムであり、そうでなければスパムではない。

Complement Naive Bayes[編集へんしゅう]

単純たんじゅんベイズ分類ぶんるい機きで、あるクラスに属ぞくさない補ほ集合しゅうごう（英えい: Complement）を用もちいて学習がくしゅうさせる拡張かくちょうをComplement Naive Bayesという。

たとえば文章ぶんしょう分類ぶんるいで純粋じゅんすいな単純たんじゅんベイズ分類ぶんるい器きでは文章ぶんしょう中ちゅうのそのクラスに属ぞくする単語たんごの出現しゅつげん率りつが大おおきくなってしまうが、属ぞくさない確かく率りつが最もっとも低ひくいクラスとして識別しきべつすることで文章ぶんしょう中ちゅうのこのばらつきを最低限さいていげんに抑おさえられる。これによってよい識別しきべつが可能かのうになる。

脚注きゃくちゅう[編集へんしゅう]

^ The Optimality of Naive Bayes Harry Shang

参考さんこう文献ぶんけん[編集へんしゅう]

Domingos, Pedro & Michael Pazzani (1997) "On the optimality of the simple Bayesian classifier under zero-one loss". Machine Learning, 29:103–137. （CiteSeer にあるオンライン版ばん: [1]）
Rish, Irina. (2001). "An empirical study of the naive Bayes classifier". IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence. (オンライン版ばん: PDF, PostScript)
Hand, DJ, & Yu, K. (2001). "Idiot's Bayes - not so stupid after all?" International Statistical Review. Vol 69 part 3, pages 385-399. ISSN 0306-7734.
Mozina M, Demsar J, Kattan M, & Zupan B. (2004). "Nomograms for Visualization of Naive Bayesian Classifier". In Proc. of PKDD-2004, pages 337-348. (オンライン版ばん: PDF)
Maron, M. E. (1961). "Automatic Indexing: An Experimental Inquiry." Journal of the ACM (JACM) 8(3):404–417. (オンライン版ばん: PDF)
Minsky, M. (1961). "Steps toward Artificial Intelligence." Proceedings of the IRE 49(1):8-30.
McCallum, A. and Nigam K. "A Comparison of Event Models for Naive Bayes Text Classification". In AAAI/ICML-98 Workshop on Learning for Text Categorization, pp. 41-48. Technical Report WS-98-05. AAAI Press. 1998. (オンライン版ばん: PDF)
Harry Zhang "The Optimality of Naive Bayes". (オンライン版ばん: PDF)
S.Kotsiantis, P. Pintelas, Increasing the Classification Accuracy of Simple Bayesian Classifier, Lecture Notes in Artificial Intelligence, AIMSA 2004, Springer-Verlag Vol 3192, pp. 198-207, 2004 (PDF)
S. Kotsiantis, P. Pintelas, Logitboost of Simple Bayesian Classifier, Computational Intelligence in Data mining Special Issue of the Informatica Journal, Vol 29 (1), pp. 53-59, 2005 (PDF)

外部がいぶリンク[編集へんしゅう]

Hierarchical Naive Bayes Classifiers for uncertain data 単純たんじゅんベイズ分類ぶんるい器きの拡張かくちょうの一種いっしゅ
単純たんじゅんベイズ分類ぶんるい器きを使つかったオンラインアプリケーション Emotion Modelling

ソフトウェア[編集へんしゅう]

Naive Bayes implementation in Visual Basic （ソースコードと実行じっこうファイル）
jBNC - Bayesian Network Classifier Toolbox
POPFile Perl ベースのメール振ふり分わけシステム。
Statistical Pattern Recognition Toolbox for Matlab.

[1] The Optimality of Naive Bayes Harry Shang

[1]