朴ぼく素す贝叶斯分类器

朴ぼく素す贝叶斯分类器（英語えいご：Naive Bayes classifier，台湾たいわん稱しょう為ため單純たんじゅん貝かい氏し分類ぶんるい器き），在ざい机つくえ器き学がく习中ちゅう是ぜ一系列以假设特征之间强（朴ほお素もと）独立どくりつ下しも运用贝叶斯定理ていり为基础的简单概がい率りつ分ぶん类器（英えい语：probabilistic classifier）。

單純たんじゅん貝かい氏し自じ1950年代ねんだい已やめ广泛研究けんきゅう，在ざい1960年代ねんだい初はつ就以另外一个名称引入到文ぶん本ほん信しん息いき检索界さかい中ちゅう，^[1]^:488 并仍然しか是これ文ぶん本分ほんぶん类的てき一いち种热门（基もと准じゅん）方法ほうほう，文ぶん本分ほんぶん类是以词频为特征せい判断はんだん文ぶん件けん所属しょぞく类别或ある其他（如垃圾邮件、合法ごうほう性せい、体育たいいく或ある政治せいじ等とう等とう）的てき问题。通つう过适当とう的てき预处理り，它可以与这个领域更さら先さき进的方法ほうほう（包括ほうかつ支持しじ向こう量りょう机つくえ）相あい竞争。^[2] 它在自あらじ动医い疗诊断だん中なか也有やゆう应用。^[3]

單純たんじゅん貝かい氏し分ぶん类器是ぜ高度こうど可か扩展的てき，因いん此需要よう数量すうりょう与あずか学がく习问题中的てき变量（特とく征せい/预测器き）成なり线性关系的てき参さん数すう。最大さいだい似に然しか训练可か以通过评估一个封ふう闭形式しき的てき表ひょう达式来らい完成かんせい，^[1]^:718 只ただ需花费线性时间，而不需要じゅよう其他很多类型的てき分ぶん类器所しょ使用しよう的てき费时的てき迭代逼近。

在ざい统计学がく和わ计算机つくえ科学かがく文献ぶんけん中ちゅう，單純たんじゅん貝かい氏し模型もけい有ゆう各かく种名称たたえ，包括ほうかつ简单贝叶斯和わ独立どくりつ贝叶斯。^[4] 所有しょゆう这些名称めいしょう都と参考さんこう了りょう贝叶斯定理ていり在ざい该分类器的てき决策规则中ちゅう的てき使用しよう，但ただし單純たんじゅん貝かい氏し不ふ（一定いってい）用よう到いた贝叶斯方法ほうほう；^[4] 《Russell和わNorvig（英えい语：Artificial Intelligence: A Modern Approach）》提ひさげ到いた“『單純たんじゅん貝かい氏し』有ゆう时被称しょう为贝叶斯分类器，这个马虎的てき使用しよう促使真正しんせい的てき贝叶斯论者しゃ称しょう之の为傻瓜贝叶斯模型もけい。”^[1]^:482

简介

單純たんじゅん貝かい氏し是ぜ一种建分类器的简单方法。该分类器模型もけい会かい给问题实例れい分配ぶんぱい用よう特とく征せい值表示ひょうじ的てき类标签，类标签取自じ有限ゆうげん集合しゅうごう。它不是ぜ训练这种分ぶん类器的てき单一算法さんぽう，而是一系列基于相同原理的算法：所有しょゆう單純たんじゅん貝かい氏し分ぶん类器都と假定かてい样本每ごと个特征せい与あずか其他特とく征せい都と不ふ相あい关。举个例れい子こ，如果一种水果其具有红，圆，直径ちょっけい大概たいがい3英えい寸すん等とう特とく征せい，该水果はて可か以被判定はんてい为是苹果りんご。尽つき管かん这些特とく征せい相あい互依赖或ある者もの有ゆう些特征せい由よし其他特とく征せい决定，然しか而單純じゅん貝かい氏し分ぶん类器认为这些属性ぞくせい在ざい判定はんてい该水果はて是ぜ否ひ为苹果りんご的てき概がい率りつ分布ぶんぷ上じょう独立どくりつ的てき。

对于某ぼう些类型がた的てき概がい率りつ模型もけい，在ざい监督式しき学がく习的てき样本集中しゅうちゅう能のう获取得しゅとく非常ひじょう好このみ的てき分ぶん类效果こうか。在ざい许多实际应用中ちゅう，單純たんじゅん貝かい氏し模型もけい参さん数すう估计使用しよう最大さいだい似に然しか估计方法ほうほう；换而言ごと之の，在ざい不用ふよう到いた贝叶斯概率りつ或ある者もの任にん何なん贝叶斯模型がた的てき情じょう况下，單純たんじゅん貝かい氏し模型もけい也能奏效そうこう。

尽つき管かん是ぜ带着这些朴ほお素もと思想しそう和わ过于简单化か的てき假かり设，但ただし單純たんじゅん貝かい氏し分ぶん类器在ざい很多复杂的てき现实情じょう形がた中ちゅう仍能够取得しゅとく相当そうとう好このみ的てき效果こうか。2004年ねん，一いち篇へん分析ぶんせき贝叶斯分类器问题的てき文章ぶんしょう揭示けいじ了りょう單純たんじゅん貝かい氏し分ぶん类器取得しゅとく看み上じょう去さ不可ふか思おもえ议的分ぶん类效果こうか的てき若干じゃっかん理り论上的てき原因げんいん。^[5] 尽つき管かん如此，2006年ねん有ゆう一篇文章详细比较了各种分类方法，发现更新こうしん的てき方法ほうほう（如决策树（英えい语：Gradient boosting）和わ随ずい机つくえ森林しんりん）的てき性能せいのう超ちょう过了贝叶斯分类器。^[6]

單純たんじゅん貝かい氏し分ぶん类器的てき一いち个优势在于只需要じゅよう根ね据すえ少量しょうりょう的てき训练数すう据すえ估计出で必要ひつよう的てき参さん数すう（变量的てき均ひとし值和方かた差さ）。由よし于变量りょう独立どくりつ假かり设，只ただ需要じゅよう估计各かく个变量的りょうてき方法ほうほう，而不需要じゅよう确定整せい个协方差さ矩のり阵。

單純たんじゅん貝かい氏し概がい率りつ模型もけい

理り论上，概がい率りつ模型もけい分ぶん类器是ぜ一个条件概率模型。

p(C\vert F_{1},\dots ,F_{n})\,

独立どくりつ的てき类别变量 $C$ 有ゆう若干じゃっかん类别，条件じょうけん依よ赖于若干じゃっかん特とく征せい变量 $F_{1}$ , $F_{2}$ ,..., $F_{n}$ 。但ただし问题在ざい于如果はて特とく征せい数量すうりょう $n$ 较大或ある者もの每まい个特征せい能取のとろ大量たいりょう值时，基き于概率りつ模型もけい列れつ出で概がい率りつ表ひょう变得不ふ现实。所以ゆえん我わが们修改あらため这个模型もけい使し之の变得可か行ぎょう。贝叶斯定理ていり有ゆう以下いか式子のりこ：

p(C\vert F_{1},\dots ,F_{n})={\frac {p(C)\ p(F_{1},\dots ,F_{n}\vert C)}{p(F_{1},\dots ,F_{n})}}.\,

用よう朴ほお素的すてき语言可か以表达为：

{\mbox{posterior}}={\frac {{\mbox{prior}}\times {\mbox{likelihood}}}{\mbox{evidence}}}.\,

实际中ちゅう，我わが们只关心分ぶん式しき中ちゅう的てき分子ぶんし部分ぶぶん，因いん为分母はは不ふ依よ赖于 $C$ 而且特とく征せい $F_{i}$ 的てき值是给定的てき，于是分母ぶんぼ可か以认为是一いち个常数すう。这样分子ぶんし就等价于联合分布ぶんぷ模型もけい。

p(C,F_{1},\dots ,F_{n})\,

重じゅう复使用しよう链式法ほう则，可か将しょう该式写うつし成なり条件じょうけん概がい率りつ的てき形式けいしき，如下所しょ示しめせ：

p(C,F_{1},\dots ,F_{n})\,

\varpropto p(C)\ p(F_{1},\dots ,F_{n}\vert C)

\varpropto p(C)\ p(F_{1}\vert C)\ p(F_{2},\dots ,F_{n}\vert C,F_{1})

\varpropto p(C)\ p(F_{1}\vert C)\ p(F_{2}\vert C,F_{1})\ p(F_{3},\dots ,F_{n}\vert C,F_{1},F_{2})

\varpropto p(C)\ p(F_{1}\vert C)\ p(F_{2}\vert C,F_{1})\ p(F_{3}\vert C,F_{1},F_{2})\ p(F_{4},\dots ,F_{n}\vert C,F_{1},F_{2},F_{3})

\varpropto p(C)\ p(F_{1}\vert C)\ p(F_{2}\vert C,F_{1})\ p(F_{3}\vert C,F_{1},F_{2})\ \dots p(F_{n}\vert C,F_{1},F_{2},F_{3},\dots ,F_{n-1}).

现在“朴ほお素もと”的てき条件じょうけん独立どくりつ假かり设开始はじめ发挥作用さよう：假かり设每个特征せい $F_{i}$ 对于其他特とく征せい $F_{j}$ , $j\neq i$ 在ざい給きゅう定てい类別 $C$ 下しも是ぜ条件じょうけん独立どくりつ的てき。这就意味いみ着ぎ

p(F_{i}\vert C,F_{j})=p(F_{i}\vert C)\,

对于 $i\neq j$ ，所以ゆえん联合分布ぶんぷ模型もけい可か以表达为

{\begin{aligned}p(C\vert F_{1},\dots ,F_{n})&\varpropto p(C,F_{1},\dots ,F_{n})\\&\varpropto p(C)\ p(F_{1}\vert C)\ p(F_{2}\vert C)\ p(F_{3}\vert C)\ \cdots \,\\&\varpropto p(C)\prod _{i=1}^{n}p(F_{i}\vert C).\,\end{aligned}}

这意味いみ着ぎ上述じょうじゅつ假かり设下，类变量りょう $C$ 的てき条件じょうけん分布ぶんぷ可か以表达为：

p(C\vert F_{1},\dots ,F_{n})={\frac {1}{Z}}p(C)\prod _{i=1}^{n}p(F_{i}\vert C)

其中 $Z$ （证据因子いんし）是ぜ一个只依赖与 $F_{1},\dots ,F_{n}$ 等ひとし的てき缩放因子いんし，当とう特とく征せい变量的てき值已知ち时是一いち个常数すう。由よし于分解ぶんかい成なり所しょ谓的类先验概率りつ $p(C)$ 和わ独立どくりつ概がい率りつ分布ぶんぷ $p(F_{i}\vert C)$ ，上述じょうじゅつ概がい率りつ模型もけい的てき可か掌てのひら控ひかえ性せい得え到いた很大的てき提ひさげ高だか。如果这是一いち个 $k$ 分ぶん类问题，且每个 $p(F_{i}\vert C=c)$ 可か以表达为 $r$ 个参数すう，于是相しょう应的單純たんじゅん貝かい氏し模型もけい有ゆう(k − 1) + n r k个参数すう。实际应用中ちゅう，通常つうじょう取と $k=2$ （二分にぶん类问题）， $r=1$ （伯はく努つとむ利り分布ぶんぷ作さく为特征せい），因いん此模型がた的てき参まいり数すう个数为 $2n+1$ ，其中 $n$ 是ぜ二值分类特征的个数。

从概率りつ模型もけい中ちゅう构造分ぶん类器

讨论至いたり此为止どめ我わが们导出で了りょう独立どくりつ分布ぶんぷ特とく征せい模型もけい，也就是ぜ單純たんじゅん貝かい氏し概がい率りつ模型もけい。單純たんじゅん貝かい氏し分ぶん类器包括ほうかつ了りょう这种模型もけい和わ相しょう应的决策规则。一个普通的规则就是选出最有可能的那个：这就是ぜ大家たいか熟知じゅくち的てき最大さいだい后きさき验概率りつ（MAP）决策准じゅん则。相あい应的分ぶん类器便びん是ぜ如下定てい义的 $\mathrm {classify}$ 公式こうしき：

\mathrm {classify} (f_{1},\dots ,f_{n})={\underset {c}{\operatorname {argmax} }}\ p(C=c)\displaystyle \prod _{i=1}^{n}p(F_{i}=f_{i}\vert C=c).

参まいり数すう估计

所有しょゆう的てき模型もけい参さん数すう都と可か以通过训练集的てき相しょう关频率りつ来らい估计。常用じょうよう方法ほうほう是ぜ概がい率りつ的てき最大さいだい似に然しか估计。类的先さき验概率りつ可か以通过假设各类等概がい率りつ来らい计算（先さき验概率りつ = 1 / (类的数量すうりょう)），或ある者もの通どおり过训练集的てき各かく类样本ほん出で现的次数じすう来らい估计（A类先验概率りつ=（A类样本ほん的てき数量すうりょう）/(样本总数)）。为了估计特とく征せい的てき分布ぶんぷ参さん数すう，我わが们要先さき假かり设训练集数すう据すえ满足某ぼう种分布ぶんぷ或ある者もの非ひ参さん数すう模型もけい。^[7]

高こう斯單純じゅん貝かい氏し

如果要よう处理的てき是ぜ连续数すう据すえ一种通常的假设是这些连续数值为高斯分布。例れい如，假かり设训练集中有ちゅうう一いち个连续属性せい， $x$ 。我わが们首先さき对数据すえ根ね据すえ类别分ぶん类，然しか后きさき计算每ごと个类别中 $x$ 的てき均ひとし值和方かた差さ。令れい $\mu _{c}$ 表示ひょうじ为 $x$ 在ざいc类上的てき均ひとし值，令れい $\sigma _{c}^{2}$ 为 $x$ 在ざいc类上的てき方かた差さ。在ざい给定类中某ぼう个值的てき概がい率りつ， $P(x=v|c)$ ，可か以通过将 $v$ 表示ひょうじ为均值为 $\mu _{c}$ 方かた差さ为 $\sigma _{c}^{2}$ 正せい态分布ぶんぷ计算出来でき。如下， $P(x=v|c)={\tfrac {1}{\sqrt {2\pi \sigma _{c}^{2}}}}\,e^{-{\frac {(v-\mu _{c})^{2}}{2\sigma _{c}^{2}}}}$ 处理连续数すう值问题的另一种常用的技术是通过离散化连续数值的方法。通常つうじょう，当とう训练样本数量すうりょう较少或ある者もの是ぜ精せい确的分布ぶんぷ已やめ知ち时，通つう过概率りつ分布ぶんぷ的てき方法ほうほう是ぜ一种更好的选择。在ざい大量たいりょう样本的てき情じょう形がた下か离散化か的てき方法ほうほう表ひょう现更优，因いん为大量的りょうてき样本可か以学习到数すう据すえ的てき分布ぶんぷ。由よし于單純じゅん貝かい氏し是ぜ一种典型的用到大量样本的方法（越こし大だい计算量的りょうてき模型もけい可か以产生越おごせ高だか的てき分ぶん类精确度），所以ゆえん單純たんじゅん貝かい氏し方法ほうほう都と用よう到いた离散化か方法ほうほう，而不是ぜ概がい率りつ分布ぶんぷ估计的てき方法ほうほう。

样本修正しゅうせい

如果一个给定的类和特征值在训练集中没有一起出现过，那な么基于频率りつ的てき估计下か该概率りつ将はた为0。这将是ぜ一いち个问题。因よし为与其他概がい率りつ相乘そうじょう时将会かい把わ其他概がい率りつ的てき信しん息いき统统去除じょ。所以ゆえん常常つねづね要求ようきゅう要よう对每个小类样本ほん的てき概がい率りつ估计进行修正しゅうせい，以保证不会かい出で现有为0的てき概がい率りつ出で现。

讨论

尽つき管かん实际上じょう独立どくりつ假かり设常常つね是ぜ不ふ准じゅん确的，但ただし單純たんじゅん貝かい氏し分ぶん类器的てき若干じゃっかん特性とくせい让其在ざい实践中ちゅう能のう够取得しゅとく令れい人じん惊奇的てき效果こうか。特とく别地，各かく类条件じょうけん特とく征せい之の间的解かい耦意味いみ着ぎ每ごと个特征せい的てき分布ぶんぷ都と可か以独立地りっち被ひ当とう做一维分布来估计。这样减轻了りょう由よし于维数灾带来的てき阻碍そがい,当とう样本的てき特とく征せい个数增加ぞうか时就不ふ需要じゅよう使し样本规模呈てい指数しすう增ぞう长。然しか而單純じゅん貝かい氏し在ざい大だい多数たすう情じょう况下不能ふのう对类概がい率りつ做出非常ひじょう准じゅん确的估计，但ただし在ざい许多应用中ちゅう这一いち点てん并不要求ようきゅう。例れい如，單純たんじゅん貝かい氏し分ぶん类器中ちゅう，依よ据すえ最大さいだい后きさき验概率りつ决策规则只ただ要よう正せい确类的てき后きさき验概率りつ比ひ其他类要高だか就可以得到いた正せい确的分ぶん类。所以ゆえん不ふ管かん概がい率りつ估计轻度的てき甚至是ぜ严重的てき不精ぶしょう确都不ふ影かげ响正确的分ぶん类结果はて。在ざい这种方式ほうしき下か，分ふん类器可か以有足あし够的鲁棒性せい去さ忽ゆるがせ略りゃく單純たんじゅん貝かい氏し概がい率りつ模型もけい上じょう存在そんざい的てき缺陷けっかん。

实例

性せい别分类

问题描述:通つう过一些测量的特征，包括ほうかつ身み高だか、体重たいじゅう、脚あし的てき尺寸しゃくすん，判定はんてい一个人是男性还是女性。

训练

训练数すう据すえ如下：

性せい别	身み高だか(英えい尺じゃく)	体重たいじゅう(磅)	脚あし的てき尺寸しゃくすん(英えい寸すん)
男おとこ	6	180	12
男おとこ	5.92 (5'11")	190	11
男おとこ	5.58 (5'7")	170	12
男おとこ	5.92 (5'11")	165	10
女おんな	5	100	6
女おんな	5.5 (5'6")	150	8
女おんな	5.42 (5'5")	130	7
女おんな	5.75 (5'9")	150	9

假かり设训练集样本的てき特とく征せい满足高だか斯分布ぶんぷ，得とく到いた下表かひょう：

性せい别	均ひとし值(身み高だか)	方かた差さ(身み高だか)	均ひとし值(体重たいじゅう)	方かた差さ(体重たいじゅう)	均ひとし值(脚あし的てき尺寸しゃくすん)	方かた差さ(脚あし的てき尺寸しゃくすん)
男性だんせい	5.855	3.5033e-02	176.25	1.2292e+02	11.25	9.1667e-01
女性じょせい	5.4175	9.7225e-02	132.5	5.5833e+02	7.5	1.6667e+00

我わが们认为两种类别是等とう概がい率りつ的てき，也就是ぜP(male)= P(female) = 0.5。在ざい没ぼつ有ゆう做辨识的情じょう况下就做这样的てき假かり设并不ふ是ぜ一いち个好的てき点てん子こ。但ただし我わが们通过数据すえ集中しゅうちゅう两类样本出で现的频率来らい确定P(C)，我わが们得到いた的てき结果也是一いち样的。

测试

以下いか给出一个待分类是男性还是女性的样本。

性せい别	身み高だか(英えい尺じゃく)	体重たいじゅう(磅)	脚あし的てき尺寸しゃくすん（英えい寸すん）
未み知性ちせい別べつ的てき樣さま本ほん	6	130	8

我わが们希望きぼう得え到いた的てき是ぜ男性だんせい还是女性じょせい哪类的てき后きさき验概率りつ大だい。男性だんせい的てき后きさき验概率りつ通どおり过下面めん式子しょくし来らい求もとめ取ど

posterior(male)={\frac {P(male)\,p(height|male)\,p(weight|male)\,p(footsize|male)}{evidence}}

女性じょせい的てき后きさき验概率りつ通どおり过下面めん式子しょくし来らい求もとめ取ど

posterior(female)={\frac {P(female)\,p(height|female)\,p(weight|female)\,p(footsize|female)}{evidence}}

证据因子いんし（通常つうじょう是ぜ常数じょうすう）用よう来らい对各类的后きさき验概率りつ之の和わ进行归一化か.

evidence=P(male)\,p(height|male)\,p(weight|male)\,p(footsize|male)+P(female)\,p(height|female)\,p(weight|female)\,p(footsize|female)

证据因子いんし是ぜ一いち个常数すう（在ざい正せい态分布ぶんぷ中ちゅう通常つうじょう是正ぜせい数すう），所以ゆえん可か以忽略りゃく。接せっ下か来らい我わが们来判定はんてい这样样本的てき性せい别。

P(male)=0.5

$p({\mbox{height}}|{\mbox{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789$ ,其中 $\mu =5.855$ ， $\sigma ^{2}=3.5033e^{-02}$ 是ぜ训练集しゅう样本的てき正せい态分布ぶんぷ参さん数すう. 注意ちゅうい，这里的てき值大于1也是允まこと许的 – 这里是ぜ概がい率りつ密度みつど而不是ぜ概がい率りつ，因いん为身高だか是ぜ一个连续的变量.

p(weight|male)=5.9881e^{-06}

p(footsize|male)=1.3112e^{-3}

posteriornumerator(male)=6.1984e^{-09}

P(female)=0.5

p(height|female)=2.2346e^{-1}

p(weight|female)=1.6789e^{-2}

p(footsize|female)=2.8669e^{-1}

posteriornumerator(female)=5.3778e^{-04}

由よし于女性じょせい后きさき验概率りつ的てき分子ぶんし比ひ较大，所以ゆえん我わが们预计这个样本ほん是ぜ女性じょせい。

文ぶん本分ほんぶん类

这是一个用單純貝氏分类做的一个文ぶん本分ほんぶん类问题的てき例れい子こ。考こう虑一个基于内容的文本分类问题，例れい如判断はんだん邮件是ぜ否ひ为垃圾邮件けん。想像そうぞう文ぶん本ほん可か以分成なり若干じゃっかん的てき类别，首しゅ先さき文ぶん本ほん可か以被一些单词集标注，而这个单词集是ぜ独立どくりつ分布ぶんぷ的てき，在ざい给定的てきC类文本中ほんなか第だいi个单词出现的概がい率りつ可か以表示ひょうじ为：

p(w_{i}\vert C)\,

（通つう过这种处理り，我わが们进一いち步ほ简化了りょう工作こうさく，假かり设每个单词是在ざい文中ぶんちゅう是ぜ随ずい机つくえ分布ぶんぷ的てき-也就是ぜ单词不ふ依よ赖于文ぶん本ほん的てき长度，与あずか其他词出现在文中ぶんちゅう的てき位置いち，或ある者もの其他文ぶん本ほん内容ないよう。）

所以ゆえん，对于一个给定类别C，文ぶん本ほんD包含ほうがん所有しょゆう单词 $w_{i}$ 的てき概がい率りつ是ぜ:

p(D\vert C)=\prod _{i}p(w_{i}\vert C)\,

我わが们要回答かいとう的てき问题是ぜ「文ぶん档D属ぞく于类C的てき概がい率りつ是ぜ多少たしょう？」换而言ごと之の $p(C\vert D)\,$ 是ぜ多少たしょう？现在定てい义

p(D\vert C)={p(D\cap C) \over p(C)}

p(C\vert D)={p(D\cap C) \over p(D)}

通つう过贝叶かのう斯定理ていり将しょう上述じょうじゅつ概がい率りつ处理成なり似に然しか度ど的てき形式けいしき

p(C\vert D)={p(C) \over p(D)}\,p(D\vert C)

假かり设现在ざい只ただ有ゆう两个相互そうご独立どくりつ的てき类别，S和わ¬S（垃圾邮件和わ非ひ垃圾邮件），这里每ごと个元素げんそ（邮件）要よう么是垃圾邮件，要よう么就不ふ是ぜ。

p(D\vert S)=\prod _{i}p(w_{i}\vert S)\,

p(D\vert \neg S)=\prod _{i}p(w_{i}\vert \neg S)\,

用よう上述じょうじゅつ贝叶斯的结果，可か以写成なり

p(S\vert D)={p(S) \over p(D)}\,\prod _{i}p(w_{i}\vert S)

p(\neg S\vert D)={p(\neg S) \over p(D)}\,\prod _{i}p(w_{i}\vert \neg S)

两者相しょう除じょ:

{p(S\vert D) \over p(\neg S\vert D)}={p(S)\,\prod _{i}p(w_{i}\vert S) \over p(\neg S)\,\prod _{i}p(w_{i}\vert \neg S)}

整理せいり得どく:

{p(S\vert D) \over p(\neg S\vert D)}={p(S) \over p(\neg S)}\,\prod _{i}{p(w_{i}\vert S) \over p(w_{i}\vert \neg S)}

这样概がい率りつ比ひp(S | D) / p(¬S | D)可か以表达为似に然しか比ひ。实际的てき概がい率りつp(S | D)可か以很容易ようい通どおり过log (p(S | D) / p(¬S | D))计算出来でき，基き于p(S | D) + p(¬S | D) = 1。

结合上面うわつら所しょ讨论的てき概がい率りつ比ひ，可か以得到いた：

\ln {p(S\vert D) \over p(\neg S\vert D)}=\ln {p(S) \over p(\neg S)}+\sum _{i}\ln {p(w_{i}\vert S) \over p(w_{i}\vert \neg S)}

(这种对数似に然しか比ひ的てき技わざ术在统计中ちゅう是ぜ一种常用的技术。在ざい这种两个独立どくりつ的てき分ぶん类情况下（如这个垃圾邮件けん的てき例れい子こ），把わ对数似に然しか比ひ转化为S曲きょく线的てき形式けいしき)。

最さい后きさき文ぶん本ほん可か以分类，当とう $p(S\vert D)>p(\neg S\vert D)$ 或ある者もの $\ln {p(S\vert D) \over p(\neg S\vert D)}>0$ 时判定はんてい为垃圾邮件けん，否いや则为正常せいじょう邮件。

参まいり见

参考さんこう文献ぶんけん

^ ^1.0 ^1.1 ^1.2 Russell, Stuart; Norvig, Peter. Artificial Intelligence: A Modern Approach（英えい语：Artificial Intelligence: A Modern Approach） 2nd. Prentice Hall. 2003 [1995]. ISBN 978-0137903955.
^ Rennie, J.; Shih, L.; Teevan, J.; Karger, D. Tackling the poor assumptions of Naive Bayes classifiers (PDF). ICML. 2003 [2012-04-01]. （原始げんし内容ないよう存そん档 (PDF)于2023-11-29）.
^ Rish, Irina. An empirical study of the naive Bayes classifier (PDF). IJCAI Workshop on Empirical Methods in AI. 2001 [2012-04-01]. （原始げんし内容ないよう存そん档 (PDF)于2017-12-10）.
^ ^4.0 ^4.1 Hand, D. J.; Yu, K. Idiot's Bayes — not so stupid after all?. International Statistical Review. 2001, 69 (3): 385–399. ISSN 0306-7734. doi:10.2307/1403452.
^ Harry Zhang "The Optimality of Naive Bayes". FLAIRS2004 conference. (available online: PDF （页面存そん档备份，存そん于互联网档案あん馆）)
^ Caruana, R. and Niculescu-Mizil, A.: "An empirical comparison of supervised learning algorithms". Proceedings of the 23rd international conference on Machine learning, 2006. (available online [1] （页面存そん档备份，存そん于互联网档案あん馆）)
^ George H. John and Pat Langley (1995). Estimating Continuous Distributions in Bayesian Classifiers. Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence. pp. 338-345. Morgan Kaufmann, San Mateo.

延伸えんしん阅读

Domingos, Pedro; Pazzani, Michael. On the optimality of the simple Bayesian classifier under zero-one loss. Machine Learning. 1997, 29: 103–137 [2012-04-01]. （原始げんし内容ないよう存そん档于2008-04-18）.
Webb, G. I.; Boughton, J.; Wang, Z. Not So Naive Bayes: Aggregating One-Dependence Estimators. Machine Learning (Springer). 2005, 58 (1): 5–24. doi:10.1007/s10994-005-4258-6. ^{[永久えいきゅう失效しっこう連結れんけつ]}
Mozina, M.; Demsar, J.; Kattan, M.; Zupan, B. Nomograms for Visualization of Naive Bayesian Classifier (PDF). Proc. PKDD-2004: 337–348. 2004 [2015-05-30]. （原始げんし内容ないよう存そん档 (PDF)于2023-11-29）.
Maron, M. E. Automatic Indexing: An Experimental Inquiry. JACM. 1961, 8 (3): 404–417. doi:10.1145/321075.321084.
Minsky, M. Steps toward Artificial Intelligence. Proc. IRE 49 (1): 8–30. 1961.

外部がいぶ链接

Book Chapter: Naive Bayes text classification, Introduction to Information Retrieval （页面存そん档备份，存そん于互联网档案あん馆）
Naive Bayes for Text Classification with Unbalanced Classes （页面存そん档备份，存そん于互联网档案あん馆）
Benchmark results of Naive Bayes implementations （页面存そん档备份，存そん于互联网档案あん馆）
Hierarchical Naive Bayes Classifiers for uncertain data （页面存そん档备份，存そん于互联网档案あん馆） (an extension of the Naive Bayes classifier).

软件

Naive Bayes classifiers are available in many general-purpose machine learning and NLP packages, including Apache Mahout, Mallet （页面存そん档备份，存そん于互联网档案あん馆）, NLTK, Orange, scikit-learn and Weka.
IMSL Numerical Libraries Collections of math and statistical algorithms available in C/C++, Fortran, Java and C#/.NET. Data mining routines in the IMSL Libraries include a Naive Bayes classifier.
Winnow content recommendation Open source Naive Bayes text classifier works with very small training and unbalanced training sets. High performance, C, any Unix.
An interactive Microsoft Excel spreadsheet Naive Bayes implementation （页面存そん档备份，存そん于互联网档案あん馆） using VBA (requires enabled macros) with viewable source code.
jBNC - Bayesian Network Classifier Toolbox （页面存そん档备份，存そん于互联网档案あん馆）
Statistical Pattern Recognition Toolbox for Matlab （页面存そん档备份，存そん于互联网档案あん馆）.
ifile （页面存そん档备份，存そん于互联网档案あん馆） - the first freely available (Naive) Bayesian mail/spam filter
NClassifier （页面存そん档备份，存そん于互联网档案あん馆） - NClassifier is a .NET library that supports text classification and text summarization. It is a port of Classifier4J.
Classifier4J （页面存そん档备份，存そん于互联网档案あん馆） - Classifier4J is a Java library designed to do text classification. It comes with an implementation of a Bayesian classifier.

[aima-1] 1.0 ^1.1 ^1.2 Russell, Stuart; Norvig, Peter. Artificial Intelligence: A Modern Approach（英えい语：Artificial Intelligence: A Modern Approach） 2nd. Prentice Hall. 2003 [1995]. ISBN 978-0137903955.

[rennie-2] Rennie, J.; Shih, L.; Teevan, J.; Karger, D. Tackling the poor assumptions of Naive Bayes classifiers (PDF). ICML. 2003 [2012-04-01]. （原始げんし内容ないよう存そん档 (PDF)于2023-11-29）.

[rish-3] Rish, Irina. An empirical study of the naive Bayes classifier (PDF). IJCAI Workshop on Empirical Methods in AI. 2001 [2012-04-01]. （原始げんし内容ないよう存そん档 (PDF)于2017-12-10）.

[idiots-4] 4.0 ^4.1 Hand, D. J.; Yu, K. Idiot's Bayes — not so stupid after all?. International Statistical Review. 2001, 69 (3): 385–399. ISSN 0306-7734. doi:10.2307/1403452.

[5] Harry Zhang "The Optimality of Naive Bayes". FLAIRS2004 conference. (available online: PDF （页面存そん档备份，存そん于互联网档案あん馆）)

[6] Caruana, R. and Niculescu-Mizil, A.: "An empirical comparison of supervised learning algorithms". Proceedings of the 23rd international conference on Machine learning, 2006. (available online [1] （页面存そん档备份，存そん于互联网档案あん馆）)

[7] George H. John and Pat Langley (1995). Estimating Continuous Distributions in Bayesian Classifiers. Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence. pp. 338-345. Morgan Kaufmann, San Mateo.

[1]

[2]

[3]

[4]

[5]

[6]

[7]