(Translated by https://www.hiragana.jp/)
朴素贝叶斯分类器 - 维基百科,自由的百科全书 とべ转到内容ないよう

ぼく贝叶斯分类器

本页使用了标题或全文手工转换
维基百科ひゃっか自由じゆうてき百科ひゃっかぜん


ぼく贝叶斯分类器英語えいごNaive Bayes classifier台湾たいわんしょうため單純たんじゅんかい分類ぶんるい),ざいつくえがくちゅう一系列以假设特征之间强(ほおもと独立どくりつしも运用贝叶斯定理ていり为基础的简单がいりつぶん类器えいprobabilistic classifier

單純たんじゅんかい1950年代ねんだいやめ广泛研究けんきゅうざい1960年代ねんだいはつ就以另外一个名称引入到ぶんほんしんいき检索さかいちゅう[1]:488 并仍しかこれぶん本分ほんぶんてきいち种热门(もとじゅん方法ほうほうぶん本分ほんぶん类是以词频为特せい判断はんだんぶんけん所属しょぞく类别ある其他(如垃圾邮件合法ごうほうせい体育たいいくある政治せいじとうとうてき问题。つう过适とうてき预处,它可以与这个领域さらさき进的方法ほうほう包括ほうかつ支持しじこうりょうつくえあい竞争。[2]在自あらじ疗诊だんなか也有やゆう应用。[3]

單純たんじゅんかいぶん类器高度こうど扩展てきいん此需よう数量すうりょうあずかがく习问题中てき变量(とくせい/预测なり线性关系てきさんすう最大さいだいしか训练以通过评估一个ふう闭形しきてきひょう达式らい完成かんせい[1]:718 ただ需花费线性时间,而不需要じゅよう其他很多类型てきぶん类器しょ使用しようてき费时てき迭代逼近

ざい统计がく计算つくえ科学かがく文献ぶんけんちゅう單純たんじゅんかい模型もけいゆうかく种名たたえ包括ほうかつ简单贝叶斯独立どくりつ贝叶斯[4] 所有しょゆう这些名称めいしょう参考さんこうりょう贝叶斯定理ていりざい该分类器てき决策规则ちゅうてき使用しようただし單純たんじゅんかい一定いっていよういた贝叶斯方法ほうほう[4]RussellNorvigえいArtificial Intelligence: A Modern Approachひさげいた“『單純たんじゅんかいゆう时被しょう贝叶斯分类器,这个马虎てき使用しよう促使真正しんせいてき贝叶斯论しゃしょう傻瓜贝叶斯模型もけい。”[1]:482

简介

[编辑]

單純たんじゅんかい一种建分类器的简单方法。该分类器模型もけいかい给问题实れい分配ぶんぱいようとくせい表示ひょうじてき类标签,类标签取有限ゆうげん集合しゅうごう。它不训练这种ぶん类器てき单一算法さんぽう,而是一系列基于相同原理的算法:所有しょゆう單純たんじゅんかいぶん类器假定かてい样本ごと个特せいあずか其他とくせいあい。举个れい,如果一种水果其具有红,圆,直径ちょっけい大概たいがい3えいすんとうとくせい,该水はて以被判定はんてい为是苹果りんごつきかん这些とくせいあい互依赖あるものゆう些特せいよし其他とくせい决定,しか而單じゅんかいぶん类器认为这些属性ぞくせいざい判定はんてい该水はて苹果りんごてきがいりつ分布ぶんぷじょう独立どくりつてき

对于ぼう些类がたてきがいりつ模型もけいざい监督しきがくてき样本集中しゅうちゅうのう取得しゅとく非常ひじょうこのみてきぶん效果こうかざい许多实际应用ちゅう單純たんじゅんかい模型もけいさんすう估计使用しよう最大さいだいしか估计方法ほうほう;换而ごとざい不用ふよういた贝叶斯概りつあるものにんなん贝叶斯模がたてきじょう况下,單純たんじゅんかい模型もけい也能奏效そうこう

つきかん带着这些ほおもと思想しそう过于简单てきかり设,ただし單純たんじゅんかいぶん类器ざい很多复杂てき现实じょうがたちゅう仍能够取得しゅとく相当そうとうこのみてき效果こうか。2004ねんいちへん分析ぶんせき贝叶斯分类器问题てき文章ぶんしょう揭示けいじりょう單純たんじゅんかいぶん类器取得しゅとくじょう不可ふかおもえ议的ぶん效果こうかてき若干じゃっかん论上てき原因げんいん[5] つきかん如此,2006ねんゆう一篇文章详细比较了各种分类方法,发现更新こうしんてき方法ほうほう(如决策树えいGradient boostingずいつくえ森林しんりんてき性能せいのうちょう过了贝叶斯分类器。[6]

單純たんじゅんかいぶん类器てきいち个优势在于只需要じゅようすえ少量しょうりょうてき训练すうすえ估计必要ひつようてきさんすう(变量てきひとし值和かた)。よし于变りょう独立どくりつかり设,ただ需要じゅよう估计かく个变量的りょうてき方法ほうほう,而不需要じゅよう确定せい协方のり

單純たんじゅんかいがいりつ模型もけい

[编辑]

论上,がいりつ模型もけいぶん类器一个条件概率模型。

独立どくりつてき类别变量ゆう若干じゃっかん类别,条件じょうけん赖于若干じゃっかんとくせい变量 ,,...,ただし问题ざい于如はてとくせい数量すうりょう较大あるものまい个特せい能取のとろ大量たいりょう值时,于概りつ模型もけいれつがいりつひょう变得现实。所以ゆえんわが们修あらため这个模型もけい使变得ぎょう贝叶斯定理ていりゆう以下いか式子のりこ

ようほお素的すてき语言以表达为:

实际ちゅうわが们只关心ぶんしきちゅうてき分子ぶんし部分ぶぶんいん为分はは赖于而且とくせいてき值是给定てき,于是分母ぶんぼ以认为是いち个常すう。这样分子ぶんし就等价于联合分布ぶんぷ模型もけい

じゅう使用しよう链式ほうしょう该式うつしなり条件じょうけんがいりつてき形式けいしき,如下しょしめせ

现在“ほおもとてき条件じょうけん独立どくりつかり设开はじめ发挥作用さようかり设每个特せい对于其他とくせい,ざいきゅうてい类別しも条件じょうけん独立どくりつてき。这就意味いみ

对于所以ゆえん联合分布ぶんぷ模型もけい以表达为

意味いみ上述じょうじゅつかり设下,类变りょうてき条件じょうけん分布ぶんぷ以表达为:

其中(证据因子いんし一个只依赖与ひとしてき缩放因子いんしとうとくせい变量てき值已时是いち个常すうよし分解ぶんかいなりしょ谓的类先验概りつ独立どくりつがいりつ分布ぶんぷ上述じょうじゅつがいりつ模型もけいてきてのひらひかえせいいた很大てきひさげだか。如果这是いちぶん类问题,且每个以表达为个参すう,于是しょう应的單純たんじゅんかい模型もけいゆう(k − 1) + n r k个参すう。实际应用ちゅう通常つうじょう二分にぶん类问题),はくつとむ分布ぶんぷさく为特せい),いん此模がたてきまいりすう个数为,其中二值分类特征的个数。

从概りつ模型もけいちゅう构造ぶん类器

[编辑]

讨论いたり此为どめわが们导りょう独立どくりつ分布ぶんぷとくせい模型もけい,也就單純たんじゅんかいがいりつ模型もけい單純たんじゅんかいぶん类器包括ほうかつりょう这种模型もけいしょう应的决策规则。一个普通的规则就是选出最有可能的那个:这就大家たいか熟知じゅくちてき最大さいだいきさき验概りつ(MAP)决策じゅん则。あい应的ぶん类器便びん如下てい义的公式こうしき

まいりすう估计

[编辑]

所有しょゆうてき模型もけいさんすう以通过训练集てきしょう关频りつらい估计。常用じょうよう方法ほうほうがいりつてき最大さいだいしか估计。类的さき验概りつ以通过假设各类等がいりつらい计算(さき验概りつ = 1 / (类的数量すうりょう)),あるものどおり过训练集てきかく类样ほん现的次数じすうらい估计(A类先验概りつ=(A类样ほんてき数量すうりょう)/(样本总数))。为了估计とくせいてき分布ぶんぷさんすうわが们要さきかり设训练集すうすえ满足ぼう分布ぶんぷあるものさんすう模型もけい[7]

こう斯單じゅんかい

[编辑]

如果よう处理てき连续すうすえ一种通常的假设是这些连续数值为高斯分布。 れい如,かり设训练集中有ちゅうういち个连续属せいわが们首さき对数すえすえ类别ぶん类,しかきさき计算ごと个类别中てきひとし值和かたれい 表示ひょうじざいc类上てきひとし值,れいざいc类上てきかたざい给定类中ぼう个值てきがいりつ以通过将表示ひょうじ为均值为かたせい分布ぶんぷ计算出来でき。如下, 处理连续すう值问题的另一种常用的技术是通过离散化连续数值的方法。通常つうじょうとう训练样本数量すうりょう较少あるものせい确的分布ぶんぷやめ时,つう过概りつ分布ぶんぷてき方法ほうほう一种更好的选择。ざい大量たいりょう样本てきじょうがた离散てき方法ほうほうひょう现更优,いん为大量的りょうてき样本以学习到すうすえてき分布ぶんぷよし于單じゅんかい一种典型的用到大量样本的方法(こしだい计算量的りょうてき模型もけい以产生越おごせだかてきぶん类精确度),所以ゆえん單純たんじゅんかい方法ほうほうよういた离散方法ほうほう,而不がいりつ分布ぶんぷ估计てき方法ほうほう

样本修正しゅうせい

[编辑]

如果一个给定的类和特征值在训练集中没有一起出现过,么基于频りつてき估计该概りつはた为0。这将いち个问题。よし为与其他がいりつ相乘そうじょう时将かい其他がいりつてきしんいき统统去じょ所以ゆえん常常つねづね要求ようきゅうよう对每个小类样ほんてきがいりつ估计进行修正しゅうせい,以保证不かい现有为0てきがいりつ现。

讨论

[编辑]

つきかん实际じょう独立どくりつかり设常つねじゅん确的,ただし單純たんじゅんかいぶん类器てき若干じゃっかん特性とくせい让其ざい实践ちゅうのう取得しゅとくれいじん惊奇てき效果こうかとく别地,かく条件じょうけんとくせい间的かい意味いみごと个特せいてき分布ぶんぷ以独立地りっちとう做一维分布来估计。这样减轻りょうよし维数灾带来てき阻碍そがい,とう样本てきとくせい个数增加ぞうか时就需要じゅよう使样本规模てい指数しすうぞう长。しか而單じゅんかいざいだい多数たすうじょう况下不能ふのう对类がいりつ做出非常ひじょうじゅん确的估计,ただしざい许多应用ちゅういちてん并不要求ようきゅうれい如,單純たんじゅんかいぶん类器ちゅうすえ最大さいだいきさき验概りつ决策规则ただようせい确类てききさき验概りつ其他类要だか就可以得いたせい确的ぶん类。所以ゆえんかんがいりつ估计轻度てき甚至严重てき不精ぶしょう确都かげ响正确的ぶん类结はてざい这种方式ほうしきふん类器以有あし够的鲁棒せいゆるがせりゃく單純たんじゅんかいがいりつ模型もけいじょう存在そんざいてき缺陷けっかん

实例

[编辑]

せい别分类

[编辑]

问题描述:つう过一些测量的特征,包括ほうかつだか体重たいじゅうあしてき尺寸しゃくすん判定はんてい一个人是男性还是女性。

训练

[编辑]

训练すうすえ如下:

せい だか(えいじゃく) 体重たいじゅう(磅) あしてき尺寸しゃくすん(えいすん)
おとこ 6 180 12
おとこ 5.92 (5'11") 190 11
おとこ 5.58 (5'7") 170 12
おとこ 5.92 (5'11") 165 10
おんな 5 100 6
おんな 5.5 (5'6") 150 8
おんな 5.42 (5'5") 130 7
おんな 5.75 (5'9") 150 9

かり设训练集样本てきとくせい满足だか分布ぶんぷとくいた下表かひょう

せい ひとし值(だか) かた(だか) ひとし值(体重たいじゅう) かた(体重たいじゅう) ひとし值(あしてき尺寸しゃくすん) かた(あしてき

尺寸しゃくすん)

男性だんせい 5.855 3.5033e-02 176.25 1.2292e+02 11.25 9.1667e-01
女性じょせい 5.4175 9.7225e-02 132.5 5.5833e+02 7.5 1.6667e+00

わが们认为两种类别是とうがいりつてき,也就P(male)= P(female) = 0.5。ざいぼつゆう做辨识的じょう况下就做这样てきかり设并いち个好てきてんただしわが们通过数すえ集中しゅうちゅう两类样本现的频率らい确定P(C),わが们得いたてき结果也是いち样的。

测试

[编辑]

以下いか给出一个待分类是男性还是女性的样本。

せい だか(えいじゃく) 体重たいじゅう(磅) あしてき尺寸しゃくすんえいすん
知性ちせいべつてきさまほん 6 130 8

わが希望きぼういたてき男性だんせい还是女性じょせい哪类てききさき验概りつだい男性だんせいてききさき验概りつどおり过下めん式子しょくしらいもとめ

女性じょせいてききさき验概りつどおり过下めん式子しょくしらいもとめ

证据因子いんし通常つうじょう常数じょうすうようらい对各类的きさき验概りつ进行归一.

证据因子いんしいち个常すうざいせい分布ぶんぷちゅう通常つうじょう是正ぜせいすう),所以ゆえん以忽りゃくせっらいわが们来判定はんてい这样样本てきせい别。

,其中训练しゅう样本てきせい分布ぶんぷさんすう. 注意ちゅうい,这里てき值大于1也是まこと许的 – 这里がいりつ密度みつど而不がいりついん为身だか一个连续的变量.

よし女性じょせいきさき验概りつてき分子ぶんし较大,所以ゆえんわが们预计这个样ほん女性じょせい

ぶん本分ほんぶん

[编辑]

这是一个用單純貝氏分类做的一个ぶん本分ほんぶん问题てきれいこう虑一个基于内容的文本分类问题,れい判断はんだん邮件为垃圾邮けん想像そうぞうぶんほん以分なり若干じゃっかんてき类别,しゅさきぶんほん以被一些单词集标注,而这个单词集独立どくりつ分布ぶんぷてきざい给定てきC类文本中ほんなかだいi个单词出现的がいりつ表示ひょうじ为:

つう过这种处わが们进いち简化りょう工作こうさくかり设每个单词是ざい文中ぶんちゅうずいつくえ分布ぶんぷてき-也就单词赖于ぶんほんてき长度,あずか其他词出现在文中ぶんちゅうてき位置いちあるもの其他ぶんほん内容ないよう。)

所以ゆえん,对于一个给定类别CぶんほんD包含ほうがん所有しょゆう单词てきがいりつ:

わが们要回答かいとうてき问题ぶんDぞく于类Cてきがいりつ多少たしょう?」换而ごと多少たしょう? 现在てい

つう过贝かのう定理ていりしょう上述じょうじゅつがいりつ处理なりしかてき形式けいしき

かり设现ざいただゆう两个相互そうご独立どくりつてき类别,S¬S(垃圾邮件垃圾邮件),这里ごと元素げんそ(邮件)よう么是垃圾邮件,よう么就


よう上述じょうじゅつ贝叶斯的结果,以写なり

两者しょうじょ:

整理せいりどく:

这样がいりつp(S | D) / p(¬S | D)以表达为しか。实际てきがいりつp(S | D)以很容易よういどおり过log (p(S | D) / p(¬S | D))计算出来でき于p(S | D) + p(¬S | D) = 1。

结合上面うわつらしょ讨论てきがいりつ以得いた

(这种对数しかてきわざ术在统计ちゅう一种常用的技术。ざい这种两个独立どくりつてきぶん类情况下(如这个垃圾邮けんてきれい),对数しか转化为Sきょく线てき形式けいしき)。

さいきさきぶんほん以分类,とうあるもの判定はんてい为垃圾邮けんいや则为正常せいじょう邮件。

まいり

[编辑]

参考さんこう文献ぶんけん

[编辑]
  1. ^ 1.0 1.1 1.2 Russell, Stuart; Norvig, Peter. Artificial Intelligence: A Modern ApproachえいArtificial Intelligence: A Modern Approach 2nd. Prentice Hall. 2003 [1995]. ISBN 978-0137903955. 
  2. ^ Rennie, J.; Shih, L.; Teevan, J.; Karger, D. Tackling the poor assumptions of Naive Bayes classifiers (PDF). ICML. 2003 [2012-04-01]. (原始げんし内容ないようそん (PDF)于2023-11-29). 
  3. ^ Rish, Irina. An empirical study of the naive Bayes classifier (PDF). IJCAI Workshop on Empirical Methods in AI. 2001 [2012-04-01]. (原始げんし内容ないようそん (PDF)于2017-12-10). 
  4. ^ 4.0 4.1 Hand, D. J.; Yu, K. Idiot's Bayes — not so stupid after all?. International Statistical Review. 2001, 69 (3): 385–399. ISSN 0306-7734. doi:10.2307/1403452. 
  5. ^ Harry Zhang "The Optimality of Naive Bayes". FLAIRS2004 conference. (available online: PDF页面そん档备份そん互联网档あん))
  6. ^ Caruana, R. and Niculescu-Mizil, A.: "An empirical comparison of supervised learning algorithms". Proceedings of the 23rd international conference on Machine learning, 2006. (available online [1]页面そん档备份そん互联网档あん))
  7. ^ George H. John and Pat Langley (1995). Estimating Continuous Distributions in Bayesian Classifiers. Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence. pp. 338-345. Morgan Kaufmann, San Mateo.

延伸えんしん阅读

[编辑]

外部がいぶ链接

[编辑]
软件