(Translated by https://www.hiragana.jp/)
过拟合 - 维基百科,自由的百科全书 とべ转到内容ないよう

过拟あい

本页使用了标题或全文手工转换
维基百科ひゃっか自由じゆうてき百科ひゃっかぜん
绿线代表だいひょう过拟あい模型もけいくろ线代表だいひょうせい则化模型もけい。虽然绿线かん美的びてき符合ふごう训练すうすえただし拟合ぶと过紧みつあるせい确;并且与くろ线相ざいしんてき测试すうすえうえかいゆうさらだかてき错误りつ

ざい统计がくなか过拟あいえい语:overfittingあるしょう拟合过度ゆび过于紧密あるせい确地ひきはい特定とくていすうすえしゅう,以致于无ほう良好りょうこう拟合其他すうすえある预测未来みらいてき观察结果てき现象[1]过拟あい模型もけいゆびてきしょう较有げんてきすうすえ而言,さんすう过多あるもの结构过于复杂てき统计模型もけい[2]发生过拟あい时,模型もけいてき偏差へんさしょうかただい。过拟あいてきほん质是训练算法さんぽう统计噪声ちゅう觉获取りょうしんいき并表达在りょう模型もけい结构てきまいりすうとうなか[3]:45あい较用于训练的すうすえ总量らい说,一个模型只要结构足够复杂或参数足够多,就总以完适应すうすえてき。过拟あい一般可以视为违反おく卡姆剃刀かみそりはら则。

あずか过拟ごうしょう对应てき概念がいねんかけ拟合えい语:underfittingあるしょう拟合不足ふそく);它是ゆびしょう较于すうすえ而言,模型もけいさんすう过少あるもの模型もけい结构过于简单,以至于无ほう捕捉ほそくいたかずすえちゅうてき规律てき现象。发生かけ拟合时,模型もけいてき偏差へんさだい而方しょう

ざいつくえがくある人工じんこうしん经网络なか,过拟あいあずかかけ拟合ゆう时也しょう为“过训练(えい语:overtraining)”かずかけ训练(えい语:undertraining)”。

これ所以ゆえん存在そんざい过拟あいてき可能かのういん选择模型もけいてき标准评价模型もけいてき标准不一致ふいっちてき。举例らい说,选择模型もけい时往往是选取ざい训练すうすえ上表じょうひょう现最このみてき模型もけいただし评价模型もけい时则观察模型もけいざい训练过程ちゅう不可ふか见数すえじょうてきひょう现。とう模型もけい尝试“记住”训练すうすえ而非从训练数すえなかがく规律时,就可能かのう发生过拟あい一般いっぱんらい说,とうさんすうてき自由じゆうある模型もけい结构てき复杂ちょう过数すえしょ包含ほうがんしんいき内容ないよう时,拟合きさきてき模型もけい可能かのう使用しよう任意にんいてきさんすう,这会くだひくあるやぶ坏模がた泛化てき能力のうりょく

ざい统计がく习和つくえがく习中,为了避免ある减轻过拟あい现象,须要使用しよう额外てき技巧ぎこう(如模型もけい选择交叉こうさ验证ひさげぜん停止ていしせい则化剪枝贝叶斯信いきりょうじゅん赤池あかいけしんいきりょうじゅんあるdropout)。ざいtreatment learningちゅう使用しよう最小さいしょうさいけい支持しじ值(えい语:minimum best support valueらい避免过拟あい[らいみなもと请求]这些方法ほうほうだい致可ぶん为两类:1. 对模がたてき复杂进行惩罚,从而避免产生过于复杂てき模型もけい;2. ざい验证すうすえじょう测试模型もけいてき效果こうか,从而拟模がたざい实际工作こうさく环境てきすうすえじょうてきひょう现。

つくえがく

[编辑]
监督がく习(れいかみ经网络ちゅうてき过拟あい/过训练。训练误差よう蓝色表示ひょうじ,验证误差よう红色表示ひょうじ。二者均为训练迭代次数的函数。わか训练误差稳定下降かこうただし验证误差じょうます,则说あかり可能かのう现过拟合。さいけい模型もけい应当验证误差最低さいていてん时的模型もけい

つくえがく习模がたてき典型てんけい产出过程よしつくえがく算法さんぽうざい训练しゅううえ进行训练,希望きぼういたてき模型もけいのう够在训练过程ちゅう不可ふか见的验证しゅう上表じょうひょう良好りょうこう。过拟あい现象发生ざい使用しよう违反おく卡姆剃刀かみそりはら则的模型もけいある算法さんぽう时:とう引入しょう较数すえしゅう而言过多てきまいりすう时,ある使用しようしょう较数すえしゅう而言过于复杂てき模型もけい时。

かり设有いち个训练集,其もとじゅん真相しんそう y 以用一个二元线性函数很好地预测出来。显而えき见,该函すうただゆう3个参すういち个截距,两个はすりつはた该函すうがえ换成さら为复杂的二次函数或更多元的线性函数的风险在于:おく卡姆剃刀かみそり表明ひょうめいそう较于给定てき简单函数かんすうにんなん给定てき复杂函数かんすうてき预测さら不可ふかもたれ[4]:358如果さい终选择了复杂函数かんすう而非简单函数かんすう;并且ざい拟合训练すうすえ时相较简单函すう,复杂函数かんすう带来てき收益しゅうえきぼつゆう抵消模型もけい复杂てき增加ぞうか么复杂函すう就过拟合りょうすうすえ。此时,つきかん复杂函数かんすうざい训练しゅうじょうてきひょう现与简单函数かんすうしょうどう甚至さらこのみただしざい训练すうすえ外的がいてき验证すうすえじょうてきひょう现,复杂函数かんすう可能かのうかいさらかす糕。[5]

ざい确定模型もけい复杂时,简单计算かく模型もけいちゅうさんすうてき数量すうりょう不可ふかもたれてき,还需ようこう虑参すうてきひょう达方しき。举例らい说,直接ちょくせつ较带ゆう m 个参すうてきかみ经网络(它能够跟踪非线性关系)かず带有 n 个参すうてきかい归模がた是非ぜひ平凡へいぼんてき[5]

过拟あいゆう容易よういざい训练迭代次数じすうしょう对有げん训练样本过多てき时候。此时,模型もけいかい拟合训练すうすえちゅうとくせいてきずいつくえ噪声,而这些与标函すうこれ间并无因果いんが关系ざい这种过拟あいてき过程ちゅう模型もけいざい训练样本じょうてき效果こうかかい续提ますただしざい训练ちゅう不可ふか见的すうすえ通常つうじょう验证しゅうじょうてき效果こうかかい变得さら。举个简单てきれいかり设有いち个数すえしゅう,其中包含ほうがんりょうれい售的物品ぶっぴん、买家、购买、购买时间。ひと们很容易よういざい这个すうすえしゅうじょう构造模型もけいらいすえ购买购买时间预测其他属性ぞくせいただし该模がたざいしんすうすえじょうぼつゆうにんなん泛化性能せいのういん为过去てき时间さい也不かい现了。

概括がいかつ说,つくえがく习算ほうざいやめすうすえじょう很精确但ざいしんすうすえじょう不精ぶしょう确的じょうがた以称为过拟合。ひと们可以这样在ちょく觉上理解りかい过拟あい:“过去てき经验ぶん为两个部ぶんあずか将来しょうらいゆう关的すうすえあずか将来しょうらい无关てきすうすえ(噪声)”。ざい其他条件じょうけんしょうどうてきじょう况下,预测てき难度えつだい确定せいえつだか),则过去しんいきちゅう需要じゅようとう做噪ごえゆるがせりゃくてき部分ぶぶん就越。问题てき点在てんざい于,如何いか确定哪些すうすえ应当ゆるがせりゃく

のう够避めん拟合噪声てきつくえがく习算ほうけんたけしてき算法さんぽう

きさきはて

[编辑]

过拟あいさい显著てききさきはて就是ざい验证しゅうじょうてき效果こうか很差;其他きさきはて罗列如下:[5]

  • あい较拟あい恰当てき模型もけい而言,拟合过度てき模型もけい倾向于从验证しゅうてきまい个样本中ほんなか获取さらしんいき收集しゅうしゅう这些必要ひつようてきしんいき可能かのうだい价是だかのぼるてきあるもの具有ぐゆう错误倾向てきとう这些しんいき需要じゅよう人工じんこう观察あるもの标注时,这种だい价尤其明显。
  • 拟合过度てき复杂模型もけいしょう较简单模がたてき移植いしょくせいさら。极端说,一元线性回归模型可移植性非常好,甚至,ただし必要ひつよう时,甚至以用徒手としゅ进行计算。另一方面ほうめん,极端复杂てき模型もけいただのうざい原始げんしすうすえしゅうじょう复现,这给模型もけいてき重用じゅうよう研究けんきゅうてき复现带来りょうこま难。

扩展阅读

[编辑]

参考さんこう文献ぶんけん

[编辑]
  1. ^ OxfordDictionaries.comなかoverfitting页面そん档备份そん互联网档あんてき统计がくてい义。
  2. ^ Everitt B.S., Skrondal A. (2010), Cambridge Dictionary of Statistics, Cambridge University Press.
  3. ^ Burnham, K. P.; Anderson, D. R., Model Selection and Multimodel Inference 2nd, Springer-Verlag, 2002 . (This has over 44000 citations on Google Scholar.)
  4. ^ Francesco Pezzella, Mahvash Tavassoli, David Kerr. Oxford Textbook of Cancer Biology. Oxford University Press. 
  5. ^ 5.0 5.1 5.2 Hawkins, Douglas M. (2004), "The problem of overfitting", Journal of Chemical Information and Modeling, 44.1: 1–12.

外部がいぶ链接

[编辑]