(Translated by https://www.hiragana.jp/)
過適 - 维基百科,自由的百科全书 とべ转到内容ないよう

てき

本页使用了标题或全文手工转换
维基百科ひゃっか自由じゆうてき百科ひゃっかぜん
みどりせん代表だいひょうてき模型もけいくろせん代表だいひょう正則せいそく模型もけい。雖然みどりせんかん美的びてき符合ふごう訓練くんれんすうよりどころただし調しらべてきぶと緊密きんみつある精確せいかくなみ且與くろせんしょうざいしんてきはかためし資料しりょううえかいゆうさらだかてき錯誤さくごりつ

ざい統計とうけいがくなかてき英語えいごoverfittingあるしょうなずらえあい過度かどゆび緊密きんみつある精確せいかくひきはい特定とくてい資料集しりょうしゅう,以致於無ほう良好りょうこう拟合其他資料しりょうあるあずかはか未來みらいてき觀察かんさつ結果けっかてき現象げんしょう[1]过拟あい模型もけいゆびてきしょう较有げんてきすうすえ而言,さんすう过多あるもの结构过于复杂てき统计模型もけい[2]发生过拟あい时,模型もけいてき偏差へんさしょうかただい。过拟あいてきほん质是训练算法さんぽう统计噪声ちゅう觉获取りょうしんいき并表达在りょう模型もけい结构てきまいりすうとうなか[3]:45あい较用于训练的資料しりょう總量そうりょうらいせつ,一個模型只要结构足夠複雜或参数足够多,就总以完適應てきおう資料しりょうてきてき一般可以視為違反おく卡姆剃刀かみそり原則げんそく

あずか过拟ごうしょう对应てき概念がいねんかけ拟合英語えいごunderfittingあるしょうなずらえごう不足ふそく);它是ゆびしょう较于すうすえ而言,模型もけいさんすう过少あるもの模型もけい结构过于简单,以至于无ほう捕捉ほそくいたかずすえちゅうてき规律てき现象。发生かけ拟合时,模型もけいてき偏差へんさだい而方しょう

ざいつくえがくある人工じんこう神經しんけいもうなか,过拟あいあずかかけ拟合ゆう时也しょう为「过训练(英語えいごovertraining)」かずかけ训练(英語えいごundertraining)」。

これ所以ゆえん存在そんざい过拟あいてき可能かのういん选择模型もけいてき标准评价模型もけいてき标准不一致ふいっちてき。举例らい说,选择模型もけい时往往是选取ざい训练すうすえ上表じょうひょう现最このみてき模型もけいただし评价模型もけい时则观察模型もけいざい训练过程ちゅう不可ふか见数すえじょうてきひょう现。とう模型もけい尝试「记住」训练すうすえ而非从训练数すえなかがく规律时,就可能かのう发生过拟あい一般いっぱんらい说,とうさんすうてき自由じゆうある模型もけい结构てき复杂超過ちょうか資料しりょうしょ包含ほうがん訊內よう,拟合きさきてき模型もけい可能かのう使用しよう任意にんいてきさんすう,這會くだひくある破壞はかい模型もけい泛化てき能力のうりょく

ざい統計とうけいがく习和機器きき學習がくしゅうちゅうためりょう避免ある减轻てき現象げんしょう須要しゅよう使用しようがく外的がいてき技巧ぎこう(如模型もけい选择交叉こうさけんしょうひさげぜん停止ていしせい则化剪枝贝叶斯信いきりょうじゅん赤池あかいけしんいきりょう準則じゅんそくあるdropout)。ざいtreatment learningちゅう使用しよう最小さいしょうさいけい支援しえん值(英語えいごminimum best support valueらい避免てき[らいみなもと請求せいきゅう]这些方法ほうほうだい致可ぶん为两类:1. 对模がたてき复杂进行惩罚,从而避免产生过于复杂てき模型もけい;2. ざい验证すうすえじょう测试模型もけいてき效果こうか,从而拟模がたざい实际工作こうさく环境てきすうすえじょうてきひょう现。

つくえがく

[编辑]
监督がく习(れいかみ经网络ちゅうてき过拟あい/过训练。训练误差よう蓝色表示ひょうじ,验证误差よう红色表示ひょうじ。二者均为训练迭代次数的函数。わか训练误差稳定下降かこうただし验证误差じょうます,则说あかり可能かのう现过拟合。さいけい模型もけい应当验证误差最低さいていてん时的模型もけい

つくえがく习模がたてき典型てんけい产出过程よしつくえがく算法さんぽうざい训练しゅううえ进行训练,希望きぼういたてき模型もけいのう够在训练过程ちゅう不可ふか见的验证しゅう上表じょうひょう良好りょうこう。过拟あい现象发生ざい使用しよう违反おく卡姆剃刀かみそりはら则的模型もけいある算法さんぽう时:とう引入しょう较数すえしゅう而言过多てきまいりすう时,ある使用しようしょう较数すえしゅう而言过于复杂てき模型もけい时。

かり设有いち个训练集,其もとじゅん真相しんそう y 以用一个二元线性函数很好地预测出来。显而えき见,该函すうただゆう3个参すういち个截距,两个はすりつはた该函すうがえ换成さら为复杂的二次函数或更多元的线性函数的风险在于:おく卡姆剃刀かみそり表明ひょうめいそう较于给定てき简单函数かんすうにんなん给定てき复杂函数かんすうてき预测さら不可ふかもたれ[4]:358如果さい终选择了复杂函数かんすう而非简单函数かんすう;并且ざい拟合训练すうすえ时相较简单函すう,复杂函数かんすう带来てき收益しゅうえきぼつゆう抵消模型もけい复杂てき增加ぞうか么复杂函すう就过拟合りょうすうすえ。此时,つきかん复杂函数かんすうざい训练しゅうじょうてきひょう现与简单函数かんすうしょうどう甚至さらこのみただしざい训练すうすえ外的がいてき验证すうすえじょうてきひょう现,复杂函数かんすう可能かのうかいさらかす糕。[5]

ざい确定模型もけい复杂时,简单计算かく模型もけいちゅうさんすうてき数量すうりょう不可ふかもたれてき,还需ようこう虑参すうてきひょう达方しき。举例らい说,直接ちょくせつ较带ゆう m 个参すうてきかみ经网络(它能够跟踪非线性关系)かず带有 n 个参すうてきかい归模がた是非ぜひ平凡へいぼんてき[5]

过拟あいゆう容易よういざい训练迭代次数じすうしょう对有げん训练样本过多てき时候。此时,模型もけいかい拟合训练すうすえちゅうとくせいてきずいつくえ噪声,而这些与标函すうこれ间并无因果いんが关系ざい这种过拟あいてき过程ちゅう模型もけいざい训练样本じょうてき效果こうかかい续提ますただしざい训练ちゅう不可ふか见的すうすえ通常つうじょう验证しゅうじょうてき效果こうかかい变得さら。举个简单てきれいかり设有いち个数すえしゅう,其中包含ほうがんりょうれい售的物品ぶっぴん、买家、购买、购买时间。ひと们很容易よういざい这个すうすえしゅうじょう构造模型もけいらいすえ购买购买时间预测其他属性ぞくせいただし该模がたざいしんすうすえじょうぼつゆうにんなん泛化性能せいのういん为过去てき时间さい也不かい现了。

概括がいかつ说,つくえがく习算ほうざいやめすうすえじょう很精确但ざいしんすうすえじょう不精ぶしょう确的じょうがた以称为过拟合。ひと们可以这样在ちょく觉上理解りかい过拟あい:「过去てき经验ぶん为两个部ぶんあずか将来しょうらいゆう关的すうすえあずか将来しょうらい无关てきすうすえ(噪声)」。ざい其他条件じょうけんしょうどうてきじょう况下,预测てき难度えつだい确定せいえつだか),则过去しんいきちゅう需要じゅようとう做噪ごえゆるがせりゃくてき部分ぶぶん就越。问题てき点在てんざい于,如何いか确定哪些すうすえ应当ゆるがせりゃく

のう够避めん拟合噪声てきつくえがく习算ほうけんたけしてき算法さんぽう

きさきはて

[编辑]

过拟あいさい显著てききさきはて就是ざい验证しゅうじょうてき效果こうか很差;其他きさきはて罗列如下:[5]

  • あい较拟あい恰当てき模型もけい而言,拟合过度てき模型もけい倾向于从验证しゅうてきまい个样本中ほんなか获取さらしんいき收集しゅうしゅう这些必要ひつようてきしんいき可能かのうだい价是だかのぼるてきあるもの具有ぐゆう错误倾向てきとう这些しんいき需要じゅよう人工じんこう观察あるもの标注时,这种だい价尤其明显。
  • 拟合过度てき复杂模型もけいしょう较简单模がたてき移植いしょくせいさら。极端说,一元线性回归模型可移植性非常好,甚至,ただし必要ひつよう时,甚至以用徒手としゅ进行计算。另一方面ほうめん,极端复杂てき模型もけいただのうざい原始げんしすうすえしゅうじょう复现,这给模型もけいてき重用じゅうよう研究けんきゅうてき复现带来りょうこま难。

扩展阅读

[编辑]

參考さんこう文獻ぶんけん

[编辑]
  1. ^ OxfordDictionaries.comなかoverfitting页面そん档备份そん互联网档あんてき統計とうけいがく定義ていぎ
  2. ^ Everitt B.S., Skrondal A. (2010), Cambridge Dictionary of Statistics, Cambridge University Press.
  3. ^ Burnham, K. P.; Anderson, D. R., Model Selection and Multimodel Inference 2nd, Springer-Verlag, 2002 . (This has over 44000 citations on Google Scholar.)
  4. ^ Francesco Pezzella, Mahvash Tavassoli, David Kerr. Oxford Textbook of Cancer Biology. Oxford University Press. 
  5. ^ 5.0 5.1 5.2 Hawkins, Douglas M. (2004), "The problem of overfitting", Journal of Chemical Information and Modeling, 44.1: 1–12.

外部がいぶ連結れんけつ

[编辑]