绿线代表 だいひょう 过拟合 あい 模型 もけい ,黑 くろ 线代表 だいひょう 正 せい 则化模型 もけい 。虽然绿线完 かん 美的 びてき 符合 ふごう 训练数 すう 据 すえ ,但 ただし 拟合得 え 太 ぶと 过紧密 みつ 或 ある 精 せい 确;并且与黑 くろ 线相比 ひ ,在 ざい 新 しん 的 てき 测试数 すう 据 すえ 上 うえ 会 かい 有 ゆう 更 さら 高 だか 的 てき 错误率 りつ 。
在 ざい 统计学 がく 中 なか ,过拟合 あい (英 えい 语:overfitting ,或 ある 称 しょう 拟合过度 )是 ぜ 指 ゆび 过于紧密或 ある 精 せい 确地匹 ひき 配 はい 特定 とくてい 数 すう 据 すえ 集 しゅう ,以致于无法 ほう 良好 りょうこう 地 ち 拟合其他数 すう 据 すえ 或 ある 预测未来 みらい 的 てき 观察结果的 てき 现象 。[ 1] 过拟合 あい 模型 もけい 指 ゆび 的 てき 是 ぜ 相 しょう 较有限 げん 的 てき 数 すう 据 すえ 而言,参 さん 数 すう 过多或 ある 者 もの 结构过于复杂的 てき 统计模型 もけい 。[ 2] 发生过拟合 あい 时,模型 もけい 的 てき 偏差 へんさ 小 しょう 而方 かた 差 さ 大 だい 。过拟合 あい 的 てき 本 ほん 质是训练算法 さんぽう 从统计噪声 中 ちゅう 不 ふ 自 じ 觉获取了 りょう 信 しん 息 いき 并表达在了 りょう 模型 もけい 结构的 てき 参 まいり 数 すう 当 とう 中 なか 。[ 3] :45 相 あい 较用于训练的数 すう 据 すえ 总量来 らい 说,一个模型只要结构足够复杂或参数足够多,就总是 ぜ 可 か 以完美 び 地 ち 适应数 すう 据 すえ 的 てき 。过拟合 あい 一般可以视为违反奥 おく 卡姆剃刀 かみそり 原 はら 则。
与 あずか 过拟合 ごう 相 しょう 对应的 てき 概念 がいねん 是 ぜ 欠 かけ 拟合 (英 えい 语:underfitting ,或 ある 称 しょう :拟合不足 ふそく );它是指 ゆび 相 しょう 较于数 すう 据 すえ 而言,模型 もけい 参 さん 数 すう 过少或 ある 者 もの 模型 もけい 结构过于简单,以至于无法 ほう 捕捉 ほそく 到 いた 数 かず 据 すえ 中 ちゅう 的 てき 规律的 てき 现象。发生欠 かけ 拟合时,模型 もけい 的 てき 偏差 へんさ 大 だい 而方差 さ 小 しょう 。
在 ざい 机 つくえ 器 き 学 がく 习或 ある 人工 じんこう 神 しん 经网络中 なか ,过拟合 あい 与 あずか 欠 かけ 拟合有 ゆう 时也被 ひ 称 しょう 为“过训练(英 えい 语:overtraining )”和 かず “欠 かけ 训练(英 えい 语:undertraining )”。
之 これ 所以 ゆえん 存在 そんざい 过拟合 あい 的 てき 可能 かのう ,是 ぜ 因 いん 为选择模型 もけい 的 てき 标准和 わ 评价模型 もけい 的 てき 标准是 ぜ 不一致 ふいっち 的 てき 。举例来 らい 说,选择模型 もけい 时往往是选取在 ざい 训练数 すう 据 すえ 上表 じょうひょう 现最好 このみ 的 てき 模型 もけい ;但 ただし 评价模型 もけい 时则是 ぜ 观察模型 もけい 在 ざい 训练过程中 ちゅう 不可 ふか 见数据 すえ 上 じょう 的 てき 表 ひょう 现。当 とう 模型 もけい 尝试“记住”训练数 すう 据 すえ 而非从训练数据 すえ 中 なか 学 がく 习 规律时,就可能 かのう 发生过拟合 あい 。一般 いっぱん 来 らい 说,当 とう 参 さん 数 すう 的 てき 自由 じゆう 度 ど 或 ある 模型 もけい 结构的 てき 复杂度 ど 超 ちょう 过数据 すえ 所 しょ 包含 ほうがん 信 しん 息 いき 内容 ないよう 时,拟合后 きさき 的 てき 模型 もけい 可能 かのう 使用 しよう 任意 にんい 多 た 的 てき 参 さん 数 すう ,这会降 くだ 低 ひく 或 ある 破 やぶ 坏模型 がた 泛化的 てき 能力 のうりょく 。
在 ざい 统计学 がく 习和机 つくえ 器 き 学 がく 习中,为了避免或 ある 减轻过拟合 あい 现象,须要使用 しよう 额外的 てき 技巧 ぎこう (如模型 もけい 选择 、交叉 こうさ 验证 、提 ひさげ 前 ぜん 停止 ていし 、正 せい 则化 、剪枝 、贝叶斯信息 いき 量 りょう 准 じゅん 则 、赤池 あかいけ 信 しん 息 いき 量 りょう 准 じゅん 则或 ある dropout )。在 ざい treatment learning中 ちゅう ,使用 しよう 最小 さいしょう 最 さい 佳 けい 支持 しじ 值(英 えい 语:minimum best support value )来 らい 避免过拟合 あい 。[来 らい 源 みなもと 请求] 这些方法 ほうほう 大 だい 致可分 ぶん 为两类:1. 对模型 がた 的 てき 复杂度 ど 进行惩罚,从而避免产生过于复杂的 てき 模型 もけい ;2. 在 ざい 验证数 すう 据 すえ 上 じょう 测试模型 もけい 的 てき 效果 こうか ,从而模 も 拟模型 がた 在 ざい 实际工作 こうさく 环境的 てき 数 すう 据 すえ 上 じょう 的 てき 表 ひょう 现。
监督学 がく 习(例 れい 如神 かみ 经网络 )中 ちゅう 的 てき 过拟合 あい /过训练。训练误差用 よう 蓝色表示 ひょうじ ,验证误差用 よう 红色表示 ひょうじ 。二者均为训练迭代次数的函数。若 わか 训练误差稳定下降 かこう ,但 ただし 验证误差上 じょう 升 ます ,则说明 あかり 可能 かのう 出 で 现过拟合。最 さい 佳 けい 模型 もけい 应当是 ぜ 验证误差位 い 于最低 さいてい 点 てん 时的模型 もけい 。
机 つくえ 器 き 学 がく 习模型 がた 的 てき 典型 てんけい 产出过程是 ぜ 由 よし 机 つくえ 器 き 学 がく 习算法 さんぽう 在 ざい 训练集 しゅう 上 うえ 进行训练,希望 きぼう 得 え 到 いた 的 てき 模型 もけい 能 のう 够在训练过程中 ちゅう 不可 ふか 见的验证集 しゅう 上表 じょうひょう 现良好 りょうこう 。过拟合 あい 现象发生在 ざい 使用 しよう 违反奥 おく 卡姆剃刀 かみそり 原 はら 则的模型 もけい 或 ある 算法 さんぽう 时:当 とう 引入相 しょう 较数据 すえ 集 しゅう 而言过多的 てき 参 まいり 数 すう 时,或 ある 使用 しよう 相 しょう 较数据 すえ 集 しゅう 而言过于复杂的 てき 模型 もけい 时。
假 かり 设有一 いち 个训练集,其基 もと 准 じゅん 真相 しんそう y 可 か 以用一个二元线性函数很好地预测出来。显而易 えき 见,该函数 すう 只 ただ 有 ゆう 3个参数 すう :一 いち 个截距,两个斜 はす 率 りつ 。将 はた 该函数 すう 替 がえ 换成更 さら 为复杂的二次函数或更多元的线性函数的风险在于:奥 おく 卡姆剃刀 かみそり 表明 ひょうめい ,相 そう 较于给定的 てき 简单函数 かんすう ,任 にん 何 なん 给定的 てき 复杂函数 かんすう 的 てき 预测都 と 更 さら 不可 ふか 靠 もたれ 。[ 4] :358 如果最 さい 终选择了复杂函数 かんすう 而非简单函数 かんすう ;并且在 ざい 拟合训练数 すう 据 すえ 时相较简单函数 すう ,复杂函数 かんすう 带来的 てき 收益 しゅうえき 没 ぼつ 有 ゆう 抵消模型 もけい 复杂度 ど 的 てき 增加 ぞうか ,那 な 么复杂函数 すう 就过拟合了 りょう 数 すう 据 すえ 。此时,尽 つき 管 かん 复杂函数 かんすう 在 ざい 训练集 しゅう 上 じょう 的 てき 表 ひょう 现与简单函数 かんすう 相 しょう 同 どう 甚至更 さら 好 このみ ,但 ただし 在 ざい 训练数 すう 据 すえ 之 の 外的 がいてき 验证数 すう 据 すえ 上 じょう 的 てき 表 ひょう 现,复杂函数 かんすう 可能 かのう 会 かい 更 さら 糟 かす 糕。[ 5]
在 ざい 确定模型 もけい 复杂度 ど 时,简单地 ち 计算各 かく 模型 もけい 中 ちゅう 参 さん 数 すう 的 てき 数量 すうりょう 是 ぜ 不可 ふか 靠 もたれ 的 てき ,还需要 よう 考 こう 虑参数 すう 的 てき 表 ひょう 达方式 しき 。举例来 らい 说,直接 ちょくせつ 比 ひ 较带有 ゆう m 个参数 すう 的 てき 神 かみ 经网络(它能够跟踪非线性关系)和 かず 带有 n 个参数 すう 的 てき 回 かい 归模型 がた 是非 ぜひ 平凡 へいぼん 的 てき 。[ 5]
过拟合 あい 尤 ゆう 其容易 ようい 在 ざい 训练迭代次数 じすう 相 しょう 对有限 げん 训练样本过多的 てき 时候。此时,模型 もけい 会 かい 拟合训练数 すう 据 すえ 中 ちゅう 特 とく 征 せい 的 てき 随 ずい 机 つくえ 噪声,而这些与目 め 标函数 すう 之 これ 间并无因果 いんが 关系 。在 ざい 这种过拟合 あい 的 てき 过程中 ちゅう ,模型 もけい 在 ざい 训练样本上 じょう 的 てき 效果 こうか 会 かい 持 じ 续提升 ます ,但 ただし 在 ざい 训练中 ちゅう 不可 ふか 见的数 すう 据 すえ (通常 つうじょう 是 ぜ 验证集 しゅう )上 じょう 的 てき 效果 こうか 会 かい 变得更 さら 差 さ 。举个简单的 てき 例 れい 子 こ :假 かり 设有一 いち 个数据 すえ 集 しゅう ,其中包含 ほうがん 了 りょう 零 れい 售的物品 ぶっぴん 、买家、购买日 び 期 き 、购买时间。人 ひと 们很容易 ようい 在 ざい 这个数 すう 据 すえ 集 しゅう 上 じょう 构造模型 もけい ,来 らい 根 ね 据 すえ 购买日 び 期 き 和 わ 购买时间预测其他属性 ぞくせい ;但 ただし 该模型 がた 在 ざい 新 しん 数 すう 据 すえ 上 じょう 没 ぼつ 有 ゆう 任 にん 何 なん 泛化性能 せいのう ,因 いん 为过去的 てき 时间再 さい 也不会 かい 出 で 现了。
概括 がいかつ 地 ち 说,机 つくえ 器 き 学 がく 习算法 ほう 在 ざい 已 やめ 知 ち 数 すう 据 すえ 上 じょう 很精确但在 ざい 新 しん 数 すう 据 すえ 上 じょう 不精 ぶしょう 确的情 じょう 形 がた ,可 か 以称之 の 为过拟合。人 ひと 们可以这样在直 ちょく 觉上理解 りかい 过拟合 あい :“过去的 てき 经验可 か 被 ひ 分 ぶん 为两个部分 ぶん :与 あずか 将来 しょうらい 有 ゆう 关的数 すう 据 すえ 、与 あずか 将来 しょうらい 无关的 てき 数 すう 据 すえ (噪声)”。在 ざい 其他条件 じょうけん 都 と 相 しょう 同 どう 的 てき 情 じょう 况下,预测的 てき 难度越 えつ 大 だい (不 ふ 确定性 せい 越 えつ 高 だか ),则过去信 しん 息 いき 中 ちゅう 需要 じゅよう 被 ひ 当 とう 做噪声 ごえ 忽 ゆるがせ 略 りゃく 的 てき 部分 ぶぶん 就越多 た 。问题的 てき 难点在 てんざい 于,如何 いか 确定哪些数 すう 据 すえ 应当被 ひ 忽 ゆるがせ 略 りゃく 。
能 のう 够避免 めん 拟合噪声的 てき 机 つくえ 器 き 学 がく 习算法 ほう 是 ぜ 健 けん 壮 たけし 的 てき 算法 さんぽう 。
过拟合 あい 最 さい 显著的 てき 后 きさき 果 はて 就是在 ざい 验证集 しゅう 上 じょう 的 てき 效果 こうか 很差;其他后 きさき 果 はて 罗列如下:[ 5]
相 あい 较拟合 あい 恰当的 てき 模型 もけい 而言,拟合过度的 てき 模型 もけい 倾向于从验证集 しゅう 的 てき 每 まい 个样本中 ほんなか 获取更 さら 多 た 信 しん 息 いき ;收集 しゅうしゅう 这些不 ふ 必要 ひつよう 的 てき 信 しん 息 いき 可能 かのう 代 だい 价是高 だか 昂 のぼる 的 てき ,或 ある 者 もの 具有 ぐゆう 错误倾向的 てき 。当 とう 这些信 しん 息 いき 需要 じゅよう 人工 じんこう 观察或 ある 者 もの 标注时,这种代 だい 价尤其明显。
拟合过度的 てき 复杂模型 もけい 相 しょう 较简单模型 がた 的 てき 可 か 移植 いしょく 性 せい 更 さら 差 さ 。极端地 ち 说,一元线性回归模型可移植性非常好,甚至,但 ただし 凡必要 ひつよう 时,甚至可 か 以用徒手 としゅ 进行计算。另一方面 ほうめん ,极端复杂的 てき 模型 もけい 只 ただ 能 のう 在 ざい 原始 げんし 数 すう 据 すえ 集 しゅう 上 じょう 复现,这给模型 もけい 的 てき 重用 じゅうよう 和 わ 理 り 论研究 けんきゅう 的 てき 复现带来了 りょう 困 こま 难。
^ OxfordDictionaries.com 中 なか overfitting (页面存 そん 档备份 ,存 そん 于互联网档案 あん 馆 )的 てき 统计学 がく 定 てい 义。
^ Everitt B.S., Skrondal A. (2010), Cambridge Dictionary of Statistics , Cambridge University Press .
^ Burnham, K. P.; Anderson, D. R., Model Selection and Multimodel Inference 2nd, Springer-Verlag, 2002 . (This has over 44000 citations on Google Scholar .)
^ Francesco Pezzella, Mahvash Tavassoli, David Kerr. Oxford Textbook of Cancer Biology. Oxford University Press.
^ 5.0 5.1 5.2 Hawkins, Douglas M. (2004), "The problem of overfitting", Journal of Chemical Information and Modeling , 44.1: 1–12.