此條
目 め 介 かい 紹的
是 ぜ 计算
机 つくえ 算法 さんぽう 。关于
生物 せいぶつ 过程,请见「
神 かみ 经反向 こう 传播」。
反 はん 向 こう 传播 (英語 えいご :Backpropagation ,意 い 為 ため 误差反 はん 向 こう 传播 ,缩写为BP )是 ぜ 對 たい 多層 たそう 人工 じんこう 神 しん 经网络進行 しんこう 梯 はしご 度 ど 下降 かこう 的 てき 算法 さんぽう ,也就是 ぜ 用 よう 链式法 ほう 则 以网络每层的权重為 ため 變數 へんすう 计算损失函数 かんすう 的 てき 梯 はしご 度 ど ,以更新 しん 权重來 らい 最小 さいしょう 化 か 损失函数 かんすう 。
任 にん 何 なに 监督式 しき 学 がく 习 算法 さんぽう 的 てき 目 め 标是找到一个能把一组输入最好地映射到其正确的输出的函数。例 れい 如一个简单的分 ぶん 类任 にん 务,其中输入是 ぜ 动物的 てき 图像,正 せい 确的输出将 はた 是 ぜ 动物的 てき 名称 めいしょう 。一些输入和输出模式可以很容易地通过单层神经网络(如感知 かんち 器 き )学 がく 习。但 ただし 是 ぜ 这些单层的 てき 感知 かんち 机 つくえ 只 ただ 能 のう 学 がく 习一些比较简单的模式,例 れい 如那些非线性可分 かぶん 的 てき 模 も 式 しき 。例 れい 如,人 にん 可 か 以通过识别动物的 ぶってき 图像的 てき 某 ぼう 些特征 せい 进行分 ぶん 类,例 れい 如肢的 てき 数 すう 目 もく ,皮 かわ 肤的纹理(无论是 ぜ 毛皮 けがわ ,羽毛 うもう ,鳞片等 とう ),该动物的 ぶってき 体型 たいけい ,以及种种其他特 とく 征 せい 。但 ただし 是 ぜ ,单层神 しん 经网络必须仅仅使用 しよう 图像中 ちゅう 的 てき 像 ぞう 素的 すてき 强度 きょうど 来 らい 学 がく 习一个输出一个标签函数。因 よし 为它被 ひ 限 きり 制 せい 为仅具有 ぐゆう 一 いち 个层,所以 ゆえん 没 ぼつ 有 ゆう 办法从输入 にゅう 中学 ちゅうがく 习到任 にん 何 なん 抽象 ちゅうしょう 特 とく 征 せい 。多 た 层的网络克服 こくふく 了 りょう 这一 いち 限 げん 制 せい ,因 いん 为它可 か 以创建 けん 内部 ないぶ 表示 ひょうじ ,并在每 ごと 一层学习不同的特征。[1] 第 だい 一层可能负责从图像的单个像素的输入学习线条的走向。第 だい 二层可能就会结合第一层所学并学习识别简单形状(如圆形 がた )。每 まい 升 ます 高 だか 一层就学习越来越多的抽象特征,如上 じょじょう 文 ぶん 提 ひっさげ 到 いた 的 てき 用 よう 来 らい 图像分 ぶん 类。每 まい 一层都是从它下方的层中找到模式,就是这种能力 のうりょく 创建了 りょう 独立 どくりつ 于为多 た 层网络提供 ていきょう 能 のう 量的 りょうてき 外界 がいかい 输入的 てき 内部 ないぶ 表 ひょう 达形式 しき 。
反 はん 向 こう 传播算法 さんぽう 的 てき 发展的 てき 目 め 标和动机是 ぜ 找到一种训练的多层神经网络的方法,于是它可以学习合适的内部 ないぶ 表 ひょう 达来让它学 がく 习任意 にんい 的 てき 输入到 いた 输出的 てき 映 うつ 射 しゃ 。[1]
概括 がいかつ [ 编辑 ]
反 はん 向 こう 传播算法 さんぽう (BP 算法 さんぽう )主要 しゅよう 由 よし 两个阶段组成:激励 げきれい 传播与权重更新 こうしん 。
第 だい 1阶段:激励 げきれい 传播[ 编辑 ]
每次 まいじ 迭代中 ちゅう 的 てき 传播环节包含 ほうがん 两步:
(前 ぜん 向 こう 传播阶段)将 はた 训练输入送 おく 入 にゅう 网络以获得 え 預 あずか 測 はか 結果 けっか ;
(反 はん 向 こう 传播阶段)對 たい 預 あずか 測 はか 結果 けっか 同 どう 训练目 め 标求差 さ (损失函数 かんすう )。
第 だい 2阶段:权重更新 こうしん [ 编辑 ]
对于每 ごと 个突触上 じょう 的 てき 权重,按照以下 いか 步 ふ 骤进行 ぎょう 更新 こうしん :
将 はた 输入激励 げきれい 和 わ 响应误差相乘 そうじょう ,从而获得权重的 てき 梯 はしご 度 ど ;
将 はた 这个梯 はしご 度 ど 乘 じょう 上 じょう 一个比例并取反后加到权重上。
这个比例 ひれい (百分比 ひゃくぶんひ )将 しょう 会 かい 影 かげ 响到训练过程的 てき 速度 そくど 和 わ 效果 こうか ,因 いん 此成为「训练因子 いんし 」。梯 はしご 度 ど 的 てき 方向 ほうこう 指 ゆび 明 あきら 了 りょう 误差扩大的 てき 方向 ほうこう ,因 いん 此在更新 こうしん 权重的 てき 时候需要 じゅよう 对其取 と 反 はん ,从而减小权重引起的 てき 误差。
第 だい 1 和 わ 第 だい 2 阶段可 か 以反复循环迭代 だい ,直 ちょく 到 いた 网络对输入 いれ 的 てき 响应达到满意的 てき 预定的 てき 目 め 标范围为止 どめ 。
算法 さんぽう [ 编辑 ]
數學 すうがく 推導[ 编辑 ]
假設 かせつ 多層 たそう 人工 じんこう 神 しん 经网络的 てき 第 だい
l
{\displaystyle l}
層 そう 是 ぜ 由 ゆかり 线性算 さん 子 こ
W
l
:
R
n
l
−
1
→
R
n
l
{\displaystyle W^{l}:\mathbb {R} ^{n_{l-1}}\to \mathbb {R} ^{n_{l}}}
和 わ 激 げき 活 かつ 函數 かんすう
f
l
:
R
→
R
{\displaystyle f^{l}:\mathbb {R} \to \mathbb {R} }
所 ところ 構成 こうせい ,也就是 ぜ 說 せつ ,第 だい
l
{\displaystyle l}
層 そう 的 てき 輸入 ゆにゅう 是 ぜ
n
l
−
1
{\displaystyle n_{l-1}}
維实数 向 むかい 量 りょう
y
l
−
1
=
(
x
1
,
x
2
,
⋯
,
x
n
l
−
1
)
{\displaystyle y^{l-1}=(x_{1},\,x_{2},\,\cdots ,\,x_{n_{l-1}})}
輸出 ゆしゅつ 則 そく 為 ため
n
l
{\displaystyle n_{l}}
維實向 むこう 量 りょう
y
l
=
(
y
1
,
y
2
,
⋯
,
y
n
l
)
{\displaystyle y^{l}=(y_{1},\,y_{2},\,\cdots ,\,y_{n_{l}})}
換 かわ 句 く 話 はなし 說 せつ ,第 だい
l
−
1
{\displaystyle l-1}
層 そう 的 てき 輸出 ゆしゅつ
y
l
−
1
{\displaystyle y^{l-1}}
就是第 だい
l
{\displaystyle l}
層 そう 的 てき 輸入 ゆにゅう 。
而
y
l
{\displaystyle y^{l}}
和 わ
y
l
−
1
{\displaystyle y^{l-1}}
的 てき 具體 ぐたい (以第
i
{\displaystyle i}
分量 ぶんりょう 表示 ひょうじ )遞迴關係 かんけい 為 ため
y
l
i
=
f
l
{
[
W
l
(
y
l
−
1
)
]
i
}
=
f
l
[
∑
j
=
1
n
l
−
1
y
j
l
−
1
W
j
i
l
]
{\displaystyle {y^{l}}_{i}=f^{l}\{\,[W^{l}(y^{l-1})]_{i}\,\}=f^{l}\left[\,\sum _{j=1}^{n_{l-1}}y_{j}^{l-1}W_{ji}^{l}\,\right]}
(
1
≤
i
≤
n
l
{\displaystyle 1\leq i\leq n_{l}}
)
上 うえ 式 しき 通常 つうじょう 會 かい 簡寫為 ため
y
l
=
f
l
[
W
l
(
y
l
−
1
)
]
{\displaystyle y^{l}=f^{l}[\,W^{l}(y^{l-1})\,]}
若 わか 這個多層 たそう 人工 じんこう 神經 しんけい 網 もう 路 ろ 總 そう 共有 きょうゆう
L
{\displaystyle L}
層 そう ,也就是 ぜ 說 せつ ,
y
0
{\displaystyle y^{0}}
是 ぜ 最 さい 一 いち 開始 かいし 的 てき 輸入 ゆにゅう ,而
y
L
{\displaystyle y^{L}}
是 ぜ 最後 さいご 一 いち 層 そう 的 てき 輸出 ゆしゅつ ,那 な 跟损失函数 かんすう
g
{\displaystyle g}
是 ぜ 以最後 ご 一層 いっそう 輸出 ゆしゅつ
y
L
{\displaystyle y^{L}}
的 てき 各 かく 分量 ぶんりょう
y
L
i
{\displaystyle {y^{L}}_{i}}
(與 あずか 真實 しんじつ 值)為 ため 變數 へんすう 。依據 いきょ 上面 うわつら 的 てき 遞迴關係 かんけい ,可 か 以把
g
{\displaystyle g}
進一 しんいち 步 ふ 的 てき 轉成 てんせい 以第
L
{\displaystyle L}
層 そう 的 てき 輸入 ゆにゅう
y
L
−
1
{\displaystyle y^{L-1}}
與 あずか 權 けん 重 じゅう 因子 いんし
W
m
i
j
{\displaystyle {W^{m}}_{ij}}
為 ため 變數 へんすう 的 てき 函数 かんすう
g
L
{\displaystyle g^{L}}
g
L
(
W
i
j
L
,
y
k
L
−
1
)
=
g
[
f
L
(
∑
a
=
1
n
L
−
1
y
a
L
−
1
W
a
b
L
)
]
{\displaystyle g^{L}(W_{ij}^{L},\,{y_{k}^{L-1}})=g\left[\,f^{L}\left(\sum _{a=1}^{n_{L-1}}y_{a}^{L-1}W_{ab}^{L}\right)\,\right]}
(
1
≤
k
≤
n
L
−
1
{\displaystyle 1\leq k\leq n_{L-1}}
,
1
≤
b
≤
n
L
{\displaystyle 1\leq b\leq n_{L}}
)
由 よし 此可以歸納 きのう 到 いた
1
≤
l
<
L
{\displaystyle 1\leq l<L}
的 てき 情況 じょうきょう (注意 ちゅうい 到 いた 前 ぜん 幾 いく 層 そう 的 てき 權 けん 重 じゅう 因子 いんし 不 ふ 會 かい 消失 しょうしつ 在 ざい 表 ひょう 達 たち 式 しき 中 ちゅう )
g
l
(
W
i
j
l
,
⋯
,
W
i
j
L
,
y
k
l
−
1
)
=
g
l
+
1
[
W
i
j
l
+
1
,
⋯
,
W
i
j
L
,
f
l
(
∑
a
=
1
n
l
−
1
y
a
l
−
1
W
a
b
l
)
]
{\displaystyle g^{l}(W_{ij}^{l},\,\cdots ,\,W_{ij}^{L},\,{y_{k}^{l-1}})=g^{l+1}\left[\,W_{ij}^{l+1},\,\cdots ,\,W_{ij}^{L},\,f^{l}\left(\sum _{a=1}^{n_{l-1}}y_{a}^{l-1}W_{ab}^{l}\right)\,\right]}
(
1
≤
k
≤
n
l
−
1
{\displaystyle 1\leq k\leq n_{l-1}}
,
1
≤
b
≤
n
l
{\displaystyle 1\leq b\leq n_{l}}
)
那 な 這樣如果假設 かせつ 適當 てきとう 的 てき 可 か 微分 びぶん 條件 じょうけん ,由 ゆかり 链式法 ほう 则 會 かい 有 ゆう 以下 いか 的 てき 遞迴關係 かんけい ( 若 わか 取 と
g
L
+
1
:=
g
{\displaystyle g^{L+1}:=g}
和 わ
1
≤
l
≤
L
{\displaystyle 1\leq l\leq L}
)
∂
g
l
∂
W
c
d
l
=
∂
g
l
+
1
∂
y
l
d
|
y
l
d
=
f
l
(
x
)
×
d
f
l
d
x
|
x
=
∑
y
l
−
1
a
W
a
d
l
×
y
l
−
1
c
{\displaystyle {\frac {\partial g^{l}}{\partial W_{cd}^{l}}}={\frac {\partial g^{l+1}}{\partial {y^{l}}_{d}}}{\bigg |}_{{y^{l}}_{d}=f^{l}(x)}\times {\frac {df^{l}}{dx}}{\bigg |}_{x=\sum {y^{l-1}}_{a}W_{ad}^{l}}\times {y^{l-1}}_{c}}
∂
g
l
∂
y
l
−
1
c
=
∑
i
=
1
n
l
[
∂
g
l
+
1
∂
y
l
i
|
y
l
i
=
f
l
(
x
)
×
d
f
l
d
x
|
x
=
∑
y
l
−
1
a
W
a
i
l
×
W
c
i
l
]
{\displaystyle {\frac {\partial g^{l}}{\partial {y^{l-1}}_{c}}}=\sum _{i=1}^{n_{l}}\left[\,{\frac {\partial g^{l+1}}{\partial {y^{l}}_{i}}}{\bigg |}_{{y^{l}}_{i}=f^{l}(x)}\times {\frac {df^{l}}{dx}}{\bigg |}_{x=\sum {y^{l-1}}_{a}W_{ai}^{l}}\times W_{ci}^{l}\,\right]}
這樣就可以依據 いきょ 這個遞迴關係 かんけい 進行 しんこう 梯 はしご 度 ど 下降 かこう ,因 いん 為 ため 計算 けいさん 上 じょう 是 ぜ 由 ゆかり
y
L
i
{\displaystyle {y^{L}}_{i}}
對 たい 损失函数 かんすう
g
{\displaystyle g}
的 てき 偏 へん 微分 びぶん 出發 しゅっぱつ ,一層層向後遞推出前面各層的權重因子梯度,所以 ゆえん 被 ひ 稱 しょう 為 ため 反 はん 向 こう 傳播 でんぱ 。
注意 ちゅうい 到 いた 可 か 將 しょう 輸入 ゆにゅう 設 しつらえ 為 ため
y
l
−
1
=
(
1
,
x
1
,
x
2
,
⋯
,
x
n
l
−
1
)
{\displaystyle y^{l-1}=(1,\,x_{1},\,x_{2},\,\cdots ,\,x_{n_{l-1}})}
並 なみ 多 た 加 か 一 いち 行 ぎょう 權 けん 重 じゅう 因子 いんし
W
i
0
l
{\displaystyle W_{i0}^{l}}
為 ため 偏 へん 移 うつり ,就可以把有 ゆう 偏 へん 移 うつり 的 てき 多層 たそう 網 もう 路 ろ 納入 のうにゅう 剛 つよし 剛 つよし 討論 とうろん 的 てき 範圍 はんい 內。
實際 じっさい 範 はん 例 れい [ 编辑 ]
三 さん 层网络算法 ほう (只 ただ 有 ゆう 一个隐藏层):
初 はつ 始 はじめ 化 か 网络权值(通常 つうじょう 是 ぜ 小 しょう 的 てき 随 ずい 机 つくえ 值)
do
forEach 训练样本 ex
prediction = neural-net-output (network, ex) // 正 せい 向 こう 传递
actual = teacher-output (ex)
计算输出单元的 てき 误差 (prediction - actual)
计算
Δ でるた
w
h
{\displaystyle \Delta w_{h}}
对于所有 しょゆう 隐藏层到输出层的权值 // 反 はん 向 こう 传递
计算
Δ でるた
w
i
{\displaystyle \Delta w_{i}}
对于所有 しょゆう 输入层到隐藏层的权值 // 继续反 はん 向 こう 传递
更新 こうしん 网络权值 // 输入层不会 かい 被 ひ 误差估计改 あらため 变
until 所有 しょゆう 样本正 せい 确分类或满足其他停止 ていし 标准
return 该网络
这个算法 さんぽう 的 てき 名称 めいしょう 意味 いみ 着 ぎ 误差会 かい 从输出 で 结点反 はん 向 こう 传播到输入结点。严格地 ち 讲,反 はん 向 こう 传播算法 さんぽう 对网络的可 か 修 おさむ 改 あらため 权值计算了 りょう 网络误差的 てき 梯 はしご 度 ど 。[2] 这个梯 はしご 度会 わたらい 在 ざい 简单随 ずい 机 つくえ 梯 はしご 度 ど 下降 かこう 法 ほう 中 ちゅう 经常用 よう 来 らい 求 もとめ 最小 さいしょう 化 か 误差的 てき 权重。通常 つうじょう “反 はん 向 こう 传播”这个词使用 よう 更 さら 一般 いっぱん 的 てき 含义,用 よう 来 らい 指 ゆび 涵盖了 りょう 计算梯 はしご 度 ど 以及在 ざい 随 ずい 机 つくえ 梯 はしご 度 ど 下降 かこう 法 ほう 中 ちゅう 使用 しよう 的 てき 整 せい 个过程 ほど 。在 ざい 适用反 はん 向 こう 传播算法 さんぽう 的 てき 网络中 ちゅう ,它通常 つうじょう 可 か 以快速 そく 收 おさむ 敛到令 れい 人 じん 满意的 てき 极小值 。
直 ちょく 观理解 りかい [ 编辑 ]
学 がく 习作为一个优化 か 问题[ 编辑 ]
在 ざい 给出反 はん 向 こう 传播算法 さんぽう 的 てき 数学 すうがく 推导之 の 前 まえ ,我 わが 们举一 いち 个例子来 こらい 培 つちかえ 养关于神经元的 てき 真 ま 实输出 で 与 あずか 正 せい 确输出 で 间的直 ちょく 观感受 かんじゅ 。考 こう 虑一个有两个输入单元、一 いち 个输出 で 单元、没 ぼつ 有 ゆう 隐藏单元的 てき 简单神 しん 经网络。每 まい 个神经元都 と 使用 しよう 输入的 てき 加 か 权作为线性输出 [note 1] 。
具有 ぐゆう 2个输入 にゅう 单元和 わ 1个输出 で 单元的 てき 一个简单的神经网络
在 ざい 训练之 の 前 まえ ,我 わが 们将随 ずい 机 つくえ 分配 ぶんぱい 权重
w
1
,
w
2
{\displaystyle w_{1},w_{2}}
。之 これ 后 きさき 神 しん 经元根 ね 据 すえ 训练实例 进行学 がく 习。在 ざい 此例中 ちゅう ,训练集 しゅう 为 (
x
1
{\displaystyle x_{1}}
,
x
2
{\displaystyle x_{2}}
,
t
{\displaystyle t}
),其中
x
1
{\displaystyle x_{1}}
与 あずか
x
2
{\displaystyle x_{2}}
是 ぜ 网络的 てき 输入,
t
{\displaystyle t}
为正确输出 で (在 ざい 给定相 しょう 同 どう 的 てき 输入时网络最终应当 とう 产生的 てき 输出)。网络在 ざい 给定
x
1
{\displaystyle x_{1}}
和 わ
x
2
{\displaystyle x_{2}}
时,会 かい 计算一 いち 个输出 で
y
{\displaystyle y}
,很可能 かのう 与 あずか
t
{\displaystyle t}
不同 ふどう (因 いん 为权重 じゅう 最初 さいしょ 是 ぜ 随 ずい 机 つくえ 的 てき )。为了衡量期 き 望 もち 输出
t
{\displaystyle t}
与 あずか 实际输出
y
{\displaystyle y}
之 これ 间的差 さ 异,一个常用的方法是采用平方误差测度:
E
=
(
t
−
y
)
2
{\displaystyle E=(t-y)^{2}\,}
,
其中
E
{\displaystyle E}
为误差 さ 。
举例来 らい 讲,考 こう 虑单一训练实例的网络:
(
1
,
1
,
0
)
{\displaystyle (1,1,0)}
,输入
x
1
{\displaystyle x_{1}}
与 あずか
x
2
{\displaystyle x_{2}}
均 ひとし 为1,正 せい 确输出 で
t
{\displaystyle t}
为 0。现在若 わか 将 はた 实际输出
y
{\displaystyle y}
画 が 在 ざい x轴,误差
E
{\displaystyle E}
画 が 在 ざい
y
{\displaystyle y}
轴,得 とく 出 で 的 てき 是 ぜ 一条抛物线。抛 ほう 物 もの 线的 てき 极小值 对应输出
y
{\displaystyle y}
,最小 さいしょう 化 か 了 りょう 误差
E
{\displaystyle E}
。对于单一训练实例,极小值还会 かい 接触 せっしょく 到 いた
x
{\displaystyle x}
轴,这意味 いみ 着 ぎ 误差为零,网络可 か 以产生 せい 与 あずか 期 き 望 もち 输出
t
{\displaystyle t}
完全 かんぜん 匹 ひき 配 はい 的 てき 输出
y
{\displaystyle y}
。因 よし 此,把 わ 输入映 うつ 射 い 到 いた 输出的 てき 问题就化为了一个找到一个能产生最小误差的函数的最 さい 佳 けい 化 か 問題 もんだい 。
单一训练实例的线性神经元的误差曲面。
然 しか 而,一个神经元的输出取决于其所有输入的加权总和:
y
=
x
1
w
1
+
x
2
w
2
{\displaystyle y=x_{1}w_{1}+x_{2}w_{2}}
,
其中
w
1
{\displaystyle w_{1}}
和 わ
w
2
{\displaystyle w_{2}}
是 ぜ 从输入 にゅう 单元到 いた 输出单元相 しょう 连的权重。因 よし 此,误差取 と 决于输入到 いた 该神经元的 てき 权重,也是网络要 よう 学 がく 习最终需要 よう 改 あらため 变的。若 わか 每 まい 个权重 じゅう 都 と 画 が 在 ざい 一个水平的轴上,而误差 さ 画 が 在 ざい 垂直 すいちょく 轴上,得 とく 出 で 的 てき 就是一 いち 个抛 ほう 物 もの 面 めん (若 わか 一个神经元有
k
{\displaystyle k}
个权重 じゅう ,则误差 さ 曲面 きょくめん 的 てき 維度 就会是 ぜ
k
+
1
{\displaystyle k+1}
,因 いん 而就是 ぜ 二 に 维抛物 ぶつ 线的
k
+
1
{\displaystyle k+1}
维等价)。
两个输入误差的 てき 神 かみ 经元的 てき 误差曲面 きょくめん
反 はん 向 こう 传播算法 さんぽう 的 てき 目的 もくてき 是 ぜ 找到一组能最大限度地减小误差的权重。寻找抛物 ぶつ 线或任意 にんい 维度中 ちゅう 的 てき 任 にん 何 なん 函数 かんすう 的 てき 极大值的方法 ほうほう 有 ゆう 若干 じゃっかん 种。其中一种方法是通过求解方程组,但 ただし 这依赖于网络是 ぜ 一 いち 个線 せん 性 せい 系統 けいとう ,而目标也需要 じゅよう 可 か 以训练多层非 ひ 線 せん 性 せい 网络(因 いん 为多层线性 せい 网络与单层网络等 とう 价)。在 ざい 反 はん 向 こう 传播中 ちゅう 使用 しよう 的 てき 方法 ほうほう 是 ぜ 梯 はしご 度 ど 下降 かこう 法 ほう 。
运用类比理解 りかい 梯 はしご 度 ど 下降 かこう 法 ほう [ 编辑 ]
梯 はしご 度 ど 下降 かこう 法 ほう 背 せ 后 きさき 的 てき 直 ちょく 观感受 かんじゅ 可 か 以用假 かり 设情境 さかい 进行说明。一个被卡在山上的人正在试图下山(即 そく 试图找到极小值)。大 だい 雾使得能 とくのう 见度非常 ひじょう 低 ひく 。因 よし 此,下山 げざん 的 てき 道路 どうろ 是 ぜ 看 み 不 ふ 见的,所以 ゆえん 他 た 必须利用 りよう 局部 きょくぶ 信 しん 息 いき 来 らい 找到极小值。他 た 可 か 以使用 しよう 梯 はしご 度 ど 下降 かこう 法 ほう ,该方法 ほう 涉 わたる 及到察看在 ざい 他 た 当 とう 前 ぜん 位置 いち 山 やま 的 てき 陡峭程度 ていど ,然 しか 后 きさき 沿着负陡度 ど (即 そく 下 しも 坡)最大 さいだい 的 てき 方向 ほうこう 前 ぜん 进。如果他 た 要 よう 找到山 やま 顶(即 そく 极大值)的 てき 话,他 た 需要 じゅよう 沿着正 せい 陡度(即 そく 上 じょう 坡)最大 さいだい 的 てき 方向 ほうこう 前 ぜん 进。使用 しよう 此方 こちら 法 ほう ,他 た 会 かい 最 さい 终找到下山 げざん 的 てき 路 ろ 。不 ふ 过,要 よう 假 かり 设山的 てき 陡度不能 ふのう 通 どおり 过简单地观察得 え 到 いた ,而需要 よう 复杂的 てき 工具 こうぐ 测量,而这个工具 ぐ 此人恰好 かっこう 有 ゆう 。需要 じゅよう 相当 そうとう 长的一段时间用仪器测量山的陡峭度,因 いん 此如果 はて 他 た 想 そう 在日 ざいにち 落之前 ぜん 下山 げざん ,就需要 よう 最小 さいしょう 化 か 仪器的 てき 使用 しよう 率 りつ 。问题就在于怎样选取 と 他 た 测量山 やま 的 てき 陡峭度 ど 的 てき 频率才 ざい 不 ふ 致偏离路线。
在 ざい 这个类比中 ちゅう ,此人代表 だいひょう 反 はん 向 こう 传播算法 さんぽう ,而下山路 やまじ 径 みち 表示 ひょうじ 能 のう 使 し 误差最小 さいしょう 化 か 的 てき 权重集合 しゅうごう 。山 やま 的 てき 陡度表示 ひょうじ 误差曲面 きょくめん 在 ざい 该点的 てき 斜 はす 率 りつ 。他 た 要 よう 前 ぜん 行 くだり 的 てき 方向 ほうこう 对应于误差 さ 曲面 きょくめん 在 ざい 该点的 てき 梯 はしご 度 ど 。用 もちい 来 らい 测量陡峭度 ど 的 てき 工具 こうぐ 是 ぜ 微分 びぶん (误差曲面 きょくめん 的 てき 斜 はす 率 りつ 可 か 以通过对平方 へいほう 误差函数 かんすう 在 ざい 该点求 もとむ 导数 计算出来 でき )。他 た 在 ざい 两次测量之 の 间前行 ぎょう 的 てき 距离(与 あずか 测量频率成 なり 正 せい 比 ひ )是 ぜ 算法 さんぽう 的 てき 学 がく 习速率 りつ 。参 まいり 见限 きり 制 せい 一 いち 节中 ちゅう 对此类型“爬山”算法 さんぽう 的 てき 限 きり 制 せい 的 てき 讨论。
限 きり 制 せい [ 编辑 ]
结果可能 かのう 会 かい 收 おさむ 敛到极值 。如果只 ただ 有 ゆう 一 いち 个极小 しょう 值,梯 はしご 度 ど 下降 かこう 的 てき “爬山”策略 さくりゃく 一定 いってい 可 か 以起作用 さよう 。然 しか 而,往往 おうおう 是 ぜ 误差曲面 きょくめん 有 ゆう 许多局部 きょくぶ 最小 さいしょう 值和最大 さいだい 值。如果梯 はしご 度 ど 下降 かこう 的 てき 起 おこり 始点 してん 恰好 かっこう 介 かい 于局部 ぶ 最大 さいだい 值和局部 きょくぶ 最小 さいしょう 值之间,则沿着 ぎ 梯 はしご 度 ど 下降 かこう 最大 さいだい 的 てき 方向 ほうこう 会 かい 到 いた 达局部 ぶ 最小 さいしょう 值。梯 はしご 度 ど 下降 かこう 法 ほう 可 か 以找到局部 きょくぶ 最小 さいしょう 值,而不是 ぜ 全局 ぜんきょく 最小 さいしょう 值。
从反向 こう 传播学 がく 习获得 とく 的 てき 收 おさむ 敛很慢。
在 ざい 反 はん 向 こう 传播学 がく 习的收 おさむ 敛性不能 ふのう 保 ほ 证。
然 しか 而,收 おさむ 敛到全局 ぜんきょく 最小 さいしょう 值据说使用 しよう 自 じ 适应终止条件 じょうけん 得 え 到 いた 保 ほ 证[3] 。
反 はん 向 こう 传播学 がく 习不需要 じゅよう 输入向 こう 量的 りょうてき 标准化 か (normalization);然 しか 而,标准化 か 可 か 提 ひさげ 高性能 こうせいのう [4] 。
弗 どる 拉 ひしげ 基 もと 米 まい 尔·瓦 かわら 普 ひろし 尼 あま 克 かつ 引用 いんよう (Bryson, A.E.; W.F. Denham; S.E. Dreyfus. Optimal programming problems with inequality constraints. I: Necessary conditions for extremal solutions. AIAA J. 1, 11 (1963) 2544-2550)在 ざい 他 た 的 てき 书《支持 しじ 向 こう 量 りょう 机 つくえ 》中 ちゅう 首 くび 次 じ 发表反 はん 向 こう 传播算法 さんぽう 。在 ざい 1969年 ねん Arthur E. Bryson 和 わ 何 なに 毓琦将 はた 其描述 じゅつ 为多级动态系统优化 か 方法 ほうほう 。[5] [6] 直 ちょく 到 いた 1974年 ねん 以后在 ざい 神 かみ 经网络的背景 はいけい 下 か 应用,并由Paul Werbos [7] 、David E. Rumelhart 、杰弗里 さと ·辛 からし 顿 和 わ Ronald J. Williams [1] [8] 的 てき 著作 ちょさく ,它才获得认可,并引发了一场人工神经网络的研究领域的“文 ぶん 艺复兴”。在 ざい 21世 せい 纪初人 じん 们对其失去 さ 兴趣,但 ただし 在 ざい 2010年 ねん 后 きさき 又 また 拥有了 りょう 兴趣,如今可 か 以通过GPU 等 とう 大型 おおがた 现代运算器 き 件 けん 用 よう 于训练更大 だい 的 てき 网络。例 れい 如在2013年 ねん ,顶级语音识别器 き 现在使用 しよう 反 はん 向 こう 传播算法 さんぽう 训练神 しん 经网络。
注 ちゅう 释[ 编辑 ]
^ 注意 ちゅうい 多 た 层神经网络一般采用非线性的激活函数,而此例 れい 中 ちゅう 的 てき 激 げき 活 かつ 函数 かんすう 为线性 せい 函数 かんすう ,所 しょ 以并不能 ふのう 给出明 あかり 确的示 しめせ 范。虽然多 た 层神经网络的误差表面 ひょうめん 要 よう 复杂许多,但 ただし 在 ざい 小 しょう 范围内 ない ,我 わが 们可以用一个抛物面来估测这样的复杂表面。我 わが 们在这里采 さい 用 よう 线性的 てき 例 れい 子 こ ,因 いん 为它们简单易懂。
参 まいり 见[ 编辑 ]
参考 さんこう 文献 ぶんけん [ 编辑 ]
^ 1.0 1.1 1.2 Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. Learning representations by back-propagating errors. Nature. 8 October 1986, 323 (6088): 533–536. doi:10.1038/323533a0 .
^ Paul J. Werbos (1994). The Roots of Backpropagation. From Ordered Derivatives to Neural Networks and Political Forecasting. New York, NY: John Wiley & Sons, Inc.
^ Lalis, Jeremias; Gerardo, Bobby; Byun, Yung-Cheol. An Adaptive Stopping Criterion for Backpropagation Learning in Feedforward Neural Network (PDF) . International Journal of Multimedia and Ubiquitous Engineering. 2014, 9 (8): 149–156 [17 March 2015] . doi:10.14257/ijmue.2014.9.8.13 . (原始 げんし 内容 ないよう (PDF) 存 そん 档于2016-03-04).
^ ISBN 1-931841-08-X ,
^ Stuart Russell ; Peter Norvig . Artificial Intelligence A Modern Approach. : 578. The most popular method for learning in multilayer networks is called Back-propagation. It was first invented in 1969 by Bryson and Ho, but was largely ignored until the mid-1980s.
^ Arthur Earl Bryson, Yu-Chi Ho. Applied optimal control: optimization, estimation, and control. Blaisdell Publishing Company or Xerox College Publishing. 1969: 481.
^ Paul J. Werbos. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. PhD thesis, Harvard University, 1974
^ Alpaydın, Ethem. Introduction to machine learning 2nd ed. Cambridge, Mass.: MIT Press. 2010: 250 . ISBN 978-0-262-01243-0 . ...and hence the name backpropagation was coined (Rumelhart, Hinton, and Williams 1986a).
外部 がいぶ 連結 れんけつ [ 编辑 ]
可 か 微分 びぶん 计算
概 がい 论概念 がいねん 应用 硬 かた 件 けん 软件库 实现
人物 じんぶつ 组织 架 か 构
主 しゅ 题
分 ぶん 类