反はん向こう传播算法さんぽう

反はん向こう传播（英語えいご：Backpropagation，意い為ため误差反はん向こう传播，缩写为BP）是ぜ對たい多層たそう人工じんこう神しん经网络進行しんこう梯はしご度ど下降かこう的てき算法さんぽう，也就是ぜ用よう链式法ほう则以网络每层的权重為ため變數へんすう计算损失函数かんすう的てき梯はしご度ど，以更新しん权重來らい最小さいしょう化か损失函数かんすう。

动机[编辑]

任にん何なに监督式しき学がく习算法さんぽう的てき目め标是找到一个能把一组输入最好地映射到其正确的输出的函数。例れい如一个简单的分ぶん类任にん务，其中输入是ぜ动物的てき图像，正せい确的输出将はた是ぜ动物的てき名称めいしょう。一些输入和输出模式可以很容易地通过单层神经网络（如感知かんち器き）学がく习。但ただし是ぜ这些单层的てき感知かんち机つくえ只ただ能のう学がく习一些比较简单的模式，例れい如那些非线性可分かぶん的てき（英えい语：linearly separable）模も式しき。例れい如，人にん可か以通过识别动物的ぶってき图像的てき某ぼう些特征せい进行分ぶん类，例れい如肢的てき数すう目もく，皮かわ肤的纹理（无论是ぜ毛皮けがわ，羽毛うもう，鳞片等とう），该动物的ぶってき体型たいけい，以及种种其他特とく征せい。但ただし是ぜ，单层神しん经网络必须仅仅使用しよう图像中ちゅう的てき像ぞう素的すてき强度きょうど来らい学がく习一个输出一个标签函数。因よし为它被ひ限きり制せい为仅具有ぐゆう一いち个层，所以ゆえん没ぼつ有ゆう办法从输入にゅう中学ちゅうがく习到任にん何なん抽象ちゅうしょう特とく征せい。多た层的网络克服こくふく了りょう这一いち限げん制せい，因いん为它可か以创建けん内部ないぶ表示ひょうじ，并在每ごと一层学习不同的特征。^[1] 第だい一层可能负责从图像的单个像素的输入学习线条的走向。第だい二层可能就会结合第一层所学并学习识别简单形状（如圆形がた）。每まい升ます高だか一层就学习越来越多的抽象特征，如上じょじょう文ぶん提ひっさげ到いた的てき用よう来らい图像分ぶん类。每まい一层都是从它下方的层中找到模式，就是这种能力のうりょく创建了りょう独立どくりつ于为多た层网络提供ていきょう能のう量的りょうてき外界がいかい输入的てき内部ないぶ表ひょう达形式しき。反はん向こう传播算法さんぽう的てき发展的てき目め标和动机是ぜ找到一种训练的多层神经网络的方法，于是它可以学习合适的内部ないぶ表ひょう达来让它学がく习任意にんい的てき输入到いた输出的てき映うつ射しゃ。^[1]

概括がいかつ[编辑]

反はん向こう传播算法さんぽう（BP 算法さんぽう）主要しゅよう由よし两个阶段组成：激励げきれい传播与权重更新こうしん。

第だい1阶段：激励げきれい传播[编辑]

每次まいじ迭代中ちゅう的てき传播环节包含ほうがん两步：

（前ぜん向こう传播阶段）将はた训练输入送おく入にゅう网络以获得え預あずか測はか結果けっか；
（反はん向こう传播阶段）對たい預あずか測はか結果けっか同どう训练目め标求差さ(损失函数かんすう)。

第だい2阶段：权重更新こうしん[编辑]

对于每ごと个突触上じょう的てき权重，按照以下いか步ふ骤进行ぎょう更新こうしん：

将はた输入激励げきれい和わ响应误差相乘そうじょう，从而获得权重的てき梯はしご度ど；
将はた这个梯はしご度ど乘じょう上じょう一个比例并取反后加到权重上。

这个比例ひれい（百分比ひゃくぶんひ）将しょう会かい影かげ响到训练过程的てき速度そくど和わ效果こうか，因いん此成为「训练因子いんし」。梯はしご度ど的てき方向ほうこう指ゆび明あきら了りょう误差扩大的てき方向ほうこう，因いん此在更新こうしん权重的てき时候需要じゅよう对其取と反はん，从而减小权重引起的てき误差。

第だい 1 和わ第だい 2 阶段可か以反复循环迭代だい，直ちょく到いた网络对输入いれ的てき响应达到满意的てき预定的てき目め标范围为止どめ。

算法さんぽう[编辑]

數學すうがく推導[编辑]

假設かせつ多層たそう人工じんこう神しん经网络的てき第だい $l$ 層そう是ぜ由ゆかり线性算さん子こ $W^{l}:\mathbb {R} ^{n_{l-1}}\to \mathbb {R} ^{n_{l}}$ 和わ激げき活かつ函數かんすう $f^{l}:\mathbb {R} \to \mathbb {R}$ 所ところ構成こうせい，也就是ぜ說せつ，第だい $l$ 層そう的てき輸入ゆにゅう是ぜ $n_{l-1}$ 維实数向むかい量りょう

y^{l-1}=(x_{1},\,x_{2},\,\cdots ,\,x_{n_{l-1}})

輸出ゆしゅつ則そく為ため $n_{l}$ 維實向むこう量りょう

y^{l}=(y_{1},\,y_{2},\,\cdots ,\,y_{n_{l}})

換かわ句く話はなし說せつ，第だい $l-1$ 層そう的てき輸出ゆしゅつ $y^{l-1}$ 就是第だい $l$ 層そう的てき輸入ゆにゅう。

而 $y^{l}$ 和わ $y^{l-1}$ 的てき具體ぐたい(以第 $i$ 分量ぶんりょう表示ひょうじ)遞迴關係かんけい為ため

{y^{l}}_{i}=f^{l}\{\,[W^{l}(y^{l-1})]_{i}\,\}=f^{l}\left[\,\sum _{j=1}^{n_{l-1}}y_{j}^{l-1}W_{ji}^{l}\,\right]

（

1\leq i\leq n_{l}

）

上うえ式しき通常つうじょう會かい簡寫為ため

y^{l}=f^{l}[\,W^{l}(y^{l-1})\,]

若わか這個多層たそう人工じんこう神經しんけい網もう路ろ總そう共有きょうゆう $L$ 層そう，也就是ぜ說せつ， $y^{0}$ 是ぜ最さい一いち開始かいし的てき輸入ゆにゅう，而 $y^{L}$ 是ぜ最後さいご一いち層そう的てき輸出ゆしゅつ，那な跟损失函数かんすう $g$ 是ぜ以最後ご一層いっそう輸出ゆしゅつ $y^{L}$ 的てき各かく分量ぶんりょう ${y^{L}}_{i}$ (與あずか真實しんじつ值)為ため變數へんすう。依據いきょ上面うわつら的てき遞迴關係かんけい，可か以把 $g$ 進一しんいち步ふ的てき轉成てんせい以第 $L$ 層そう的てき輸入ゆにゅう $y^{L-1}$ 與あずか權けん重じゅう因子いんし ${W^{m}}_{ij}$ 為ため變數へんすう的てき函数かんすう $g^{L}$

g^{L}(W_{ij}^{L},\,{y_{k}^{L-1}})=g\left[\,f^{L}\left(\sum _{a=1}^{n_{L-1}}y_{a}^{L-1}W_{ab}^{L}\right)\,\right]

（

1\leq k\leq n_{L-1}

,

1\leq b\leq n_{L}

）

由よし此可以歸納きのう到いた $1\leq l<L$ 的てき情況じょうきょう(注意ちゅうい到いた前ぜん幾いく層そう的てき權けん重じゅう因子いんし不ふ會かい消失しょうしつ在ざい表ひょう達たち式しき中ちゅう)

g^{l}(W_{ij}^{l},\,\cdots ,\,W_{ij}^{L},\,{y_{k}^{l-1}})=g^{l+1}\left[\,W_{ij}^{l+1},\,\cdots ,\,W_{ij}^{L},\,f^{l}\left(\sum _{a=1}^{n_{l-1}}y_{a}^{l-1}W_{ab}^{l}\right)\,\right]

（

1\leq k\leq n_{l-1}

,

1\leq b\leq n_{l}

）

那な這樣如果假設かせつ適當てきとう的てき可か微分びぶん條件じょうけん，由ゆかり链式法ほう则會かい有ゆう以下いか的てき遞迴關係かんけい ( 若わか取と $g^{L+1}:=g$ 和わ $1\leq l\leq L$ )

{\frac {\partial g^{l}}{\partial W_{cd}^{l}}}={\frac {\partial g^{l+1}}{\partial {y^{l}}_{d}}}{\bigg |}_{{y^{l}}_{d}=f^{l}(x)}\times {\frac {df^{l}}{dx}}{\bigg |}_{x=\sum {y^{l-1}}_{a}W_{ad}^{l}}\times {y^{l-1}}_{c}

{\frac {\partial g^{l}}{\partial {y^{l-1}}_{c}}}=\sum _{i=1}^{n_{l}}\left[\,{\frac {\partial g^{l+1}}{\partial {y^{l}}_{i}}}{\bigg |}_{{y^{l}}_{i}=f^{l}(x)}\times {\frac {df^{l}}{dx}}{\bigg |}_{x=\sum {y^{l-1}}_{a}W_{ai}^{l}}\times W_{ci}^{l}\,\right]

這樣就可以依據いきょ這個遞迴關係かんけい進行しんこう梯はしご度ど下降かこう，因いん為ため計算けいさん上じょう是ぜ由ゆかり ${y^{L}}_{i}$ 對たい损失函数かんすう $g$ 的てき偏へん微分びぶん出發しゅっぱつ，一層層向後遞推出前面各層的權重因子梯度，所以ゆえん被ひ稱しょう為ため反はん向こう傳播でんぱ。

注意ちゅうい到いた可か將しょう輸入ゆにゅう設しつらえ為ため

y^{l-1}=(1,\,x_{1},\,x_{2},\,\cdots ,\,x_{n_{l-1}})

並なみ多た加か一いち行ぎょう權けん重じゅう因子いんし $W_{i0}^{l}$ 為ため偏へん移うつり，就可以把有ゆう偏へん移うつり的てき多層たそう網もう路ろ納入のうにゅう剛つよし剛つよし討論とうろん的てき範圍はんい內。

實際じっさい範はん例れい[编辑]

三さん层网络算法ほう（只ただ有ゆう一个隐藏层）：

  初はつ始はじめ化か网络权值（通常つうじょう是ぜ小しょう的てき随ずい机つくえ值）
  do
     forEach 训练样本 ex
        prediction = neural-net-output(network, ex)  // 正せい向こう传递
        actual = teacher-output(ex)
        计算输出单元的てき误差 (prediction - actual)
        计算  $\Delta w_{h}$   对于所有しょゆう隐藏层到输出层的权值                           // 反はん向こう传递
        计算  $\Delta w_{i}$   对于所有しょゆう输入层到隐藏层的权值                           // 继续反はん向こう传递
        更新こうしん网络权值 // 输入层不会かい被ひ误差估计改あらため变
  until 所有しょゆう样本正せい确分类或满足其他停止ていし标准
  return 该网络

这个算法さんぽう的てき名称めいしょう意味いみ着ぎ误差会かい从输出で结点反はん向こう传播到输入结点。严格地ち讲，反はん向こう传播算法さんぽう对网络的可か修おさむ改あらため权值计算了りょう网络误差的てき梯はしご度ど。^[2] 这个梯はしご度会わたらい在ざい简单随ずい机つくえ梯はしご度ど下降かこう法ほう（英えい语：stochastic gradient descent）中ちゅう经常用よう来らい求もとめ最小さいしょう化か误差的てき权重。通常つうじょう“反はん向こう传播”这个词使用よう更さら一般いっぱん的てき含义，用よう来らい指ゆび涵盖了りょう计算梯はしご度ど以及在ざい随ずい机つくえ梯はしご度ど下降かこう法ほう中ちゅう使用しよう的てき整せい个过程ほど。在ざい适用反はん向こう传播算法さんぽう的てき网络中ちゅう，它通常つうじょう可か以快速そく收おさむ敛到令れい人じん满意的てき极小值。

直ちょく观理解りかい[编辑]

学がく习作为一个优化か问题[编辑]

在ざい给出反はん向こう传播算法さんぽう的てき数学すうがく推导之の前まえ，我わが们举一いち个例子来こらい培つちかえ养关于神经元的てき真ま实输出で与あずか正せい确输出で间的直ちょく观感受かんじゅ。考こう虑一个有两个输入单元、一いち个输出で单元、没ぼつ有ゆう隐藏单元的てき简单神しん经网络。每まい个神经元都と使用しよう输入的てき加か权作为线性输出（英えい语：Artificial neuron）^{[note 1]}。

在ざい训练之の前まえ，我わが们将随ずい机つくえ分配ぶんぱい权重 $w_{1},w_{2}$ 。之これ后きさき神しん经元根ね据すえ训练实例进行学がく习。在ざい此例中ちゅう，训练集しゅう为 ( $x_{1}$ , $x_{2}$ , $t$ )，其中 $x_{1}$ 与あずか $x_{2}$ 是ぜ网络的てき输入， $t$ 为正确输出で（在ざい给定相しょう同どう的てき输入时网络最终应当とう产生的てき输出）。网络在ざい给定 $x_{1}$ 和わ $x_{2}$ 时，会かい计算一いち个输出で $y$ ，很可能かのう与あずか $t$ 不同ふどう（因いん为权重じゅう最初さいしょ是ぜ随ずい机つくえ的てき）。为了衡量期き望もち输出 $t$ 与あずか实际输出 $y$ 之これ间的差さ异，一个常用的方法是采用平方误差测度：

E=(t-y)^{2}\,

,

其中 $E$ 为误差さ。

举例来らい讲，考こう虑单一训练实例的网络： $(1,1,0)$ ，输入 $x_{1}$ 与あずか $x_{2}$ 均ひとし为1，正せい确输出で $t$ 为 0。现在若わか将はた实际输出 $y$ 画が在ざいx轴，误差 $E$ 画が在ざい $y$ 轴，得とく出で的てき是ぜ一条抛物线。抛ほう物もの线的てき极小值对应输出 $y$ ，最小さいしょう化か了りょう误差 $E$ 。对于单一训练实例，极小值还会かい接触せっしょく到いた $x$ 轴，这意味いみ着ぎ误差为零，网络可か以产生せい与あずか期き望もち输出 $t$ 完全かんぜん匹ひき配はい的てき输出 $y$ 。因よし此，把わ输入映うつ射い到いた输出的てき问题就化为了一个找到一个能产生最小误差的函数的最さい佳けい化か問題もんだい。

然しか而，一个神经元的输出取决于其所有输入的加权总和：

y=x_{1}w_{1}+x_{2}w_{2}

,

其中 $w_{1}$ 和わ $w_{2}$ 是ぜ从输入にゅう单元到いた输出单元相しょう连的权重。因よし此，误差取と决于输入到いた该神经元的てき权重，也是网络要よう学がく习最终需要よう改あらため变的。若わか每まい个权重じゅう都と画が在ざい一个水平的轴上，而误差さ画が在ざい垂直すいちょく轴上，得とく出で的てき就是一いち个抛ほう物もの面めん（若わか一个神经元有 $k$ 个权重じゅう，则误差さ曲面きょくめん的てき維度就会是ぜ $k+1$ ，因いん而就是ぜ二に维抛物ぶつ线的 $k+1$ 维等价）。

反はん向こう传播算法さんぽう的てき目的もくてき是ぜ找到一组能最大限度地减小误差的权重。寻找抛物ぶつ线或任意にんい维度中ちゅう的てき任にん何なん函数かんすう的てき极大值的方法ほうほう有ゆう若干じゃっかん种。其中一种方法是通过求解方程组，但ただし这依赖于网络是ぜ一いち个線せん性せい系統けいとう，而目标也需要じゅよう可か以训练多层非ひ線せん性せい网络（因いん为多层线性せい网络与单层网络等とう价）。在ざい反はん向こう传播中ちゅう使用しよう的てき方法ほうほう是ぜ梯はしご度ど下降かこう法ほう。

运用类比理解りかい梯はしご度ど下降かこう法ほう[编辑]

梯はしご度ど下降かこう法ほう背せ后きさき的てき直ちょく观感受かんじゅ可か以用假かり设情境さかい进行说明。一个被卡在山上的人正在试图下山（即そく试图找到极小值）。大だい雾使得能とくのう见度非常ひじょう低ひく。因よし此，下山げざん的てき道路どうろ是ぜ看み不ふ见的，所以ゆえん他た必须利用りよう局部きょくぶ信しん息いき来らい找到极小值。他た可か以使用しよう梯はしご度ど下降かこう法ほう，该方法ほう涉わたる及到察看在ざい他た当とう前ぜん位置いち山やま的てき陡峭程度ていど，然しか后きさき沿着负陡度ど（即そく下しも坡）最大さいだい的てき方向ほうこう前ぜん进。如果他た要よう找到山やま顶（即そく极大值）的てき话，他た需要じゅよう沿着正せい陡度（即そく上じょう坡）最大さいだい的てき方向ほうこう前ぜん进。使用しよう此方こちら法ほう，他た会かい最さい终找到下山げざん的てき路ろ。不ふ过，要よう假かり设山的てき陡度不能ふのう通どおり过简单地观察得え到いた，而需要よう复杂的てき工具こうぐ测量，而这个工具ぐ此人恰好かっこう有ゆう。需要じゅよう相当そうとう长的一段时间用仪器测量山的陡峭度，因いん此如果はて他た想そう在日ざいにち落之前ぜん下山げざん，就需要よう最小さいしょう化か仪器的てき使用しよう率りつ。问题就在于怎样选取と他た测量山やま的てき陡峭度ど的てき频率才ざい不ふ致偏离路线。

在ざい这个类比中ちゅう，此人代表だいひょう反はん向こう传播算法さんぽう，而下山路やまじ径みち表示ひょうじ能のう使し误差最小さいしょう化か的てき权重集合しゅうごう。山やま的てき陡度表示ひょうじ误差曲面きょくめん在ざい该点的てき斜はす率りつ。他た要よう前ぜん行くだり的てき方向ほうこう对应于误差さ曲面きょくめん在ざい该点的てき梯はしご度ど。用もちい来らい测量陡峭度ど的てき工具こうぐ是ぜ微分びぶん（误差曲面きょくめん的てき斜はす率りつ可か以通过对平方へいほう误差函数かんすう在ざい该点求もとむ导数计算出来でき）。他た在ざい两次测量之の间前行ぎょう的てき距离（与あずか测量频率成なり正せい比ひ）是ぜ算法さんぽう的てき学がく习速率りつ。参まいり见限きり制せい一いち节中ちゅう对此类型“爬山”算法さんぽう的てき限きり制せい的てき讨论。

限きり制せい[编辑]

结果可能かのう会かい收おさむ敛到极值。如果只ただ有ゆう一いち个极小しょう值，梯はしご度ど下降かこう的てき“爬山”策略さくりゃく一定いってい可か以起作用さよう。然しか而，往往おうおう是ぜ误差曲面きょくめん有ゆう许多局部きょくぶ最小さいしょう值和最大さいだい值。如果梯はしご度ど下降かこう的てき起おこり始点してん恰好かっこう介かい于局部ぶ最大さいだい值和局部きょくぶ最小さいしょう值之间，则沿着ぎ梯はしご度ど下降かこう最大さいだい的てき方向ほうこう会かい到いた达局部ぶ最小さいしょう值。
梯はしご度ど下降かこう法ほう可か以找到局部きょくぶ最小さいしょう值，而不是ぜ全局ぜんきょく最小さいしょう值。
从反向こう传播学がく习获得とく的てき收おさむ敛很慢。
在ざい反はん向こう传播学がく习的收おさむ敛性不能ふのう保ほ证。
- 然しか而，收おさむ敛到全局ぜんきょく最小さいしょう值据说使用しよう自じ适应终止条件じょうけん得え到いた保ほ证^[3]。
反はん向こう传播学がく习不需要じゅよう输入向こう量的りょうてき标准化か（normalization）；然しか而，标准化か可か提ひさげ高性能こうせいのう^[4]。

历史[编辑]

弗どる拉ひしげ基もと米まい尔·瓦かわら普ひろし尼あま克かつ引用いんよう（Bryson, A.E.; W.F. Denham; S.E. Dreyfus. Optimal programming problems with inequality constraints. I: Necessary conditions for extremal solutions. AIAA J. 1, 11 (1963) 2544-2550）在ざい他た的てき书《支持しじ向こう量りょう机つくえ》中ちゅう首くび次じ发表反はん向こう传播算法さんぽう。在ざい1969年ねんArthur E. Bryson和わ何なに毓琦将はた其描述じゅつ为多级动态系统优化か方法ほうほう。^[5]^[6] 直ちょく到いた1974年ねん以后在ざい神かみ经网络的背景はいけい下か应用，并由Paul Werbos^[7]、David E. Rumelhart、杰弗里さと·辛からし顿和わRonald J. Williams^[1]^[8]的てき著作ちょさく，它才获得认可，并引发了一场人工神经网络的研究领域的“文ぶん艺复兴”。在ざい21世せい纪初人じん们对其失去さ兴趣，但ただし在ざい2010年ねん后きさき又また拥有了りょう兴趣，如今可か以通过GPU等とう大型おおがた现代运算器き件けん用よう于训练更大だい的てき网络。例れい如在2013年ねん，顶级语音识别器き现在使用しよう反はん向こう传播算法さんぽう训练神しん经网络。

注ちゅう释[编辑]

^ 注意ちゅうい多た层神经网络一般采用非线性的激活函数，而此例れい中ちゅう的てき激げき活かつ函数かんすう为线性せい函数かんすう，所しょ以并不能ふのう给出明あかり确的示しめせ范。虽然多た层神经网络的误差表面ひょうめん要よう复杂许多，但ただし在ざい小しょう范围内ない，我わが们可以用一个抛物面来估测这样的复杂表面。我わが们在这里采さい用よう线性的てき例れい子こ，因いん为它们简单易懂。

参まいり见[编辑]

参考さんこう文献ぶんけん[编辑]

^ ^1.0 ^1.1 ^1.2 Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. Learning representations by back-propagating errors. Nature. 8 October 1986, 323 (6088): 533–536. doi:10.1038/323533a0.
^ Paul J. Werbos (1994). The Roots of Backpropagation. From Ordered Derivatives to Neural Networks and Political Forecasting. New York, NY: John Wiley & Sons, Inc.
^ Lalis, Jeremias; Gerardo, Bobby; Byun, Yung-Cheol. An Adaptive Stopping Criterion for Backpropagation Learning in Feedforward Neural Network (PDF). International Journal of Multimedia and Ubiquitous Engineering. 2014, 9 (8): 149–156 [17 March 2015]. doi:10.14257/ijmue.2014.9.8.13. （原始げんし内容ないよう (PDF)存そん档于2016-03-04）.
^ ISBN 1-931841-08-X,
^ Stuart Russell; Peter Norvig. Artificial Intelligence A Modern Approach. : 578. The most popular method for learning in multilayer networks is called Back-propagation. It was first invented in 1969 by Bryson and Ho, but was largely ignored until the mid-1980s.
^ Arthur Earl Bryson, Yu-Chi Ho. Applied optimal control: optimization, estimation, and control. Blaisdell Publishing Company or Xerox College Publishing. 1969: 481.
^ Paul J. Werbos. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. PhD thesis, Harvard University, 1974
^ Alpaydın, Ethem. Introduction to machine learning 2nd ed. Cambridge, Mass.: MIT Press. 2010: 250. ISBN 978-0-262-01243-0. ...and hence the name backpropagation was coined (Rumelhart, Hinton, and Williams 1986a).

外部がいぶ連結れんけつ[编辑]

A Gentle Introduction to Backpropagation - An intuitive tutorial by Shashi Sathyanarayana The article contains pseudocode ("Training Wheels for Training Neural Networks") for implementing the algorithm.
Neural Network Back-Propagation for Programmers (a tutorial)（页面存そん档备份，存そん于互联网档案あん馆）
Backpropagation for mathematicians（页面存そん档备份，存そん于互联网档案あん馆）
Chapter 7 The backpropagation algorithm（页面存そん档备份，存そん于互联网档案あん馆） of Neural Networks - A Systematic Introduction（页面存そん档备份，存そん于互联网档案あん馆） by Raúl Rojas (ISBN 978-3540605058)
Implementation of BackPropagation in C++（页面存そん档备份，存そん于互联网档案あん馆）
Implementation of BackPropagation in C#（页面存そん档备份，存そん于互联网档案あん馆）
Implementation of BackPropagation in Java（页面存そん档备份，存そん于互联网档案あん馆）
Another Implementation of BackPropagation in Java
Implementation of BackPropagation in Ruby（页面存そん档备份，存そん于互联网档案あん馆）
Implementation of BackPropagation in Python（页面存そん档备份，存そん于互联网档案あん馆）
Implementation of BackPropagation in PHP（页面存そん档备份，存そん于互联网档案あん馆）
Quick explanation of the backpropagation algorithm（页面存そん档备份，存そん于互联网档案あん馆）
Graphical explanation of the backpropagation algorithm（页面存そん档备份，存そん于互联网档案あん馆）
Concise explanation of the backpropagation algorithm using math notation（页面存そん档备份，存そん于互联网档案あん馆） by Anand Venkataraman
Backpropagation neural network tutorial at the Wikiversity（页面存そん档备份，存そん于互联网档案あん馆）

[3] 注意ちゅうい多た层神经网络一般采用非线性的激活函数，而此例れい中ちゅう的てき激げき活かつ函数かんすう为线性せい函数かんすう，所しょ以并不能ふのう给出明あかり确的示しめせ范。虽然多た层神经网络的误差表面ひょうめん要よう复杂许多，但ただし在ざい小しょう范围内ない，我わが们可以用一个抛物面来估测这样的复杂表面。我わが们在这里采さい用よう线性的てき例れい子こ，因いん为它们简单易懂。

[Rumelhart1986-1] 1.0 ^1.1 ^1.2 Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. Learning representations by back-propagating errors. Nature. 8 October 1986, 323 (6088): 533–536. doi:10.1038/323533a0.

[2] Paul J. Werbos (1994). The Roots of Backpropagation. From Ordered Derivatives to Neural Networks and Political Forecasting. New York, NY: John Wiley & Sons, Inc.

[4] Lalis, Jeremias; Gerardo, Bobby; Byun, Yung-Cheol. An Adaptive Stopping Criterion for Backpropagation Learning in Feedforward Neural Network (PDF). International Journal of Multimedia and Ubiquitous Engineering. 2014, 9 (8): 149–156 [17 March 2015]. doi:10.14257/ijmue.2014.9.8.13. （原始げんし内容ないよう (PDF)存そん档于2016-03-04）.

[5] ISBN 1-931841-08-X,

[6] Stuart Russell; Peter Norvig. Artificial Intelligence A Modern Approach. : 578. The most popular method for learning in multilayer networks is called Back-propagation. It was first invented in 1969 by Bryson and Ho, but was largely ignored until the mid-1980s.

[7] Arthur Earl Bryson, Yu-Chi Ho. Applied optimal control: optimization, estimation, and control. Blaisdell Publishing Company or Xerox College Publishing. 1969: 481.

[8] Paul J. Werbos. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. PhD thesis, Harvard University, 1974

[Alpaydin2010-9] Alpaydın, Ethem. Introduction to machine learning 2nd ed. Cambridge, Mass.: MIT Press. 2010: 250. ISBN 978-0-262-01243-0. ...and hence the name backpropagation was coined (Rumelhart, Hinton, and Williams 1986a).

[1]

[2]

[note 1]

[3]

[4]

[5]

[6]

[7]

[8]