强化きょうか学がく习

强化きょうか学がく习（英語えいご：Reinforcement learning，簡稱RL）是これ机つくえ器き学がく习中なか的てき一いち个领域いき，强つよ调如何なん基き于环境而行动，以取得しゅとく最大さいだい化か的てき预期利益りえき^[1]。强化きょうか学がく习是除じょ了りょう监督学がく习和わ非ひ监督学がく习之これ外的がいてき第だい三种基本的机器学习方法。与あずか监督学がく习不同ふどう的てき是ぜ，强化きょうか学がく习不需要じゅよう带标签的输入输出对，同どう时也无需对非最さい优解的てき精せい确地纠正。其关注ちゅう点在てんざい于寻找探索たんさく（对未知みち领域的てき）和かず利用りよう（对已有ゆう知ち识的）的てき平衡へいこう^[2]，强化きょうか学がく习中的てき“探索たんさく-利用りよう”的てき交换，在ざい多た臂ひじ老ろう虎とら机つくえ（英えい语：multi-armed bandit）问题和わ有限ゆうげんMDP中ちゅう研究けんきゅう得とく最多さいた。

其灵感かん来らい源げん于心理学りがく中ちゅう的てき行くだり为主义理り论，即そく有ゆう机つくえ体たい如何いか在ざい环境给予的てき奖励或ある惩罚的てき刺激しげき下か，逐步形成けいせい对刺激しげき的てき预期，产生能のう获得最大さいだい利益りえき的てき习惯性行せいこう为。这个方法ほうほう具有ぐゆう普ふ适性，因いん此在其他许多领域都と有ゆう研究けんきゅう，例れい如博ひろし弈论、控ひかえ制せい论、运筹学がく、信しん息いき论、仿真优化、多た智能ちのう体系たいけい统、群ぐん体たい智能ちのう、统计学がく以及遗传算法さんぽう。在ざい运筹学がく和わ控ひかえ制せい理り论研究けんきゅう的てき语境下か，强化きょうか学がく习被称しょう作さく“近似きんじ动态规划”（approximate dynamic programming，ADP）。在ざい最さい优控制せい理り论中也有やゆう研究けんきゅう这个问题，虽然大だい部分ぶぶん的てき研究けんきゅう是ぜ关于最さい优解的てき存在そんざい和わ特性とくせい，并非是ぜ学がく习或者しゃ近似きんじ方面ほうめん。在ざい经济学がく和わ博ひろし弈论中なか，强化きょうか学がく习被用よう来らい解かい释在有限ゆうげん理性りせい的てき条件下じょうけんか如何いか出で现平衡へいこう。

在ざい机つくえ器き学がく习问题中，环境通常つうじょう被ひ抽象ちゅうしょう为马尔可か夫おっと决策过程（Markov decision processes，MDP），因いん为很多た强化きょうか学がく习算法ほう在ざい这种假かり设下才能さいのう使用しよう动态规划的てき方法ほうほう^[3]。传统的てき动态规划方法ほうほう和わ强化きょうか学がく习算法的ほうてき主要しゅよう区く别是，后きさき者しゃ不ふ需要じゅよう关于MDP的てき知ち识，而且针对无法找到确切方法ほうほう的てき大だい规模MDP。^[4]

介かい绍

由よし于其通用つうよう性せい很强，强化きょうか学がく习已经在诸如博ひろし弈论、控ひかえ制せい论、运筹学がく、信しん息いき论、仿真优化、多た智能ちのう体たい、群ぐん体たい智能ちのう和わ统计学がく等とう领域有ゆう了りょう深入ふかいり研究けんきゅう。在ざい运筹学がく和わ控ひかえ制せい文献ぶんけん中ちゅう，强化きょうか学がく习被称しょう为近似きんじ动态规划或ある神かみ经动态规划。强化きょうか学がく习所感かん兴趣的てき问题在ざい最さい优控制せい（一种关注最优解的存在性、表示ひょうじ和かず求もとむ解かい的てき理り论，但ただし较少涉わたる及学习和近似きんじ）中なか也有やゆう所しょ研究けんきゅう，尤ゆう其是环境的てき数学すうがく模型もけい难以求もとめ得とく的てき时候。在ざい经济学がく和博かずひろ弈论中ちゅう，强化きょうか学がく习可能かのう被ひ用もちい来らい解かい释在有限ゆうげん的てき理性りせい（rationality）下しも如何いか达到平衡へいこう状じょう态。

基本きほん的てき强化きょうか学がく习被建けん模も为马尔可夫おっと决策过程：

环境状じょう态的集合しゅうごう $S$ ;
动作的てき集合しゅうごう $A$ ;
在ざい状じょう态之间转换的规则（转移概がい率りつ矩のり阵） $P$ ；
规定转换后きさき“即そく时奖励”的てき规则（奖励函数かんすう） $R$ ；
描述主体しゅたい能のう够观察到什么的てき规则。

规则通常つうじょう是ぜ随ずい机つくえ的てき。主体しゅたい通常つうじょう可か以观察即时奖励和最さい后きさき一いち次じ转换。在ざい许多模型もけい中ちゅう，主体しゅたい被ひ假かり设为可か以观察现有ゆう的てき环境状じょう态，这种情じょう况称为“完全かんぜん可か观测”（full observability），反はん之これ则称为“部分ぶぶん可か观测”（partial observability）。通常つうじょう，主体しゅたい被ひ允まこと许的动作是ぜ有限ゆうげん的てき，例れい如，在ざい棋盤中ちゅう棋子只ただ能のう上じょう、下した、左ひだり、右みぎ移動いどう，或ある是ぜ使用しよう的てき钱不能ふのう多た于所拥有的てき。

强化きょうか学がく习的主体しゅたい与あずか环境基もと于离散的てき时间步ふ作用さよう。在ざい每まい一いち个时间 $t$ ，主体しゅたい接收せっしゅう到いた一いち个观测 $o_{t}$ ，通常つうじょう其中包含ほうがん奖励 $r_{t}$ 。然しか后きさき，它从允まこと许的集合しゅうごう中ちゅう选择一いち个动作さく $a_{t}$ ，然しか后きさき送出そうしゅつ到いた环境中ちゅう去さ。环境则变化か到いた一个新的状态 $s_{t+1}$ ，然しか后きさき决定了りょう和わ这个变化 $(s_{t},a_{t},s_{t+1})$ 相あい关联的てき奖励 $r_{t+1}$ 。强化きょうか学がく习主体しゅたい的てき目め标，是ぜ得え到いた尽つき可能かのう多た的てき奖励。主体しゅたい选择的てき动作是ぜ其历史し的てき函数かんすう，它也可か以选择随机つくえ的てき动作。

将はた这个主体しゅたい的てき表ひょう现和自じ始はじめ自じ终以最さい优方式しき行ぎょう动的主体しゅたい相しょう比ひ较，它们之の间的行ぎょう动差异产生せい了りょう“悔过”的てき概念がいねん。如果要よう接近せっきん最さい优的方案ほうあん来らい行ぎょう动，主体しゅたい必须根ね据すえ它的长时间行动序列じょれつ进行推理すいり：例れい如，要よう最大さいだい化か我が的てき未来みらい收入しゅうにゅう，我わが最さい好こう现在去さ上うえ学がく，虽然这样行ぎょう动的即そく时货币奖励为负值。

因いん此，强化きょうか学がく习对于包含长期き反はん馈的问题比ひ短期たんき反はん馈的表ひょう现更好このみ。它在许多问题上じょう得え到いた应用，包括ほうかつ机つくえ器き人じん控ひかえ制せい、电梯调度、电信通つう讯、双そう陆棋和わ西洋せいよう跳とべ棋。^[5]

强化きょうか学がく习的强大きょうだい能力のうりょく来らい源げん于两个方面めん：使用しよう样本来ほんらい优化行ぎょう为，使用しよう函数かんすう近似きんじ来らい描述复杂的てき环境。它们使し得とく强化きょうか学がく习可以使用しよう在ざい以下いか的てき复杂环境中ちゅう：

模型もけい的てき环境已やめ知ち，且解析かいせき解かい不ふ存在そんざい；
仅仅给出环境的てき模も拟模型がた（模かたぎ拟优化か方法ほうほう的てき问题）^[6]
从环境さかい中ちゅう获取信しん息いき的てき唯ただ一办法是和它互动。前ぜん两个问题可か以被考こう虑为规划问题，而最后きさき一个问题可以被认为是genuine learning问题。使用しよう强化きょうか学がく习的方法ほうほう，这两种规划问题都可か以被转化为机つくえ器き学がく习问题。

常用じょうよう算法さんぽう

蒙こうむ特とく卡洛学がく习 Monte-Carlo Learning
Temporal-Difference Learning
SARSA算法さんぽう
Q学がく习

探索たんさく机つくえ制せい

强化きょうか学がく习需要じゅよう比ひ较聪明あかり的てき探索たんさく机つくえ制せい，直接ちょくせつ随ずい机つくえ的てき对动作さく进行采さい样的方法ほうほう性能せいのう比ひ较差。虽然小しょう规模的てき马氏过程已やめ经被认识的てき比ひ较清楚すわえ，这些性せい质很难在状じょう态空间规模も比ひ较大的てき时候适用，这个时候相しょう对简单的探索たんさく机つくえ制せい是ぜ更さら加か现实的てき。

其中的てき一いち种方法ほう就是 $\epsilon$ -貪婪どんらん演算えんざん法ほう，这种方法ほうほう会かい以比较大的てき概がい率りつ(1- $\epsilon$ )去さ选择现在最さい好このみ的てき动作。如果没ぼつ有ゆう选择最さい优动作さく，就在剩あま下した的てき动作中ちゅう随ずい机つくえ选择一いち个。 $\epsilon$ 在ざい这里是ぜ一个可调节的参数，更さら小しょう的てき $\epsilon$ 意味いみ着ぎ算法さんぽう会かい更さら加か贪心。^[7]

参考さんこう文献ぶんけん

Scholia上うえ有ゆう關せき强化きょうか学がく习的てき信しん息いき

^ Hu, J.; Niu, H.; Carrasco, J.; Lennox, B.; Arvin, F. Voronoi-Based Multi-Robot Autonomous Exploration in Unknown Environments via Deep Reinforcement Learning. IEEE Transactions on Vehicular Technology. 2020, 69 (12): 14413-14423 [2021-03-21]. （原始げんし内容ないよう存そん档于2021-08-13）.
^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research. 1996, 4: 237–285. S2CID 1708582. arXiv:cs/9605103 . doi:10.1613/jair.301. （原始げんし内容ないよう存そん档于2001-11-20）.
^ van Otterlo, M.; Wiering, M. Reinforcement Learning and Markov Decision Processes. Reinforcement Learning. Adaptation, Learning, and Optimization 12. 2012: 3–42. ISBN 978-3-642-27644-6. doi:10.1007/978-3-642-27645-3_1.
^ 强化きょうか学がく习：原理げんり与あずかPython实现. 北京ぺきん. 2019: 16–19. ISBN 9787111631774.
^ Sutton1998|Sutton and Barto 1998 Chapter 11
^ Gosavi, Abhijit. Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Springer. 2003 [2015-08-19]. ISBN 1-4020-7454-9. （原始げんし内容ないよう存そん档于2012-06-15）.
^ Tokic, Michel; Palm, Günther, Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax, KI 2011: Advances in Artificial Intelligence (PDF), Lecture Notes in Computer Science 7006, Springer: 335–346, 2011 [2018-09-03], ISBN 978-3-642-24455-1, （原始げんし内容ないよう存そん档 (PDF)于2018-11-23）

[1] Hu, J.; Niu, H.; Carrasco, J.; Lennox, B.; Arvin, F. Voronoi-Based Multi-Robot Autonomous Exploration in Unknown Environments via Deep Reinforcement Learning. IEEE Transactions on Vehicular Technology. 2020, 69 (12): 14413-14423 [2021-03-21]. （原始げんし内容ないよう存そん档于2021-08-13）.

[kaelbling-2] Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research. 1996, 4: 237–285. S2CID 1708582. arXiv:cs/9605103 . doi:10.1613/jair.301. （原始げんし内容ないよう存そん档于2001-11-20）.

[3] van Otterlo, M.; Wiering, M. Reinforcement Learning and Markov Decision Processes. Reinforcement Learning. Adaptation, Learning, and Optimization 12. 2012: 3–42. ISBN 978-3-642-27644-6. doi:10.1007/978-3-642-27645-3_1.

[4] 强化きょうか学がく习：原理げんり与あずかPython实现. 北京ぺきん. 2019: 16–19. ISBN 9787111631774.

[5] Sutton1998|Sutton and Barto 1998 Chapter 11

[6] Gosavi, Abhijit. Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Springer. 2003 [2015-08-19]. ISBN 1-4020-7454-9. （原始げんし内容ないよう存そん档于2012-06-15）.

[7] Tokic, Michel; Palm, Günther, Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax, KI 2011: Advances in Artificial Intelligence (PDF), Lecture Notes in Computer Science 7006, Springer: 335–346, 2011 [2018-09-03], ISBN 978-3-642-24455-1, （原始げんし内容ないよう存そん档 (PDF)于2018-11-23）

[1]

[2]

[3]

[4]

[5]

[6]

[7]