(Translated by https://www.hiragana.jp/)
强化学习 - 维基百科,自由的百科全书 とべ转到内容ないよう

强化きょうかがく

维基百科ひゃっか自由じゆうてき百科ひゃっかぜん

强化きょうかがく英語えいごReinforcement learning,簡稱RLこれつくえがくなかてきいち个领いきつよ调如なん环境而行动,以取得しゅとく最大さいだいてき预期利益りえき[1]强化きょうかがく习是じょりょう监督がく监督がくこれ外的がいてきだい三种基本的机器学习方法。あずか监督がく不同ふどうてき强化きょうかがく习不需要じゅよう带标签的输入输出对,どう时也无需对非さい优解てきせい确地纠正。其关ちゅう点在てんざい于寻找探索たんさく(对未知みち领域てきかず利用りよう(对已ゆう识的)てき平衡へいこう[2]强化きょうかがく习中てき探索たんさく-利用りようてき交换,ざいひじろうとらつくええいmulti-armed bandit问题有限ゆうげんMDPちゅう研究けんきゅうとく最多さいた

其灵かんらいげん于心理学りがくちゅうてきくだり为主义论,そくゆうつくえたい如何いかざい环境给予てき奖励ある惩罚てき刺激しげき,逐步形成けいせい刺激しげきてき预期,产生のう获得最大さいだい利益りえきてき习惯性行せいこう为。这个方法ほうほう具有ぐゆう适性,いん此在其他许多领域ゆう研究けんきゅうれいひろし弈论ひかえせい运筹がくしんいき、仿真优化、智能ちのう体系たいけいぐんたい智能ちのう统计がく以及遗传算法さんぽうざい运筹がくひかえせい研究けんきゅうてき语境强化きょうかがく习被しょうさく近似きんじ动态规划”(approximate dynamic programming,ADP)。ざいさい优控せい论中也有やゆう研究けんきゅう这个问题,虽然だい部分ぶぶんてき研究けんきゅう关于さい优解てき存在そんざい特性とくせい,并非がく习或しゃ近似きんじ方面ほうめんざい经济がくひろし弈论なか强化きょうかがく习被ようらいかい释在有限ゆうげん理性りせいてき条件下じょうけんか如何いか平衡へいこう

ざいつくえがく习问题中,环境通常つうじょう抽象ちゅうしょう马尔おっと决策过程(Markov decision processes,MDP),いん为很强化きょうかがく习算ほうざい这种かり设下才能さいのう使用しよう动态规划てき方法ほうほう[3]。传统てき动态规划方法ほうほう强化きょうかがく习算法的ほうてき主要しゅよう别是,きさきしゃ需要じゅよう关于MDPてき识,而且针对无法找到确切方法ほうほうてきだい规模MDP。[4]

かい

[编辑]
强化きょうかがく习的典型てんけいかまち智能ちのうたいざい环境ちゅうさいいち种行为,环境はた其转换为一次回报和一种状态表示,ずいきさきはん馈给智能ちのうたい

よし于其通用つうようせい很强,强化きょうかがく习已经在诸如ひろし弈论ひかえせい运筹がくしんいき仿真优化智能ちのうたいぐんたい智能ちのう统计がくとう领域ゆうりょう深入ふかいり研究けんきゅうざい运筹がくひかえせい文献ぶんけんちゅう强化きょうかがく习被しょう近似きんじ动态规划あるかみ经动态规划强化きょうかがく习所かん兴趣てき问题ざいさい优控せい(一种关注最优解的存在性、表示ひょうじかずもとむかいてき论,ただし较少わたる及学习和近似きんじなか也有やゆうしょ研究けんきゅうゆう其是环境てき数学すうがく模型もけい难以もとめとくてき时候。ざい经济がく和博かずひろ弈论ちゅう强化きょうかがく可能かのうもちいらいかい释在有限ゆうげんてき理性りせいrationalityしも如何いか达到平衡へいこうじょう态。

基本きほんてき强化きょうかがく习被けん为马尔可おっと决策过程:

  1. 环境じょう态的集合しゅうごう;
  2. 动作てき集合しゅうごう;
  3. ざいじょう态之间转换的规则(转移がいりつのり阵)
  4. 规定转换きさきそく时奖励”てき规则(奖励函数かんすう
  5. 描述主体しゅたいのう够观察到什么てき规则。

规则通常つうじょうずいつくえてき主体しゅたい通常つうじょう以观察即时奖励和さいきさきいち转换。ざい许多模型もけいちゅう主体しゅたいかり设为以观察现ゆうてき环境じょう态,这种じょう况称为“完全かんぜん观测”(full observability),はんこれ则称为“部分ぶぶん观测”(partial observability)。通常つうじょう主体しゅたいまこと许的动作有限ゆうげんてきれい如,ざい棋盤ちゅう棋子ただのうじょうしたひだりみぎ移動いどうある使用しようてき不能ふのう于所拥有てき

强化きょうかがく习的主体しゅたいあずか环境もと于离散てき时间作用さようざいまいいち个时间主体しゅたい接收せっしゅういたいち个观测通常つうじょう其中包含ほうがん奖励しかきさき,它从まこと许的集合しゅうごうちゅう选择いち个动さくしかきさき送出そうしゅついた环境ちゅう。环境则变いた一个新的状态しかきさき决定りょう这个变化あい关联てき奖励强化きょうかがく主体しゅたいてき标,いたつき可能かのうてき奖励。主体しゅたい选择てき动作其历てき函数かんすう,它也以选择随つくえてき动作。

はた这个主体しゅたいてきひょう现和はじめ终以さい优方しきぎょう动的主体しゅたいしょう较,它们间的ぎょう动差异产せいりょう“悔过”てき概念がいねん。如果よう接近せっきんさい优的方案ほうあんらいぎょう动,主体しゅたい必须すえ它的长时间行动序列じょれつ进行推理すいりれい如,よう最大さいだいてき未来みらい收入しゅうにゅうわがさいこう现在うえがく,虽然这样ぎょう动的そく时货币奖励为负值。

いん此,强化きょうかがく习对于包含长はん馈的问题短期たんきはん馈的ひょう现更このみ。它在许多问题じょういた应用,包括ほうかつつくえじんひかえせい、电梯调度、电信つう讯、そう陆棋西洋せいようとべ[5]

强化きょうかがく习的强大きょうだい能力のうりょくらいげん于两个方めん使用しよう本来ほんらい优化ぎょう为,使用しよう函数かんすう近似きんじらい描述复杂てき环境。它们使とく强化きょうかがく习可以使用しようざい以下いかてき复杂环境ちゅう

  • 模型もけいてき环境やめ,且解析かいせきかい存在そんざい
  • 仅仅给出环境てき拟模がたかたぎ拟优方法ほうほうてき问题)[6]
  • 从环さかいちゅう获取しんいきてきただ一办法是和它互动。ぜん两个问题以被こう虑为规划问题,而最きさき一个问题可以被认为是genuine learning问题。使用しよう强化きょうかがく习的方法ほうほう,这两种规划问题都以被转化为つくえがく问题。

常用じょうよう算法さんぽう

[编辑]

探索たんさくつくえせい

[编辑]

强化きょうかがく需要じゅよう较聪あかりてき探索たんさくつくえせい直接ちょくせつずいつくえてき对动さく进行さい样的方法ほうほう性能せいのう较差。虽然しょう规模てき马氏过程やめ经被认识てき较清すわえ,这些せい质很难在じょう态空间规较大てき时候适用,这个时候しょう对简单的探索たんさくつくえせいさら现实てき

其中てきいち种方ほう就是 -貪婪どんらん演算えんざんほう,这种方法ほうほうかい以比较大てきがいりつ(1-)选择现在さいこのみてき动作。如果ぼつゆう选择さい优动さく,就在あましたてき动作ちゅうずいつくえ选择いち个。 ざい这里一个可调节的参数,さらしょうてき 意味いみ算法さんぽうかいさら贪心。[7]

参考さんこう文献ぶんけん

[编辑]
  1. ^ Hu, J.; Niu, H.; Carrasco, J.; Lennox, B.; Arvin, F. Voronoi-Based Multi-Robot Autonomous Exploration in Unknown Environments via Deep Reinforcement Learning. IEEE Transactions on Vehicular Technology. 2020, 69 (12): 14413-14423 [2021-03-21]. (原始げんし内容ないようそん档于2021-08-13). 
  2. ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research. 1996, 4: 237–285. S2CID 1708582. arXiv:cs/9605103可免费查阅. doi:10.1613/jair.301. (原始げんし内容ないようそん档于2001-11-20). 
  3. ^ van Otterlo, M.; Wiering, M. Reinforcement Learning and Markov Decision Processes. Reinforcement Learning. Adaptation, Learning, and Optimization 12. 2012: 3–42. ISBN 978-3-642-27644-6. doi:10.1007/978-3-642-27645-3_1. 
  4. ^ 强化きょうかがく习:原理げんりあずかPython实现. 北京ぺきん. 2019: 16–19. ISBN 9787111631774. 
  5. ^ Sutton1998|Sutton and Barto 1998 Chapter 11
  6. ^ Gosavi, Abhijit. Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Springer. 2003 [2015-08-19]. ISBN 1-4020-7454-9. (原始げんし内容ないようそん于2012-06-15). 
  7. ^ Tokic, Michel; Palm, Günther, Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax, KI 2011: Advances in Artificial Intelligence (PDF), Lecture Notes in Computer Science 7006, Springer: 335–346, 2011 [2018-09-03], ISBN 978-3-642-24455-1, (原始げんし内容ないようそん (PDF)于2018-11-23)