强化 きょうか 学 がく 习 (英語 えいご :Reinforcement learning ,簡稱RL )是 これ 机 つくえ 器 き 学 がく 习中 なか 的 てき 一 いち 个领域 いき ,强 つよ 调如何 なん 基 き 于环境 而行动,以取得 しゅとく 最大 さいだい 化 か 的 てき 预期利益 りえき [ 1] 。强化 きょうか 学 がく 习是除 じょ 了 りょう 监督学 がく 习 和 わ 非 ひ 监督学 がく 习之 これ 外的 がいてき 第 だい 三种基本的机器学习方法。与 あずか 监督学 がく 习不同 ふどう 的 てき 是 ぜ ,强化 きょうか 学 がく 习不需要 じゅよう 带标签的输入输出对,同 どう 时也无需对非最 さい 优解的 てき 精 せい 确地纠正。其关注 ちゅう 点在 てんざい 于寻找探索 たんさく (对未知 みち 领域的 てき )和 かず 利用 りよう (对已有 ゆう 知 ち 识的)的 てき 平衡 へいこう [ 2] ,强化 きょうか 学 がく 习中的 てき “探索 たんさく -利用 りよう ”的 てき 交换,在 ざい 多 た 臂 ひじ 老 ろう 虎 とら 机 つくえ 问题和 わ 有限 ゆうげん MDP中 ちゅう 研究 けんきゅう 得 とく 最多 さいた 。
其灵感 かん 来 らい 源 げん 于心理学 りがく 中 ちゅう 的 てき 行 くだり 为主义理 り 论,即 そく 有 ゆう 机 つくえ 体 たい 如何 いか 在 ざい 环境给予的 てき 奖励或 ある 惩罚的 てき 刺激 しげき 下 か ,逐步形成 けいせい 对刺激 しげき 的 てき 预期,产生能 のう 获得最大 さいだい 利益 りえき 的 てき 习惯性行 せいこう 为。这个方法 ほうほう 具有 ぐゆう 普 ふ 适性,因 いん 此在其他许多领域都 と 有 ゆう 研究 けんきゅう ,例 れい 如博 ひろし 弈论 、控 ひかえ 制 せい 论 、运筹学 がく 、信 しん 息 いき 论 、仿真优化、多 た 智能 ちのう 体系 たいけい 统 、群 ぐん 体 たい 智能 ちのう 、统计学 がく 以及遗传算法 さんぽう 。在 ざい 运筹学 がく 和 わ 控 ひかえ 制 せい 理 り 论研究 けんきゅう 的 てき 语境下 か ,强化 きょうか 学 がく 习被称 しょう 作 さく “近似 きんじ 动态规划”(approximate dynamic programming,ADP)。在 ざい 最 さい 优控制 せい 理 り 论中也有 やゆう 研究 けんきゅう 这个问题,虽然大 だい 部分 ぶぶん 的 てき 研究 けんきゅう 是 ぜ 关于最 さい 优解的 てき 存在 そんざい 和 わ 特性 とくせい ,并非是 ぜ 学 がく 习或者 しゃ 近似 きんじ 方面 ほうめん 。在 ざい 经济学 がく 和 わ 博 ひろし 弈论中 なか ,强化 きょうか 学 がく 习被用 よう 来 らい 解 かい 释在有限 ゆうげん 理性 りせい 的 てき 条件下 じょうけんか 如何 いか 出 で 现平衡 へいこう 。
在 ざい 机 つくえ 器 き 学 がく 习问题中,环境通常 つうじょう 被 ひ 抽象 ちゅうしょう 为马尔可 か 夫 おっと 决策过程 (Markov decision processes,MDP),因 いん 为很多 た 强化 きょうか 学 がく 习算法 ほう 在 ざい 这种假 かり 设下才能 さいのう 使用 しよう 动态规划 的 てき 方法 ほうほう [ 3] 。传统的 てき 动态规划方法 ほうほう 和 わ 强化 きょうか 学 がく 习算法的 ほうてき 主要 しゅよう 区 く 别是,后 きさき 者 しゃ 不 ふ 需要 じゅよう 关于MDP的 てき 知 ち 识,而且针对无法找到确切方法 ほうほう 的 てき 大 だい 规模MDP。[ 4]
强化 きょうか 学 がく 习的典型 てんけい 框 かまち 架 か :智能 ちのう 体 たい 在 ざい 环境中 ちゅう 采 さい 取 と 一 いち 种行为,环境将 はた 其转换为一次回报和一种状态表示,随 ずい 后 きさき 反 はん 馈给智能 ちのう 体 たい 。
由 よし 于其通用 つうよう 性 せい 很强,强化 きょうか 学 がく 习已经在诸如博 ひろし 弈论 、控 ひかえ 制 せい 论 、运筹学 がく 、信 しん 息 いき 论 、仿真优化 、多 た 智能 ちのう 体 たい 、群 ぐん 体 たい 智能 ちのう 和 わ 统计学 がく 等 とう 领域有 ゆう 了 りょう 深入 ふかいり 研究 けんきゅう 。在 ざい 运筹学 がく 和 わ 控 ひかえ 制 せい 文献 ぶんけん 中 ちゅう ,强化 きょうか 学 がく 习被称 しょう 为近似 きんじ 动态规划或 ある 神 かみ 经动态规划 。强化 きょうか 学 がく 习所感 かん 兴趣的 てき 问题在 ざい 最 さい 优控制 せい (一种关注最优解的存在性、表示 ひょうじ 和 かず 求 もとむ 解 かい 的 てき 理 り 论,但 ただし 较少涉 わたる 及学习和近似 きんじ )中 なか 也有 やゆう 所 しょ 研究 けんきゅう ,尤 ゆう 其是环境的 てき 数学 すうがく 模型 もけい 难以求 もとめ 得 とく 的 てき 时候。在 ざい 经济学 がく 和博 かずひろ 弈论中 ちゅう ,强化 きょうか 学 がく 习可能 かのう 被 ひ 用 もちい 来 らい 解 かい 释在有限 ゆうげん 的 てき 理性 りせい (rationality )下 しも 如何 いか 达到平衡 へいこう 状 じょう 态。
基本 きほん 的 てき 强化 きょうか 学 がく 习被建 けん 模 も 为马尔可夫 おっと 决策过程:
环境状 じょう 态的集合 しゅうごう
S
{\displaystyle S}
;
动作的 てき 集合 しゅうごう
A
{\displaystyle A}
;
在 ざい 状 じょう 态之间转换的规则(转移概 がい 率 りつ 矩 のり 阵)
P
{\displaystyle P}
;
规定转换后 きさき “即 そく 时奖励”的 てき 规则(奖励函数 かんすう )
R
{\displaystyle R}
;
描述主体 しゅたい 能 のう 够观察到什么的 てき 规则。
规则通常 つうじょう 是 ぜ 随 ずい 机 つくえ 的 てき 。主体 しゅたい 通常 つうじょう 可 か 以观察即时奖励和最 さい 后 きさき 一 いち 次 じ 转换。在 ざい 许多模型 もけい 中 ちゅう ,主体 しゅたい 被 ひ 假 かり 设为可 か 以观察现有 ゆう 的 てき 环境状 じょう 态,这种情 じょう 况称为“完全 かんぜん 可 か 观测”(full observability),反 はん 之 これ 则称为“部分 ぶぶん 可 か 观测”(partial observability)。通常 つうじょう ,主体 しゅたい 被 ひ 允 まこと 许的动作是 ぜ 有限 ゆうげん 的 てき ,例 れい 如,在 ざい 棋盤中 ちゅう 棋子只 ただ 能 のう 上 じょう 、下 した 、左 ひだり 、右 みぎ 移動 いどう ,或 ある 是 ぜ 使用 しよう 的 てき 钱不能 ふのう 多 た 于所拥有的 てき 。
强化 きょうか 学 がく 习的主体 しゅたい 与 あずか 环境基 もと 于离散的 てき 时间步 ふ 作用 さよう 。在 ざい 每 まい 一 いち 个时间
t
{\displaystyle t}
,主体 しゅたい 接收 せっしゅう 到 いた 一 いち 个观测
o
t
{\displaystyle o_{t}}
,通常 つうじょう 其中包含 ほうがん 奖励
r
t
{\displaystyle r_{t}}
。然 しか 后 きさき ,它从允 まこと 许的集合 しゅうごう 中 ちゅう 选择一 いち 个动作 さく
a
t
{\displaystyle a_{t}}
,然 しか 后 きさき 送出 そうしゅつ 到 いた 环境中 ちゅう 去 さ 。环境则变化 か 到 いた 一个新的状态
s
t
+
1
{\displaystyle s_{t+1}}
,然 しか 后 きさき 决定了 りょう 和 わ 这个变化
(
s
t
,
a
t
,
s
t
+
1
)
{\displaystyle (s_{t},a_{t},s_{t+1})}
相 あい 关联的 てき 奖励
r
t
+
1
{\displaystyle r_{t+1}}
。强化 きょうか 学 がく 习主体 しゅたい 的 てき 目 め 标,是 ぜ 得 え 到 いた 尽 つき 可能 かのう 多 た 的 てき 奖励。主体 しゅたい 选择的 てき 动作是 ぜ 其历史 し 的 てき 函数 かんすう ,它也可 か 以选择随机 つくえ 的 てき 动作。
将 はた 这个主体 しゅたい 的 てき 表 ひょう 现和自 じ 始 はじめ 自 じ 终以最 さい 优方式 しき 行 ぎょう 动的主体 しゅたい 相 しょう 比 ひ 较,它们之 の 间的行 ぎょう 动差异产生 せい 了 りょう “悔过”的 てき 概念 がいねん 。如果要 よう 接近 せっきん 最 さい 优的方案 ほうあん 来 らい 行 ぎょう 动,主体 しゅたい 必须根 ね 据 すえ 它的长时间行动序列 じょれつ 进行推理 すいり :例 れい 如,要 よう 最大 さいだい 化 か 我 が 的 てき 未来 みらい 收入 しゅうにゅう ,我 わが 最 さい 好 こう 现在去 さ 上 うえ 学 がく ,虽然这样行 ぎょう 动的即 そく 时货币奖励为负值。
因 いん 此,强化 きょうか 学 がく 习对于包含长期 き 反 はん 馈的问题比 ひ 短期 たんき 反 はん 馈的表 ひょう 现更好 このみ 。它在许多问题上 じょう 得 え 到 いた 应用,包括 ほうかつ 机 つくえ 器 き 人 じん 控 ひかえ 制 せい 、电梯调度、电信 通 つう 讯、双 そう 陆棋和 わ 西洋 せいよう 跳 とべ 棋 。[ 5]
强化 きょうか 学 がく 习的强大 きょうだい 能力 のうりょく 来 らい 源 げん 于两个方面 めん :使用 しよう 样本来 ほんらい 优化行 ぎょう 为,使用 しよう 函数 かんすう 近似 きんじ 来 らい 描述复杂的 てき 环境。它们使 し 得 とく 强化 きょうか 学 がく 习可以使用 しよう 在 ざい 以下 いか 的 てき 复杂环境中 ちゅう :
模型 もけい 的 てき 环境已 やめ 知 ち ,且解析 かいせき 解 かい 不 ふ 存在 そんざい ;
仅仅给出环境的 てき 模 も 拟模型 がた (模 かたぎ 拟优化 か 方法 ほうほう 的 てき 问题)[ 6]
从环境 さかい 中 ちゅう 获取信 しん 息 いき 的 てき 唯 ただ 一办法是和它互动。前 ぜん 两个问题可 か 以被考 こう 虑为规划问题,而最后 きさき 一个问题可以被认为是genuine learning问题。使用 しよう 强化 きょうか 学 がく 习的方法 ほうほう ,这两种规划问题都可 か 以被转化为机 つくえ 器 き 学 がく 习 问题。
蒙 こうむ 特 とく 卡洛学 がく 习 Monte-Carlo Learning
Temporal-Difference Learning
SARSA算法 さんぽう
Q学 がく 习
强化 きょうか 学 がく 习需要 じゅよう 比 ひ 较聪明 あかり 的 てき 探索 たんさく 机 つくえ 制 せい ,直接 ちょくせつ 随 ずい 机 つくえ 的 てき 对动作 さく 进行采 さい 样的方法 ほうほう 性能 せいのう 比 ひ 较差。虽然小 しょう 规模的 てき 马氏过程 已 やめ 经被认识的 てき 比 ひ 较清楚 すわえ ,这些性 せい 质很难在状 じょう 态空间规模 も 比 ひ 较大的 てき 时候适用,这个时候相 しょう 对简单的探索 たんさく 机 つくえ 制 せい 是 ぜ 更 さら 加 か 现实的 てき 。
其中的 てき 一 いち 种方法 ほう 就是
ϵ
{\displaystyle \epsilon }
-貪婪 どんらん 演算 えんざん 法 ほう ,这种方法 ほうほう 会 かい 以比较大的 てき 概 がい 率 りつ (1-
ϵ
{\displaystyle \epsilon }
)去 さ 选择现在最 さい 好 このみ 的 てき 动作。如果没 ぼつ 有 ゆう 选择最 さい 优动作 さく ,就在剩 あま 下 した 的 てき 动作中 ちゅう 随 ずい 机 つくえ 选择一 いち 个。
ϵ
{\displaystyle \epsilon }
在 ざい 这里是 ぜ 一个可调节的参数,更 さら 小 しょう 的 てき
ϵ
{\displaystyle \epsilon }
意味 いみ 着 ぎ 算法 さんぽう 会 かい 更 さら 加 か 贪心。[ 7]
^ Hu, J.; Niu, H.; Carrasco, J.; Lennox, B.; Arvin, F. Voronoi-Based Multi-Robot Autonomous Exploration in Unknown Environments via Deep Reinforcement Learning . IEEE Transactions on Vehicular Technology. 2020, 69 (12): 14413-14423 [2021-03-21 ] . (原始 げんし 内容 ないよう 存 そん 档于2021-08-13).
^ Kaelbling, Leslie P. ; Littman, Michael L. ; Moore, Andrew W. Reinforcement Learning: A Survey . Journal of Artificial Intelligence Research. 1996, 4 : 237–285. S2CID 1708582 . arXiv:cs/9605103 . doi:10.1613/jair.301 . (原始 げんし 内容 ないよう 存 そん 档于2001-11-20).
^ van Otterlo, M.; Wiering, M. Reinforcement Learning and Markov Decision Processes. Reinforcement Learning. Adaptation, Learning, and Optimization 12 . 2012: 3–42. ISBN 978-3-642-27644-6 . doi:10.1007/978-3-642-27645-3_1 .
^ 强化 きょうか 学 がく 习:原理 げんり 与 あずか Python实现. 北京 ぺきん . 2019: 16–19. ISBN 9787111631774 .
^ Sutton1998|Sutton and Barto 1998 Chapter 11
^ Gosavi, Abhijit . Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement . Springer. 2003 [2015-08-19 ] . ISBN 1-4020-7454-9 . (原始 げんし 内容 ないよう 存 そん 档 于2012-06-15).
^ Tokic, Michel; Palm, Günther, Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax, KI 2011: Advances in Artificial Intelligence (PDF) , Lecture Notes in Computer Science 7006 , Springer: 335–346, 2011 [2018-09-03 ] , ISBN 978-3-642-24455-1 , (原始 げんし 内容 ないよう 存 そん 档 (PDF) 于2018-11-23)
基本 きほん 概念 がいねん 數學 すうがく 模型 もけい 學習 がくしゅう 範式 はんしき 主要 しゅよう 應用 おうよう 相關 そうかん 領域 りょういき