マルコフ決定 けってい 過程 かてい (マルコフけっていかてい、英 えい : Markov decision process; MDP )は、状態 じょうたい 遷移 せんい が確 かく 率 りつ 的 てき に生 しょう じる動的 どうてき システム(確 かく 率 りつ システム)の確 かく 率 りつ モデルであり、状態 じょうたい 遷移 せんい がマルコフ性 せい を満 み たすものをいう。
MDP は不 ふ 確実 かくじつ 性 せい を伴 ともな う意思 いし 決定 けってい のモデリングにおける数学 すうがく 的 てき 枠組 わくぐ みとして、強化 きょうか 学習 がくしゅう など動的 どうてき 計画 けいかく 法 ほう が適用 てきよう される幅広 はばひろ い最適 さいてき 化 か 問題 もんだい の研究 けんきゅう に活用 かつよう されている。
MDP は少 すく なくとも1950年代 ねんだい には知 し られていたが、研究 けんきゅう の中核 ちゅうかく は1960年 ねん に出版 しゅっぱん された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因 きいん する。
MDP はロボット工学 こうがく や自動 じどう 制御 せいぎょ 、経済 けいざい 学 がく 、製造 せいぞう 業 ぎょう を含 ふく む幅広 はばひろ い分野 ぶんや で用 もち いられている。
3つの状態 じょうたい と2つの行動 こうどう をもつ簡単 かんたん な MDP の例 れい
マルコフ決定 けってい 過程 かてい は離散 りさん 時間 じかん における確 かく 率 りつ 制御 せいぎょ 過程 かてい (stochastic control process) である。
各 かく 時刻 じこく において過程 かてい (process) はある状態 じょうたい (state) を取 と り、意思 いし 決定 けってい 者 しゃ (decision maker) はその状態 じょうたい において利用 りよう 可能 かのう な行動 こうどう (action) を任意 にんい に選択 せんたく する。
その後 ご 過程 かてい はランダムに新 あたら しい状態 じょうたい へと遷移 せんい し、その際 さい に意思 いし 決定 けってい 者 しゃ は状態 じょうたい 遷移 せんい に対応 たいおう した報酬 ほうしゅう (reward) を受 う けとる。
遷移 せんい 後 ご の状態 じょうたい
s
′
{\displaystyle s'}
、および得 え られる報酬 ほうしゅう の値 ね
r
{\displaystyle r}
は現在 げんざい の状態 じょうたい
s
{\displaystyle s}
と行動 こうどう
a
{\displaystyle a}
のみに依存 いぞん し、
s
{\displaystyle s}
と
a
{\displaystyle a}
が与 あた えられたもとでそれより過去 かこ の状態 じょうたい および行動 こうどう と条件 じょうけん 付 つ き独立 どくりつ となる。
い換 いか えると、マルコフ決定 けってい 過程 かてい の状態 じょうたい 遷移 せんい はマルコフ性 せい を満 み たす。
マルコフ決定 けってい 過程 かてい はマルコフ連鎖 れんさ に(選択 せんたく 可能 かのう な)行動 こうどう 、および(行動 こうどう を計画 けいかく する動機 どうき を与 あた える)報酬 ほうしゅう を追加 ついか し拡張 かくちょう したものであると解釈 かいしゃく できる。
逆 ぎゃく に言 い えば、各 かく ステップにとる行動 こうどう がそのステップにおける状態 じょうたい のみ依存 いぞん するとき、マルコフ決定 けってい 過程 かてい は等価 とうか なマルコフ連鎖 れんさ に置 お き換 か えることが出来 でき る。
有限 ゆうげん マルコフ決定 けってい 過程 かてい (finite Markov decision process; finite MDP) は4つの要素 ようそ の組 くみ
⟨
S
,
A
,
T
,
R
⟩
{\textstyle {\big \langle }S,A,T,R{\big \rangle }}
で表 あらわ される。ここで各 かく 要素 ようそ はそれぞれ次 じ を意味 いみ する。
S
=
{
s
1
,
s
2
,
…
,
s
N
}
{\displaystyle S=\{s^{1},s^{2},\ldots ,s^{N}\}}
: 状態 じょうたい の有限 ゆうげん 集合 しゅうごう
A
=
{
a
1
,
a
2
,
…
,
a
K
}
{\displaystyle A=\{a^{1},a^{2},\ldots ,a^{K}\}}
: 行動 こうどう の有限 ゆうげん 集合 しゅうごう
T
:
S
×
A
×
S
→
[
0
,
1
]
{\displaystyle T:S\times A\times S\to [0,1]}
: 遷移 せんい 関数 かんすう (transition function)
R
:
S
×
A
×
S
→
R
{\displaystyle R:S\times A\times S\to \mathbb {R} }
: 報酬 ほうしゅう 関数 かんすう (reward function)
遷移 せんい 関数 かんすう
T
(
s
,
a
,
s
′
)
{\displaystyle T(s,a,s')}
は状態 じょうたい
s
{\displaystyle s}
にあり行動 こうどう
a
{\displaystyle a}
を取 と ったときの状態 じょうたい
s
′
{\displaystyle s'}
への状態 じょうたい 遷移 せんい 確 かく 率 りつ
T
(
s
,
a
,
s
′
)
=
Pr
(
s
t
+
1
=
s
′
|
s
t
=
s
,
a
t
=
a
)
{\displaystyle T(s,a,s')=\Pr(s_{t+1}=s'|s_{t}=s,a_{t}=a)}
である。
また報酬 ほうしゅう 関数 かんすう
R
(
s
,
a
,
s
′
)
{\displaystyle R(s,a,s')}
は状態 じょうたい
s
{\displaystyle s}
から
s
′
{\displaystyle s'}
に行動 こうどう
a
{\displaystyle a}
を伴 ともな い遷移 せんい する際 さい に得 え られる即時 そくじ 報酬 ほうしゅう (immediate reward) 、またはその期待 きたい 値 ち
E
[
r
t
+
1
|
s
,
a
,
s
′
]
{\displaystyle \mathbb {E} [r_{t+1}|s,a,s']}
を表 あらわ す。
MDP における基本 きほん 的 てき な問題 もんだい 設定 せってい は、現在 げんざい の状態 じょうたい が
s
{\displaystyle s}
が与 あた えられたときに意思 いし 決定 けってい 者 しゃ の取 と る行動 こうどう
a
∈
A
{\displaystyle a\in A}
を既定 きてい する方策 ほうさく (policy) を求 もと めることである。
方策 ほうさく は通常 つうじょう
s
,
a
{\displaystyle s,a}
の条件 じょうけん 付 つ き分布 ぶんぷ
P
(
a
|
s
)
{\displaystyle P(a|s)}
として規定 きてい され、状態 じょうたい
s
{\displaystyle s}
に 行動 こうどう
a
{\displaystyle a}
を取 と る確 かく 率 りつ を
π ぱい
(
s
,
a
)
{\displaystyle \pi (s,a)}
と表記 ひょうき する。
方策 ほうさく を求 もと める際 さい に用 もち いられるゴール(目的 もくてき 関数 かんすう )は、典型 てんけい 的 てき には現在 げんざい 時刻 じこく から無限 むげん 区間 くかん 先 さき の未来 みらい までにおける「割引 わりびき された」報酬 ほうしゅう の累積 るいせき 値 ち が用 もち いられる:
∑
t
=
0
∞
γ がんま
t
r
t
+
1
where
a
t
=
π ぱい
(
s
t
)
{\displaystyle \sum _{t=0}^{\infty }\gamma ^{t}r_{t+1}\quad {\text{where}}\ a_{t}=\pi (s_{t})}
ここで
γ がんま
∈
[
0
,
1
]
{\displaystyle \gamma \in [0,1]}
は割引 わりびき 率 りつ (discount rate) と呼 よ ばれる値 ね であり、現在 げんざい の報酬 ほうしゅう と未来 みらい の報酬 ほうしゅう との間 あいだ における重要 じゅうよう 度 ど (importance) の差異 さい を表 あらわ している。
状態 じょうたい が確 かく 率 りつ 的 てき に遷移 せんい することから上 うえ の値 ね は確 かく 率 りつ 変数 へんすう となるため、通常 つうじょう はその期待 きたい 値 ち が用 もち いられる。
MDP は線形 せんけい 計画 けいかく 法 ほう または動的 どうてき 計画 けいかく 法 ほう で解 と くことができる。ここでは後者 こうしゃ によるアプローチを示 しめ す.
いま,ある(定常 ていじょう な)方策 ほうさく
π ぱい
{\displaystyle \pi }
を採用 さいよう した場合 ばあい における割引 わりびき 報酬 ほうしゅう 和 わ
V
π ぱい
(
s
)
=
E
π ぱい
[
∑
t
=
0
∞
γ がんま
t
r
t
+
1
|
s
0
=
s
]
{\textstyle V^{\pi }(s)=\mathbb {E} _{\pi }[\sum _{t=0}^{\infty }\gamma ^{t}r_{t+1}\ |s_{0}=s]}
は現在 げんざい の状態 じょうたい
s
{\displaystyle s}
のみに依存 いぞん し、これを 状態 じょうたい 価値 かち 関数 かんすう (state-value function) と呼 よ ぶ(
E
π ぱい
[
⋅
]
{\displaystyle \mathbb {E} _{\pi }[\cdot ]}
は方策 ほうさく
π ぱい
{\displaystyle \pi }
の下 した での条件 じょうけん 付 つ き期待 きたい 値 ち )。
この状態 じょうたい 価値 かち 関数 かんすう
V
π ぱい
(
s
)
{\displaystyle V^{\pi }(s)}
は次 つぎ 式 しき を満 み たす。
V
π ぱい
(
s
)
=
∑
a
∈
A
π ぱい
(
s
,
a
)
∑
s
′
∈
S
T
(
s
,
a
,
s
′
)
(
R
(
s
,
a
,
s
′
)
+
γ がんま
V
π ぱい
(
s
′
)
)
=
R
π ぱい
(
s
)
+
γ がんま
∑
a
∈
A
∑
s
′
∈
S
π ぱい
(
s
,
a
)
T
(
s
,
a
,
s
′
)
V
π ぱい
(
s
′
)
{\displaystyle {\begin{aligned}V^{\pi }(s)&=\sum _{a\in A}\pi (s,a)\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{\pi }(s'){\Big )}\\&=R^{\pi }(s)+\gamma \sum _{a\in A}\sum _{s'\in S}\pi (s,a)T(s,a,s')V^{\pi }(s')\end{aligned}}}
ただし
R
π ぱい
(
s
)
=
∑
a
∈
A
∑
s
′
∈
S
π ぱい
(
s
,
a
)
T
(
s
,
a
,
s
′
)
R
(
s
,
a
,
s
′
)
{\textstyle R^{\pi }(s)=\sum _{a\in A}\sum _{s'\in S}\pi (s,a)T(s,a,s')R(s,a,s')}
は状態 じょうたい
s
{\displaystyle s}
において方策 ほうさく
π ぱい
{\displaystyle \pi }
を採用 さいよう した場合 ばあい における即時 そくじ 報酬 ほうしゅう の期待 きたい 値 ち である。
任意 にんい の
π ぱい
′
{\displaystyle \pi '}
および
s
∈
S
{\displaystyle s\in S}
に対 たい し
V
π ぱい
∗
(
s
)
≥
V
π ぱい
′
(
s
)
{\displaystyle V^{\pi ^{*}}(s)\geq V^{\pi '}(s)}
を満 み たす方策 ほうさく
π ぱい
∗
{\displaystyle \pi ^{*}}
を最適 さいてき 方策 ほうさく (optimal policy) と呼 よ ぶ。
π ぱい
∗
{\displaystyle \pi ^{*}}
を採用 さいよう したときの状態 じょうたい 価値 かち 関数 かんすう の最大 さいだい 値 ち
V
∗
(
s
)
=
max
π ぱい
V
π ぱい
(
s
)
{\displaystyle V^{*}(s)=\max _{\pi }V^{\pi }(s)}
は次 つぎ のベルマン方程式 ほうていしき を満 み たす.
V
∗
(
s
)
=
max
a
∈
A
∑
s
′
∈
S
T
(
s
,
a
,
s
′
)
(
R
(
s
,
a
,
s
′
)
+
γ がんま
V
∗
(
s
′
)
)
{\displaystyle V^{*}(s)=\max _{a\in A}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{*}(s'){\Big )}}
価値 かち 反復 はんぷく 法 ほう (value iteration)は後 うし ろ向 む き帰納 きのう 法 ほう (backward induction) とも呼 よ ばれ、ベルマン方程式 ほうていしき を満 み たす価値 かち 関数 かんすう を繰 く り返 かえ し計算 けいさん により求 もと める。 ロイド・シャープレー が1953年 ねん に発表 はっぴょう した確 かく 率 りつ ゲーム(英語 えいご 版 ばん ) に関 かん する論文 ろんぶん には価値 かち 反復 はんぷく 法 ほう の特殊 とくしゅ な場合 ばあい が含 ふく まれるが、このことが認知 にんち されたのは後 のち になってからである.
ステップ
i
{\displaystyle i}
における価値 かち 関数 かんすう の計算 けいさん 結果 けっか を
V
i
(
s
)
{\displaystyle V_{i}(s)}
と表記 ひょうき すると、価値 かち 反復 はんぷく 法 ほう における更新 こうしん 式 しき はつぎのように記述 きじゅつ される:
V
i
+
1
(
s
)
←
max
a
∈
A
s
∑
s
′
∈
S
T
(
s
,
a
,
s
′
)
(
R
(
s
,
a
,
s
′
)
+
γ がんま
V
i
(
s
′
)
)
∀
s
∈
S
{\displaystyle V_{i+1}(s)\leftarrow \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V_{i}(s'){\Big )}\quad \forall s\in S}
上 うえ 式 しき をすべての状態 じょうたい において値 ね が収束 しゅうそく するまで繰 く り返 かえ したときの値 ね を
V
∞
(
s
)
{\displaystyle V^{\infty }(s)}
とし、最適 さいてき 方策 ほうさく
π ぱい
∗
{\displaystyle \pi ^{*}}
を次 つぎ 式 しき で求 もと める。
π ぱい
∗
(
s
)
←
arg
max
a
∈
A
s
∑
s
′
∈
S
T
(
s
,
a
,
s
′
)
(
R
(
s
,
a
,
s
′
)
+
γ がんま
V
∞
(
s
′
)
)
∀
s
∈
S
{\displaystyle \pi ^{*}(s)\leftarrow \arg \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{\infty }(s'){\Big )}\quad \forall s\in S}
方策 ほうさく 反復 はんぷく 法 ほう (policy iteration)では、方策 ほうさく 固定 こてい の下 した で行 おこな われる価値 かち 関数 かんすう の更新 こうしん (policy evaluation) と、価値 かち 関数 かんすう 固定 こてい のもとで行 おこな われる方策 ほうさく の更新 こうしん (policy improvement) を交互 こうご に行 おこな うことで最適 さいてき 方策 ほうさく を求 もと める。
次 つぎ の線形 せんけい 方程式 ほうていしき を解 と き、価値 かち 関数 かんすう を更新 こうしん する
V
π ぱい
(
s
)
=
R
π ぱい
(
s
)
+
γ がんま
∑
a
∈
A
∑
s
′
∈
S
π ぱい
(
s
,
a
)
T
(
s
,
a
,
s
′
)
V
π ぱい
(
s
′
)
{\displaystyle V^{\pi }(s)=R^{\pi }(s)+\gamma \sum _{a\in A}\sum _{s'\in S}\pi (s,a)T(s,a,s')V^{\pi }(s')}
方策 ほうさく を次 つぎ 式 しき で更新 こうしん する
π ぱい
(
s
)
←
arg
max
a
∈
A
s
∑
s
′
∈
S
T
(
s
,
a
,
s
′
)
(
R
(
s
,
a
,
s
′
)
+
γ がんま
V
π ぱい
(
s
′
)
)
∀
s
∈
S
{\displaystyle \pi (s)\leftarrow \arg \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{\pi }(s'){\Big )}\quad \forall s\in S}
これらの操作 そうさ を
π ぱい
{\displaystyle \pi }
がすべての状態 じょうたい に対 たい し変化 へんか しなくなるまで繰 く り返 かえ すことで、最適 さいてき 方策 ほうさく を得 え る。
方策 ほうさく 反復 はんぷく 法 ほう は離散 りさん 値 ち を取 と る方策 ほうさく の値 ね が変化 へんか しなくなるという明確 めいかく な終了 しゅうりょう 条件 じょうけん を持 も つため有限 ゆうげん 時間 じかん でアルゴリズムが終了 しゅうりょう するという利点 りてん を持 も つ。
部分 ぶぶん 観測 かんそく マルコフ決定 けってい 過程 かてい [ 編集 へんしゅう ]
MDP では方策 ほうさく
π ぱい
(
s
)
{\displaystyle \pi (s)}
を計算 けいさん する際 さい に現在 げんざい の状態 じょうたい
s
{\displaystyle s}
が既知 きち であることを仮定 かてい している。
実際 じっさい には状態 じょうたい 観測 かんそく に不 ふ 確実 かくじつ 性 せい が伴 ともな う場合 ばあい などこの仮定 かてい が成 な りたない場合 ばあい が多 おお く、このような場合 ばあい の一般 いっぱん 化 か として部分 ぶぶん 観測 かんそく マルコフ決定 けってい 過程 かてい (Partially Observable Markov Decision Process; POMDP) が用 もち いられる。
状態 じょうたい 遷移 せんい 確 かく 率 りつ
T
(
s
,
a
,
s
′
)
{\displaystyle T(s,a,s')}
や報酬 ほうしゅう 関数 かんすう
R
(
s
,
a
,
s
′
)
{\displaystyle R(s,a,s')}
が未知 みち の場合 ばあい ,環境 かんきょう との相互 そうご 作用 さよう を通 つう じてこれらの情報 じょうほう を得 え ながら行動 こうどう を決定 けってい する必要 ひつよう がしばしば生 しょう じる.このような問題 もんだい は強化 きょうか 学習 がくしゅう の枠組 わくぐ みで議論 ぎろん される.
強化 きょうか 学習 がくしゅう における代表 だいひょう 的 てき な学習 がくしゅう アルゴリズムはQ学習 がくしゅう と呼 よ ばれるものである。
Q学習 がくしゅう では、行動 こうどう 価値 かち 関数 かんすう (action-value function) と呼 よ ばれる関数 かんすう
Q
π ぱい
(
s
,
a
)
{\displaystyle Q^{\pi }(s,a)}
に着目 ちゃくもく する。ここで
Q
π ぱい
(
s
,
a
)
{\displaystyle Q^{\pi }(s,a)}
は次 つぎ のように定義 ていぎ される:
Q
π ぱい
(
s
,
a
)
=
E
π ぱい
[
∑
t
=
0
∞
γ がんま
t
r
t
+
1
|
s
0
=
s
,
a
0
=
a
]
{\displaystyle Q^{\pi }(s,a)=\mathbb {E} _{\pi }[\sum _{t=0}^{\infty }\gamma ^{t}r_{t+1}|s_{0}=s,a_{0}=a]}
いま,最適 さいてき 方策 ほうさく のもとでの行動 こうどう 価値 かち 関数 かんすう
Q
∗
(
s
,
a
)
=
max
π ぱい
Q
π ぱい
(
s
,
a
)
{\displaystyle Q^{*}(s,a)=\max _{\pi }Q^{\pi }(s,a)}
は
V
∗
(
s
)
=
max
a
Q
∗
(
s
,
a
)
{\displaystyle V^{*}(s)=\max _{a}Q^{*}(s,a)}
を満 み たす。
すなわち、
Q
∗
{\displaystyle Q^{*}}
を学習 がくしゅう することができれば(モデルのパラメータを直接 ちょくせつ 求 もと めることなく)最適 さいてき 方策 ほうさく を獲得 かくとく することができる。
Q学習 がくしゅう では、各 かく 試行 しこう における遷移 せんい 前後 ぜんこう の状態 じょうたい と入力 にゅうりょく 、および試行 しこう で得 え られる即時 そくじ 報酬 ほうしゅう の実現 じつげん 値 ち をもとに
Q
(
s
,
a
)
{\displaystyle Q(s,a)}
の値 ね を逐次 ちくじ 更新 こうしん する。
実際 じっさい の学習 がくしゅう プロセスでは、すべての状態 じょうたい を十分 じゅうぶん サンプリングするため確 かく 率 りつ 的 てき なゆらぎを含 ふく むよう学習 がくしゅう 時 じ の行動 こうどう が選択 せんたく される。
強化 きょうか 学習 がくしゅう では最適 さいてき 化 か に必要 ひつよう なパラメータの学習 がくしゅう を状態 じょうたい 遷移 せんい 確 かく 率 りつ ・報酬 ほうしゅう 関数 かんすう を介 かい することなくおこなうことが出来 でき る(価値 かち 反復 はんぷく 法 ほう や方策 ほうさく 反復 はんぷく 法 ほう ではそれらの明示 めいじ 的 てき な仕様 しよう (各 かく 状態 じょうたい 間 あいだ の遷移 せんい 可能 かのう 性 せい ,報酬 ほうしゅう 関数 かんすう の関数 かんすう 形 がた など)を与 あた える必要 ひつよう がある)。
状態 じょうたい 数 すう (および行動 こうどう の選択肢 せんたくし )が膨大 ぼうだい な場合 ばあい 、強化 きょうか 学習 がくしゅう はしばしばニューラルネットワークなどの関数 かんすう 近似 きんじ と組 く み合 あ わせられる。
機械 きかい 学習 がくしゅう 理論 りろん における MDP のもう一 ひと つの応用 おうよう は学習 がくしゅう オートマトン (Learning Automata) と呼 よ ばれる。
これは環境 かんきょう が確 かく 率 りつ 的 てき な挙動 きょどう を示 しめ す場合 ばあい における強化 きょうか 学習 がくしゅう の一 ひと つでもある。
学習 がくしゅう オートマトンに関 かん する最初 さいしょ の詳細 しょうさい な論文 ろんぶん は 1974 年 ねん に Narendra と Thathachar によりまとめられた(そこでは有限 ゆうげん 状態 じょうたい オートマトンと明示 めいじ 的 てき に記載 きさい されている)。
強化 きょうか 学習 がくしゅう と同様 どうよう ,学習 がくしゅう オートマトンのアルゴリズムも確 かく 率 りつ や報酬 ほうしゅう が未知 みち の場合 ばあい の問題 もんだい を解 と くことができる。
Q学習 がくしゅう の違 ちが いは,価値 かち 関数 かんすう ではく学習 がくしゅう の結果 けっか を探 さが すために行動 こうどう の確 かく 率 りつ を直接 ちょくせつ 求 もと めることである。
学習 がくしゅう オートマトンは収束 しゅうそく 性 せい が解析 かいせき 学 がく の要領 ようりょう で厳密 げんみつ に証明 しょうめい されている.
制約 せいやく 付 つ きマルコフ決定 けってい 過程 かてい (Constrained Markov Decision Process; CMDP) はマルコフ決定 けってい 過程 かてい の拡張 かくちょう である。
MDP と CMDP には3つの基本 きほん 的 てき な違 ちが いがある:
ある行動 こうどう をほかのものの代 か わりに適用 てきよう した後 のち で(複数 ふくすう の)コストが発生 はっせい する
CMDP は線形 せんけい 計画 けいかく 法 ほう のみで解 と くことが出来 でき る(動的 どうてき 計画 けいかく 法 ほう を用 もち いることはできない)
終端 しゅうたん 時刻 じこく における方策 ほうさく が初期 しょき 状態 じょうたい に依存 いぞん する
CMDP の応 おう 用例 ようれい は数多 かずおお く存在 そんざい し、最近 さいきん ではロボット工学 こうがく におけるモーションプランニングに用 もち いられている。
Bellman, R. (1957). “A Markovian Decision Process” . Journal of Mathematics and Mechanics 6 . http://www.iumj.indiana.edu/IUMJ/FULLTEXT/1957/6/56038 .
Howard, Ronald. A. (1960). Dynamic Programming and Markov Processes . The M.I.T. Press
Shapley, Lloyd. (1953). “Stochastic Games”. Proceedings of National Academy of Science 39 : 1095–1100.
Kallenberg, Lodewijk. (2002). “Finite state and action MDPs”. Handbook of Markov decision processes: methods and applications . Springer. ISBN 0-7923-7459-2
Sutton, R. S.; Barto, A. G. (1998). Reinforcement Learning: An Introduction . Cambridge, MA: The MIT Press. http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html
Narendra, K. S.; Thathachar, M. A. L. (1974). “Learning Automata - A Survey” . IEEE Transactions on Systems, Man, and Cybernetics SMC-4 (4): 323–334. doi :10.1109/TSMC.1974.5408453 . ISSN 0018-9472 . http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=5408453 .
Narendra, Kumpati S.; Thathachar, Mandayam A. L. (1989). Learning automata: An introduction . Prentice Hall. ISBN 9780134855585 . https://books.google.com/books?id=hHVQAAAAMAAJ
Altman, Eitan (1999). Constrained Markov decision processes . 7 . CRC Press
Feyzabadi, S.; Carpin, S. (2014). "Risk-aware path planning using hierarchical constrained Markov Decision Processes" . Automation Science and Engineering (CASE) . IEEE International Conference. pp. 297, 303. doi :10.1109/CoASE.2014.6899341 。
木村 きむら , 元 もと (2013). “《第 だい 1回 かい 》強化 きょうか 学習 がくしゅう の基礎 きそ ” . 計測 けいそく と制御 せいぎょ (計測 けいそく 自動 じどう 制御 せいぎょ 学会 がっかい ) 52 (1): 72-77. NAID 10031140795 . https://doi.org/10.11499/sicejl.52.72 .