マルコフ決定けってい過程かてい

マルコフ決定けってい過程かてい（マルコフけっていかてい、英えい: Markov decision process; MDP）は、状態じょうたい遷移せんいが確かく率りつ的てきに生しょうじる動的どうてきシステム（確かく率りつシステム）の確かく率りつモデルであり、状態じょうたい遷移せんいがマルコフ性せいを満みたすものをいう。 MDP は不ふ確実かくじつ性せいを伴ともなう意思いし決定けっていのモデリングにおける数学すうがく的てき枠組わくぐみとして、強化きょうか学習がくしゅうなど動的どうてき計画けいかく法ほうが適用てきようされる幅広はばひろい最適さいてき化か問題もんだいの研究けんきゅうに活用かつようされている。 MDP は少すくなくとも1950年代ねんだいには知しられていた^[1]が、研究けんきゅうの中核ちゅうかくは1960年ねんに出版しゅっぱんされた Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因きいんする^[2]。 MDP はロボット工学こうがくや自動じどう制御せいぎょ、経済けいざい学がく、製造せいぞう業ぎょうを含ふくむ幅広はばひろい分野ぶんやで用もちいられている。

概要がいよう

マルコフ決定けってい過程かていは離散りさん時間じかんにおける確かく率りつ制御せいぎょ過程かてい (stochastic control process) である。各かく時刻じこくにおいて過程かてい (process) はある状態じょうたい (state) を取とり、意思いし決定けってい者しゃ (decision maker) はその状態じょうたいにおいて利用りよう可能かのうな行動こうどう (action) を任意にんいに選択せんたくする。その後ご過程かていはランダムに新あたらしい状態じょうたいへと遷移せんいし、その際さいに意思いし決定けってい者しゃは状態じょうたい遷移せんいに対応たいおうした報酬ほうしゅう (reward) を受うけとる。

遷移せんい後ごの状態じょうたい $s'$ 、および得えられる報酬ほうしゅうの値ね $r$ は現在げんざいの状態じょうたい $s$ と行動こうどう $a$ のみに依存いぞんし、 $s$ と $a$ が与あたえられたもとでそれより過去かこの状態じょうたいおよび行動こうどうと条件じょうけん付つき独立どくりつとなる。い換いかえると、マルコフ決定けってい過程かていの状態じょうたい遷移せんいはマルコフ性せいを満みたす。

マルコフ決定けってい過程かていはマルコフ連鎖れんさに（選択せんたく可能かのうな）行動こうどう、および（行動こうどうを計画けいかくする動機どうきを与あたえる）報酬ほうしゅうを追加ついかし拡張かくちょうしたものであると解釈かいしゃくできる。逆ぎゃくに言いえば、各かくステップにとる行動こうどうがそのステップにおける状態じょうたいのみ依存いぞんするとき、マルコフ決定けってい過程かていは等価とうかなマルコフ連鎖れんさに置おき換かえることが出来できる。

定義ていぎ

有限ゆうげんマルコフ決定けってい過程かてい (finite Markov decision process; finite MDP) は4つの要素ようその組くみ ${\textstyle {\big \langle }S,A,T,R{\big \rangle }}$ で表あらわされる。ここで各かく要素ようそはそれぞれ次じを意味いみする。

$S=\{s^{1},s^{2},\ldots ,s^{N}\}$ : 状態じょうたいの有限ゆうげん集合しゅうごう
$A=\{a^{1},a^{2},\ldots ,a^{K}\}$ : 行動こうどうの有限ゆうげん集合しゅうごう
$T:S\times A\times S\to [0,1]$ : 遷移せんい関数かんすう (transition function)
$R:S\times A\times S\to \mathbb {R}$ : 報酬ほうしゅう関数かんすう (reward function)

遷移せんい関数かんすう $T(s,a,s')$ は状態じょうたい $s$ にあり行動こうどう $a$ を取とったときの状態じょうたい $s'$ への状態じょうたい遷移せんい確かく率りつ $T(s,a,s')=\Pr(s_{t+1}=s'|s_{t}=s,a_{t}=a)$ である。また報酬ほうしゅう関数かんすう $R(s,a,s')$ は状態じょうたい $s$ から $s'$ に行動こうどう $a$ を伴ともない遷移せんいする際さいに得えられる即時そくじ報酬ほうしゅう (immediate reward) 、またはその期待きたい値ち $\mathbb {E} [r_{t+1}|s,a,s']$ を表あらわす。

問題もんだい設定せってい

MDP における基本きほん的てきな問題もんだい設定せっていは、現在げんざいの状態じょうたいが $s$ が与あたえられたときに意思いし決定けってい者しゃの取とる行動こうどう $a\in A$ を既定きていする方策ほうさく (policy) を求もとめることである。方策ほうさくは通常つうじょう $s,a$ の条件じょうけん付つき分布ぶんぷ $P(a|s)$ として規定きていされ、状態じょうたい $s$ に行動こうどう $a$ を取とる確かく率りつを $\pi (s,a)$ と表記ひょうきする。

方策ほうさくを求もとめる際さいに用もちいられるゴール（目的もくてき関数かんすう）は、典型てんけい的てきには現在げんざい時刻じこくから無限むげん区間くかん先さきの未来みらいまでにおける「割引わりびきされた」報酬ほうしゅうの累積るいせき値ちが用もちいられる:

$\sum _{t=0}^{\infty }\gamma ^{t}r_{t+1}\quad {\text{where}}\ a_{t}=\pi (s_{t})$

ここで $\gamma \in [0,1]$ は割引わりびき率りつ (discount rate) と呼よばれる値ねであり、現在げんざいの報酬ほうしゅうと未来みらいの報酬ほうしゅうとの間あいだにおける重要じゅうよう度ど (importance) の差異さいを表あらわしている。状態じょうたいが確かく率りつ的てきに遷移せんいすることから上うえの値ねは確かく率りつ変数へんすうとなるため、通常つうじょうはその期待きたい値ちが用もちいられる。

アルゴリズム

MDP は線形せんけい計画けいかく法ほうまたは動的どうてき計画けいかく法ほうで解とくことができる。ここでは後者こうしゃによるアプローチを示しめす．

いま，ある（定常ていじょうな）方策ほうさく $\pi$ を採用さいようした場合ばあいにおける割引わりびき報酬ほうしゅう和わ ${\textstyle V^{\pi }(s)=\mathbb {E} _{\pi }[\sum _{t=0}^{\infty }\gamma ^{t}r_{t+1}\ |s_{0}=s]}$ は現在げんざいの状態じょうたい $s$ のみに依存いぞんし、これを 状態じょうたい価値かち関数かんすう (state-value function) と呼よぶ（ $\mathbb {E} _{\pi }[\cdot ]$ は方策ほうさく $\pi$ の下したでの条件じょうけん付つき期待きたい値ち）。この状態じょうたい価値かち関数かんすう $V^{\pi }(s)$ は次つぎ式しきを満みたす。 ${\begin{aligned}V^{\pi }(s)&=\sum _{a\in A}\pi (s,a)\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{\pi }(s'){\Big )}\\&=R^{\pi }(s)+\gamma \sum _{a\in A}\sum _{s'\in S}\pi (s,a)T(s,a,s')V^{\pi }(s')\end{aligned}}$ ただし ${\textstyle R^{\pi }(s)=\sum _{a\in A}\sum _{s'\in S}\pi (s,a)T(s,a,s')R(s,a,s')}$ は状態じょうたい $s$ において方策ほうさく $\pi$ を採用さいようした場合ばあいにおける即時そくじ報酬ほうしゅうの期待きたい値ちである。

任意にんいの $\pi '$ および $s\in S$ に対たいし $V^{\pi ^{*}}(s)\geq V^{\pi '}(s)$ を満みたす方策ほうさく $\pi ^{*}$ を最適さいてき方策ほうさく (optimal policy) と呼よぶ。 $\pi ^{*}$ を採用さいようしたときの状態じょうたい価値かち関数かんすうの最大さいだい値ち $V^{*}(s)=\max _{\pi }V^{\pi }(s)$ は次つぎのベルマン方程式ほうていしきを満みたす^[3]．

$V^{*}(s)=\max _{a\in A}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{*}(s'){\Big )}$

価値かち反復はんぷく法ほう

価値かち反復はんぷく法ほう (value iteration)^[1]は後うしろ向むき帰納きのう法ほう (backward induction) とも呼よばれ、ベルマン方程式ほうていしきを満みたす価値かち関数かんすうを繰くり返かえし計算けいさんにより求もとめる。ロイド・シャープレーが1953年ねんに発表はっぴょうした確かく率りつゲーム（英語えいご版ばん）に関かんする論文ろんぶん^[4]には価値かち反復はんぷく法ほうの特殊とくしゅな場合ばあいが含ふくまれるが、このことが認知にんちされたのは後のちになってからである^[5]．

ステップ $i$ における価値かち関数かんすうの計算けいさん結果けっかを $V_{i}(s)$ と表記ひょうきすると、価値かち反復はんぷく法ほうにおける更新こうしん式しきはつぎのように記述きじゅつされる: $V_{i+1}(s)\leftarrow \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V_{i}(s'){\Big )}\quad \forall s\in S$

上うえ式しきをすべての状態じょうたいにおいて値ねが収束しゅうそくするまで繰くり返かえしたときの値ねを $V^{\infty }(s)$ とし、最適さいてき方策ほうさく $\pi ^{*}$ を次つぎ式しきで求もとめる。

$\pi ^{*}(s)\leftarrow \arg \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{\infty }(s'){\Big )}\quad \forall s\in S$

方策ほうさく反復はんぷく法ほう

方策ほうさく反復はんぷく法ほう (policy iteration)^[2]では、方策ほうさく固定こていの下したで行おこなわれる価値かち関数かんすうの更新こうしん (policy evaluation) と、価値かち関数かんすう固定こていのもとで行おこなわれる方策ほうさくの更新こうしん (policy improvement) を交互こうごに行おこなうことで最適さいてき方策ほうさくを求もとめる。

次つぎの線形せんけい方程式ほうていしきを解とき、価値かち関数かんすうを更新こうしんする
$V^{\pi }(s)=R^{\pi }(s)+\gamma \sum _{a\in A}\sum _{s'\in S}\pi (s,a)T(s,a,s')V^{\pi }(s')$
方策ほうさくを次つぎ式しきで更新こうしんする
$\pi (s)\leftarrow \arg \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{\pi }(s'){\Big )}\quad \forall s\in S$

これらの操作そうさを $\pi$ がすべての状態じょうたいに対たいし変化へんかしなくなるまで繰くり返かえすことで、最適さいてき方策ほうさくを得える。方策ほうさく反復はんぷく法ほうは離散りさん値ちを取とる方策ほうさくの値ねが変化へんかしなくなるという明確めいかくな終了しゅうりょう条件じょうけんを持もつため有限ゆうげん時間じかんでアルゴリズムが終了しゅうりょうするという利点りてんを持もつ。

拡張かくちょうと一般いっぱん化か

部分ぶぶん観測かんそくマルコフ決定けってい過程かてい

「部分ぶぶん観測かんそくマルコフ決定けってい過程かてい」も参照さんしょう

MDP では方策ほうさく $\pi (s)$ を計算けいさんする際さいに現在げんざいの状態じょうたい $s$ が既知きちであることを仮定かていしている。実際じっさいには状態じょうたい観測かんそくに不ふ確実かくじつ性せいが伴ともなう場合ばあいなどこの仮定かていが成なりたない場合ばあいが多おおく、このような場合ばあいの一般いっぱん化かとして部分ぶぶん観測かんそくマルコフ決定けってい過程かてい (Partially Observable Markov Decision Process; POMDP) が用もちいられる。

強化きょうか学習がくしゅう

「強化きょうか学習がくしゅう」および「Q学習がくしゅう」も参照さんしょう

状態じょうたい遷移せんい確かく率りつ $T(s,a,s')$ や報酬ほうしゅう関数かんすう $R(s,a,s')$ が未知みちの場合ばあい，環境かんきょうとの相互そうご作用さようを通つうじてこれらの情報じょうほうを得えながら行動こうどうを決定けっていする必要ひつようがしばしば生しょうじる．このような問題もんだいは強化きょうか学習がくしゅうの枠組わくぐみで議論ぎろんされる^[6]．

強化きょうか学習がくしゅうにおける代表だいひょう的てきな学習がくしゅうアルゴリズムはQ学習がくしゅうと呼よばれるものである。 Q学習がくしゅうでは、行動こうどう価値かち関数かんすう (action-value function) と呼よばれる関数かんすう $Q^{\pi }(s,a)$ に着目ちゃくもくする。ここで $Q^{\pi }(s,a)$ は次つぎのように定義ていぎされる: $Q^{\pi }(s,a)=\mathbb {E} _{\pi }[\sum _{t=0}^{\infty }\gamma ^{t}r_{t+1}|s_{0}=s,a_{0}=a]$

いま，最適さいてき方策ほうさくのもとでの行動こうどう価値かち関数かんすう $Q^{*}(s,a)=\max _{\pi }Q^{\pi }(s,a)$ は $V^{*}(s)=\max _{a}Q^{*}(s,a)$ を満みたす。すなわち、 $Q^{*}$ を学習がくしゅうすることができれば（モデルのパラメータを直接ちょくせつ求もとめることなく）最適さいてき方策ほうさくを獲得かくとくすることができる。 Q学習がくしゅうでは、各かく試行しこうにおける遷移せんい前後ぜんこうの状態じょうたいと入力にゅうりょく、および試行しこうで得えられる即時そくじ報酬ほうしゅうの実現じつげん値ちをもとに $Q(s,a)$ の値ねを逐次ちくじ更新こうしんする。実際じっさいの学習がくしゅうプロセスでは、すべての状態じょうたいを十分じゅうぶんサンプリングするため確かく率りつ的てきなゆらぎを含ふくむよう学習がくしゅう時じの行動こうどうが選択せんたくされる。

強化きょうか学習がくしゅうでは最適さいてき化かに必要ひつようなパラメータの学習がくしゅうを状態じょうたい遷移せんい確かく率りつ・報酬ほうしゅう関数かんすうを介かいすることなくおこなうことが出来できる（価値かち反復はんぷく法ほうや方策ほうさく反復はんぷく法ほうではそれらの明示めいじ的てきな仕様しよう（各かく状態じょうたい間あいだの遷移せんい可能かのう性せい，報酬ほうしゅう関数かんすうの関数かんすう形がたなど）を与あたえる必要ひつようがある）。状態じょうたい数すう（および行動こうどうの選択肢せんたくし）が膨大ぼうだいな場合ばあい、強化きょうか学習がくしゅうはしばしばニューラルネットワークなどの関数かんすう近似きんじと組くみ合あわせられる。

学習がくしゅうオートマトン

機械きかい学習がくしゅう理論りろんにおける MDP のもう一ひとつの応用おうようは学習がくしゅうオートマトン (Learning Automata) と呼よばれる。これは環境かんきょうが確かく率りつ的てきな挙動きょどうを示しめす場合ばあいにおける強化きょうか学習がくしゅうの一ひとつでもある。学習がくしゅうオートマトンに関かんする最初さいしょの詳細しょうさいな論文ろんぶんは 1974 年ねんに Narendra と Thathachar によりまとめられた^[7]（そこでは有限ゆうげん状態じょうたいオートマトンと明示めいじ的てきに記載きさいされている）。強化きょうか学習がくしゅうと同様どうよう，学習がくしゅうオートマトンのアルゴリズムも確かく率りつや報酬ほうしゅうが未知みちの場合ばあいの問題もんだいを解とくことができる。 Q学習がくしゅうの違ちがいは，価値かち関数かんすうではく学習がくしゅうの結果けっかを探さがすために行動こうどうの確かく率りつを直接ちょくせつ求もとめることである。学習がくしゅうオートマトンは収束しゅうそく性せいが解析かいせき学がくの要領ようりょうで厳密げんみつに証明しょうめいされている^[8]．

制約せいやく付つきマルコフ決定けってい過程かてい

制約せいやく付つきマルコフ決定けってい過程かてい (Constrained Markov Decision Process; CMDP) はマルコフ決定けってい過程かていの拡張かくちょうである。 MDP と CMDP には3つの基本きほん的てきな違ちがいがある^[9]:

ある行動こうどうをほかのものの代かわりに適用てきようした後のちで（複数ふくすうの）コストが発生はっせいする
CMDP は線形せんけい計画けいかく法ほうのみで解とくことが出来できる（動的どうてき計画けいかく法ほうを用もちいることはできない）
終端しゅうたん時刻じこくにおける方策ほうさくが初期しょき状態じょうたいに依存いぞんする

CMDP の応おう用例ようれいは数多かずおおく存在そんざいし、最近さいきんではロボット工学こうがくにおけるモーションプランニングに用もちいられている^[10]。

参考さんこう文献ぶんけん

Bellman, R. (1957). “A Markovian Decision Process”. Journal of Mathematics and Mechanics 6.
Howard, Ronald. A. (1960). Dynamic Programming and Markov Processes. The M.I.T. Press
Shapley, Lloyd. (1953). “Stochastic Games”. Proceedings of National Academy of Science 39: 1095–1100.
Kallenberg, Lodewijk. (2002). “Finite state and action MDPs”. Handbook of Markov decision processes: methods and applications. Springer. ISBN 0-7923-7459-2
Sutton, R. S.; Barto, A. G. (1998). Reinforcement Learning: An Introduction. Cambridge, MA: The MIT Press
Narendra, K. S.; Thathachar, M. A. L. (1974). “Learning Automata - A Survey”. IEEE Transactions on Systems, Man, and Cybernetics SMC-4 (4): 323–334. doi:10.1109/TSMC.1974.5408453. ISSN 0018-9472.
Narendra, Kumpati S.; Thathachar, Mandayam A. L. (1989). Learning automata: An introduction. Prentice Hall. ISBN 9780134855585
Altman, Eitan (1999). Constrained Markov decision processes. 7. CRC Press
Feyzabadi, S.; Carpin, S. (2014). "Risk-aware path planning using hierarchical constrained Markov Decision Processes". Automation Science and Engineering (CASE). IEEE International Conference. pp. 297, 303. doi:10.1109/CoASE.2014.6899341。
木村きむら, 元もと (2013). “《第だい1回かい》強化きょうか学習がくしゅうの基礎きそ”. 計測けいそくと制御せいぎょ (計測けいそく自動じどう制御せいぎょ学会がっかい) 52 (1): 72-77. NAID 10031140795. https://doi.org/10.11499/sicejl.52.72.

外部がいぶリンク

Reinforcement Learning An Introduction by Richard S. Sutton and Andrew G. Barto
Learning to Solve Markovian Decision Processes by Satinder P. Singh
Optimal Adaptive Policies for Markov Decision Processes by Burnetas and Katehakis (1997)
ソフトウェアパッケージ
- MDP Toolbox for MATLAB, GNU Octave, Scilab and R The Markov Decision Processes (MDP) Toolbox.
- MDP Toolbox for Matlab - An excellent tutorial and Matlab toolbox for working with MDPs.
- MDP Toolbox for Python A package for solving MDPs
- SPUDD A structured MDP solver for download by Jesse Hoey