(Translated by https://www.hiragana.jp/)
マルコフ決定過程 - Wikipedia コンテンツにスキップ

マルコフ決定けってい過程かてい

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』

マルコフ決定けってい過程かてい(マルコフけっていかてい、えい: Markov decision process; MDP)は、状態じょうたい遷移せんいかくりつてきしょうじる動的どうてきシステム(かくりつシステム)のかくりつモデルであり、状態じょうたい遷移せんいマルコフせいたすものをいう。 MDP は確実かくじつせいともな意思いし決定けっていのモデリングにおける数学すうがくてき枠組わくぐみとして、強化きょうか学習がくしゅうなど動的どうてき計画けいかくほう適用てきようされる幅広はばひろ最適さいてき問題もんだい研究けんきゅう活用かつようされている。 MDP はすくなくとも1950年代ねんだいにはられていた[1]が、研究けんきゅう中核ちゅうかくは1960ねん出版しゅっぱんされた Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因きいんする[2]。 MDP はロボット工学こうがく自動じどう制御せいぎょ経済けいざいがく製造せいぞうぎょうふく幅広はばひろ分野ぶんやもちいられている。

概要がいよう

[編集へんしゅう]
3つの状態じょうたいと2つの行動こうどうをもつ簡単かんたんな MDP のれい

マルコフ決定けってい過程かてい離散りさん時間じかんにおけるかくりつ制御せいぎょ過程かてい (stochastic control process) である。 かく時刻じこくにおいて過程かてい (process) はある状態じょうたい (state) をり、意思いし決定けっていしゃ (decision maker) はその状態じょうたいにおいて利用りよう可能かのう行動こうどう (action) を任意にんい選択せんたくする。 その過程かていはランダムにあたらしい状態じょうたいへと遷移せんいし、そのさい意思いし決定けっていしゃ状態じょうたい遷移せんい対応たいおうした報酬ほうしゅう (reward) をけとる。

遷移せんい状態じょうたい 、およびられる報酬ほうしゅう 現在げんざい状態じょうたい 行動こうどう のみに依存いぞんし、あたえられたもとでそれより過去かこ状態じょうたいおよび行動こうどう条件じょうけん独立どくりつとなる。 いいかえると、マルコフ決定けってい過程かてい状態じょうたい遷移せんいマルコフせいたす。

マルコフ決定けってい過程かていマルコフ連鎖れんさに(選択せんたく可能かのうな)行動こうどう、および(行動こうどう計画けいかくする動機どうきあたえる)報酬ほうしゅう追加ついか拡張かくちょうしたものであると解釈かいしゃくできる。 ぎゃくえば、かくステップにとる行動こうどうがそのステップにおける状態じょうたいのみ依存いぞんするとき、マルコフ決定けってい過程かてい等価とうかなマルコフ連鎖れんさえることが出来できる。

定義ていぎ

[編集へんしゅう]

有限ゆうげんマルコフ決定けってい過程かてい (finite Markov decision process; finite MDP) は4つの要素ようそくみ あらわされる。ここでかく要素ようそはそれぞれ意味いみする。

  •  : 状態じょうたい有限ゆうげん集合しゅうごう
  •  : 行動こうどう有限ゆうげん集合しゅうごう
  •  : 遷移せんい関数かんすう (transition function)
  •  : 報酬ほうしゅう関数かんすう (reward function)

遷移せんい関数かんすう 状態じょうたい にあり行動こうどう ったときの状態じょうたい への状態じょうたい遷移せんいかくりつ である。 また報酬ほうしゅう関数かんすう 状態じょうたい から 行動こうどう ともな遷移せんいするさいられる即時そくじ報酬ほうしゅう (immediate reward) 、またはその期待きたい あらわす。

問題もんだい設定せってい

[編集へんしゅう]

MDP における基本きほんてき問題もんだい設定せっていは、現在げんざい状態じょうたいあたえられたときに意思いし決定けっていしゃ行動こうどう 既定きていする方策ほうさく (policy) をもとめることである。 方策ほうさく通常つうじょう 条件じょうけん分布ぶんぷ として規定きていされ、状態じょうたい 行動こうどう かくりつ表記ひょうきする。

方策ほうさくもとめるさいもちいられるゴール(目的もくてき関数かんすう)は、典型てんけいてきには現在げんざい時刻じこくから無限むげん区間くかんさき未来みらいまでにおける「割引わりびきされた」報酬ほうしゅう累積るいせきもちいられる:

ここで  は割引わりびきりつ (discount rate) とばれるであり、現在げんざい報酬ほうしゅう未来みらい報酬ほうしゅうとのあいだにおける重要じゅうよう (importance) の差異さいあらわしている。 状態じょうたいかくりつてき遷移せんいすることからうえかくりつ変数へんすうとなるため、通常つうじょうはその期待きたいもちいられる。

アルゴリズム

[編集へんしゅう]

MDP は線形せんけい計画けいかくほうまたは動的どうてき計画けいかくほうくことができる。ここでは後者こうしゃによるアプローチをしめす.

いま,ある(定常ていじょうな)方策ほうさく 採用さいようした場合ばあいにおける割引わりびき報酬ほうしゅう 現在げんざい状態じょうたい のみに依存いぞんし、これを 状態じょうたい価値かち関数かんすう (state-value function) とぶ(方策ほうさく したでの条件じょうけん期待きたい)。 この状態じょうたい価値かち関数かんすう つぎしきたす。 ただし 状態じょうたい において方策ほうさく 採用さいようした場合ばあいにおける即時そくじ報酬ほうしゅう期待きたいである。

任意にんい および たいたす方策ほうさく 最適さいてき方策ほうさく (optimal policy) とぶ。 採用さいようしたときの状態じょうたい価値かち関数かんすう最大さいだい つぎベルマン方程式ほうていしきたす[3]

価値かち反復はんぷくほう

[編集へんしゅう]

価値かち反復はんぷくほう (value iteration)[1]うし帰納きのうほう (backward induction) ともばれ、ベルマン方程式ほうていしきたす価値かち関数かんすうかえ計算けいさんによりもとめる。 ロイド・シャープレー が1953ねん発表はっぴょうしたかくりつゲーム英語えいごばんかんする論文ろんぶん[4]には価値かち反復はんぷくほう特殊とくしゅ場合ばあいふくまれるが、このことが認知にんちされたのはのちになってからである[5]

ステップ における価値かち関数かんすう計算けいさん結果けっか表記ひょうきすると、価値かち反復はんぷくほうにおける更新こうしんしきはつぎのように記述きじゅつされる:

うえしきをすべての状態じょうたいにおいて収束しゅうそくするまでかえしたときの とし、最適さいてき方策ほうさく つぎしきもとめる。


方策ほうさく反復はんぷくほう

[編集へんしゅう]

方策ほうさく反復はんぷくほう (policy iteration)[2]では、方策ほうさく固定こていしたおこなわれる価値かち関数かんすう更新こうしん (policy evaluation) と、価値かち関数かんすう固定こていのもとでおこなわれる方策ほうさく更新こうしん (policy improvement) を交互こうごおこなうことで最適さいてき方策ほうさくもとめる。

  1. つぎ線形せんけい方程式ほうていしきき、価値かち関数かんすう更新こうしんする
  2. 方策ほうさくつぎしき更新こうしんする

これらの操作そうさ がすべての状態じょうたいたい変化へんかしなくなるまでかえすことで、最適さいてき方策ほうさくる。 方策ほうさく反復はんぷくほう離散りさん方策ほうさく変化へんかしなくなるという明確めいかく終了しゅうりょう条件じょうけんつため有限ゆうげん時間じかんでアルゴリズムが終了しゅうりょうするという利点りてんつ。

拡張かくちょう一般いっぱん

[編集へんしゅう]

部分ぶぶん観測かんそくマルコフ決定けってい過程かてい

[編集へんしゅう]

MDP では方策ほうさく 計算けいさんするさい現在げんざい状態じょうたい 既知きちであることを仮定かていしている。 実際じっさいには状態じょうたい観測かんそく確実かくじつせいともな場合ばあいなどこの仮定かていりたない場合ばあいおおく、このような場合ばあい一般いっぱんとして部分ぶぶん観測かんそくマルコフ決定けってい過程かてい (Partially Observable Markov Decision Process; POMDP) がもちいられる。

強化きょうか学習がくしゅう

[編集へんしゅう]

状態じょうたい遷移せんいかくりつ 報酬ほうしゅう関数かんすう 未知みち場合ばあい環境かんきょうとの相互そうご作用さようつうじてこれらの情報じょうほうながら行動こうどう決定けっていする必要ひつようがしばしばしょうじる.このような問題もんだい強化きょうか学習がくしゅう枠組わくぐみで議論ぎろんされる[6]

強化きょうか学習がくしゅうにおける代表だいひょうてき学習がくしゅうアルゴリズムはQ学習がくしゅうばれるものである。 Q学習がくしゅうでは、行動こうどう価値かち関数かんすう (action-value function) とばれる関数かんすう 着目ちゃくもくする。ここで つぎのように定義ていぎされる:

いま,最適さいてき方策ほうさくのもとでの行動こうどう価値かち関数かんすう たす。 すなわち、学習がくしゅうすることができれば(モデルのパラメータを直接ちょくせつもとめることなく)最適さいてき方策ほうさく獲得かくとくすることができる。 Q学習がくしゅうでは、かく試行しこうにおける遷移せんい前後ぜんこう状態じょうたい入力にゅうりょく、および試行しこうられる即時そくじ報酬ほうしゅう実現じつげんをもとに 逐次ちくじ更新こうしんする。 実際じっさい学習がくしゅうプロセスでは、すべての状態じょうたい十分じゅうぶんサンプリングするためかくりつてきなゆらぎをふくむよう学習がくしゅう行動こうどう選択せんたくされる。

強化きょうか学習がくしゅうでは最適さいてき必要ひつようなパラメータの学習がくしゅう状態じょうたい遷移せんいかくりつ報酬ほうしゅう関数かんすうかいすることなくおこなうことが出来できる(価値かち反復はんぷくほう方策ほうさく反復はんぷくほうではそれらの明示めいじてき仕様しようかく状態じょうたいあいだ遷移せんい可能かのうせい報酬ほうしゅう関数かんすう関数かんすうがたなど)をあたえる必要ひつようがある)。 状態じょうたいすう(および行動こうどう選択肢せんたくし)が膨大ぼうだい場合ばあい強化きょうか学習がくしゅうはしばしばニューラルネットワークなどの関数かんすう近似きんじわせられる。

学習がくしゅうオートマトン

[編集へんしゅう]

機械きかい学習がくしゅう理論りろんにおける MDP のもうひとつの応用おうよう学習がくしゅうオートマトン (Learning Automata) とばれる。 これは環境かんきょうかくりつてき挙動きょどうしめ場合ばあいにおける強化きょうか学習がくしゅうひとつでもある。 学習がくしゅうオートマトンにかんする最初さいしょ詳細しょうさい論文ろんぶんは 1974 ねんに Narendra と Thathachar によりまとめられた[7](そこでは有限ゆうげん状態じょうたいオートマトンと明示めいじてき記載きさいされている)。 強化きょうか学習がくしゅう同様どうよう学習がくしゅうオートマトンのアルゴリズムもかくりつ報酬ほうしゅう未知みち場合ばあい問題もんだいくことができる。 Q学習がくしゅうちがいは,価値かち関数かんすうではく学習がくしゅう結果けっかさがすために行動こうどうかくりつ直接ちょくせつもとめることである。 学習がくしゅうオートマトンは収束しゅうそくせい解析かいせきがく要領ようりょう厳密げんみつ証明しょうめいされている[8]

制約せいやくきマルコフ決定けってい過程かてい

[編集へんしゅう]

制約せいやくきマルコフ決定けってい過程かてい (Constrained Markov Decision Process; CMDP) はマルコフ決定けってい過程かてい拡張かくちょうである。 MDP と CMDP には3つの基本きほんてきちがいがある[9]:

  • ある行動こうどうをほかのもののわりに適用てきようしたのちで(複数ふくすうの)コストが発生はっせいする
  • CMDP は線形せんけい計画けいかくほうのみでくことが出来できる(動的どうてき計画けいかくほうもちいることはできない)
  • 終端しゅうたん時刻じこくにおける方策ほうさく初期しょき状態じょうたい依存いぞんする

CMDP のおう用例ようれい数多かずおお存在そんざいし、最近さいきんではロボット工学こうがくにおけるモーションプランニングにもちいられている[10]

参考さんこう文献ぶんけん

[編集へんしゅう]
  • Bellman, R. (1957). “A Markovian Decision Process”. Journal of Mathematics and Mechanics 6. http://www.iumj.indiana.edu/IUMJ/FULLTEXT/1957/6/56038. 
  • Howard, Ronald. A. (1960). Dynamic Programming and Markov Processes. The M.I.T. Press 
  • Shapley, Lloyd. (1953). “Stochastic Games”. Proceedings of National Academy of Science 39: 1095–1100. 
  • Kallenberg, Lodewijk. (2002). “Finite state and action MDPs”. Handbook of Markov decision processes: methods and applications. Springer. ISBN 0-7923-7459-2 
  • Sutton, R. S.; Barto, A. G. (1998). Reinforcement Learning: An Introduction. Cambridge, MA: The MIT Press. http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html 
  • Narendra, K. S.; Thathachar, M. A. L. (1974). “Learning Automata - A Survey”. IEEE Transactions on Systems, Man, and Cybernetics SMC-4 (4): 323–334. doi:10.1109/TSMC.1974.5408453. ISSN 0018-9472. http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=5408453. 
  • Narendra, Kumpati S.; Thathachar, Mandayam A. L. (1989). Learning automata: An introduction. Prentice Hall. ISBN 9780134855585. https://books.google.com/books?id=hHVQAAAAMAAJ 
  • Altman, Eitan (1999). Constrained Markov decision processes. 7. CRC Press 
  • Feyzabadi, S.; Carpin, S. (2014). "Risk-aware path planning using hierarchical constrained Markov Decision Processes". Automation Science and Engineering (CASE). IEEE International Conference. pp. 297, 303. doi:10.1109/CoASE.2014.6899341
  • 木村きむら, もと (2013). “《だい1かい強化きょうか学習がくしゅう基礎きそ. 計測けいそく制御せいぎょ (計測けいそく自動じどう制御せいぎょ学会がっかい) 52 (1): 72-77. NAID 10031140795. https://doi.org/10.11499/sicejl.52.72. 

外部がいぶリンク

[編集へんしゅう]

関連かんれん項目こうもく

[編集へんしゅう]