(Translated by https://www.hiragana.jp/)
強化学習 - Wikipedia

強化きょうか学習がくしゅう

状態じょうたい観測かんそくしてるべき行動こうどう決定けっていする問題もんだいあつか機械きかい学習がくしゅう一種いっしゅ

強化きょうか学習がくしゅう(きょうかがくしゅう、えい: reinforcement learningRL)は、ある環境かんきょうないにおける知的ちてきエージェントが、現在げんざい状態じょうたい観測かんそくし、られる収益しゅうえき累積るいせき報酬ほうしゅう)を最大さいだいするために、どのような行動こうどうをとるべきかを決定けっていする機械きかい学習がくしゅういち分野ぶんやである。強化きょうか学習がくしゅうは、教師きょうしあり学習がくしゅう教師きょうしなし学習がくしゅうならんで、3つの基本きほんてき機械きかい学習がくしゅうパラダイムひとつである。

強化きょうか学習がくしゅう教師きょうしあり学習がくしゅうことなるてんは、ラベルきの入力にゅうりょく出力しゅつりょくくみ提示ていじする必要ひつようがなく、最適さいてきでない行動こうどう明示めいじてき修正しゅうせいする必要ひつようもない。そのわり、未知みち領域りょういき探索たんさくと、現在げんざい知識ちしき活用かつようあいだのバランスをつけることに重点じゅうてんかれる[1]

この文脈ぶんみゃく強化きょうか学習がくしゅうアルゴリズムのおおくは動的どうてき計画けいかくほう使用しようするため、この環境かんきょう通常つうじょうマルコフ決定けってい過程かてい(MDP)として定式ていしきされる[2]古典こてんてき動的どうてき計画けいかくほう強化きょうか学習がくしゅうアルゴリズムとのおもちがいは、後者こうしゃはMDPの正確せいかく数学すうがくてきモデルの知識ちしき必要ひつようとせず、正確せいかく方法ほうほうでは実行じっこう不可能ふかのうだい規模きぼMDPを対象たいしょうにできることである。代表だいひょうてきなアルゴリズムとして時間じかん差分さぶん学習がくしゅう(TD学習がくしゅう)やQ学習がくしゅうられている。

導入どうにゅう

編集へんしゅう
 
強化きょうか学習がくしゅうシナリオの典型てんけいてき構成こうせい: エージェントは環境かんきょうない行動こうどうをおこし、それは報酬ほうしゅう状態じょうたい表現ひょうげん解釈かいしゃくされ、エージェントにフィードバックされる。

強化きょうか学習がくしゅうはその一般いっぱんせいから、ゲーム理論りろん制御せいぎょ理論りろんオペレーションズ・リサーチ情報じょうほう理論りろんシミュレーションにもとづく最適さいてき英語えいごばんマルチエージェントシステムぐん知能ちのう統計とうけいがくなど、おおくの分野ぶんや研究けんきゅうされている。オペレーションズ・リサーチや制御せいぎょ文献ぶんけんでは、強化きょうか学習がくしゅう近似きんじ動的どうてき計画けいかくほう(approximate dynamic programming)あるいはニューロダイナミック・プログラミング(neuro-dynamic programming)とばれている。強化きょうか学習がくしゅう問題もんだい最適さいてき制御せいぎょ理論りろんでも研究けんきゅうされており、おも最適さいてきかい存在そんざい特徴とくちょうづけや、その厳密げんみつ計算けいさんのためのアルゴリズムを対象たいしょうするが、(とく環境かんきょう数学すうがくてきモデルがない場合ばあいの)学習がくしゅう近似きんじへの関心かんしんたかくない。また、経済けいざいがくやゲーム理論りろんでは、限定げんてい合理ごうりせいのもとで均衡きんこうがどのようにしょうじるかを説明せつめいするために、強化きょうか学習がくしゅうもちいられることがある。

基本きほんてき強化きょうか学習がくしゅうは、マルコフ決定けってい過程かてい(Markov decision process、MDP)としてモデルされる。

  •  環境かんきょうとエージェントの状態じょうたい集合しゅうごう
  •  :エージェントの行動こうどう集合しゅうごう
  •  状態じょうたい   から行動こうどう   にて状態じょうたい  遷移せんいするかくりつ
  •  行動こうどう  状態じょうたい   から状態じょうたい  遷移せんいしたのち即時そくじ報酬ほうしゅう(immediate reward)

強化きょうか学習がくしゅう目標もくひょうは、エージェントが、即時そくじ報酬ほうしゅうから蓄積ちくせきされる報酬ほうしゅう関数かんすう(reward function)またはのユーザ提供ていきょう強化きょうか信号しんごう最大さいだいするような、最適さいてきまたは最適さいてきちか方策ほうさく学習がくしゅうすることである。これは、動物どうぶつ心理しんりがくこっているとおもわれるプロセスにている。たとえば、生物せいぶつのうは、いたみや空腹くうふくなどの信号しんごうまけ強化きょうかよろこびや食物しょくもつ摂取せっしゅせい強化きょうかとして解釈かいしゃくするように配線はいせん(hardwired)されている。いくつかの状況じょうきょうでは、動物どうぶつはこれらの報酬ほうしゅう最適さいてきするような行動こうどう学習がくしゅうすることができる。このことは、動物どうぶつ強化きょうか学習がくしゅう可能かのうであることを示唆しさしている[3][4]

基本きほんてき強化きょうか学習がくしゅうエージェントがた人工じんこう知能ちのう(AI)は、離散りさんてき時間じかんステップで環境かんきょう相互そうご作用さようおこなう。かく時刻じこく t において、エージェントは現在げんざい状態じょうたい  報酬ほうしゅう  る。つぎ選択せんたく可能かのう行動こうどう集合しゅうごうから、1つの行動こうどう  選択せんたくし、それを環境かんきょう送信そうしんする。環境かんきょうあたらしい状態じょうたい  移動いどうし、遷移せんい(transition)  関連付かんれんづけられる報酬ほうしゅう  決定けっていされる。強化きょうか学習がくしゅうエージェントの目標もくひょうは、期待きたい累積るいせき報酬ほうしゅう最大さいだいする方策ほうさく  ,  学習がくしゅうすることである。

この問題もんだいをMDPとして定式ていしきすると、エージェントが環境かんきょう現在げんざい状態じょうたい直接ちょくせつ観測かんそくすることを仮定かていし、この場合ばあい問題もんだい完全かんぜん観測かんそく可能かのう(full observability)であるとう。しかし、エージェントが一部いちぶ状態じょうたいしか観測かんそくできない場合ばあい、あるいは観測かんそくされた状態じょうたいがノイズによって破損はそんしている場合ばあい、エージェントは部分ぶぶん観測かんそく可能かのう(partial observability)であるとばれ、正式せいしきにはその問題もんだい部分ぶぶん観測かんそく可能かのうマルコフ決定けってい過程かてい(partially observable Markov decision process)として定式ていしきしなければならない。どちらの場合ばあいも、エージェントが使用しようできる行動こうどう集合しゅうごう制限せいげんける可能かのうせいがある。たとえば、口座こうざ残高ざんだか状態じょうたいせいである制約せいやくすことができる。状態じょうたい現在げんざいが3で、状態じょうたい遷移せんいを4だけらそうとこころみた場合ばあい、その遷移せんい許可きょかされない。

あるエージェントの性能せいのうを、最適さいてき行動こうどうしているべつのエージェントの性能せいのう比較ひかくすると、そのからリグレット英語えいごばん(regret後悔こうかい)という概念がいねんしょうじる。最適さいてき行動こうどうちかづくために、たとえ即時そくじ報酬ほうしゅうまけであっても、エージェントはその行動こうどう長期ちょうきてき結果けっか(すなわち将来しょうらい収益しゅうえき最大さいだい)についてかんがえなければならない。

したがって、強化きょうか学習がくしゅうは、長期ちょうきてき報酬ほうしゅう短期たんきてき報酬ほうしゅうのトレードオフをともな問題もんだいとくてきしている。強化きょうか学習がくしゅうは、ロボット制御せいぎょ英語えいごばん[5]エレベーターのスケジューリング電気でんき通信つうしんバックギャモンチェッカー[6]囲碁いごAlphaGo)など、さまざまな問題もんだいへの応用おうよう成功せいこうしている。

強化きょうか学習がくしゅう強力きょうりょくなものにしている2つの要素ようそとして、性能せいのう最適さいてきするためのサンプルの使用しようと、だい規模きぼ環境かんきょう対処たいしょするための関数かんすう近似きんじ使用しようがあげられる。この2つの重要じゅうよう要素ようそにより、強化きょうか学習がくしゅうつぎのような状況じょうきょうで、だい規模きぼ環境かんきょう適用てきようすることができる。

これらの問題もんだいのうち、最初さいしょの2つは計画けいかく問題もんだいであり(なんらかのかたちのモデルが利用りよう可能かのうであるため)、最後さいごの1つはしん学習がくしゅう問題もんだいであるとかんがえることができる。ただし、強化きょうか学習がくしゅうはどちらの計画けいかく問題もんだい機械きかい学習がくしゅう問題もんだい変換へんかんする。

探索たんさく

編集へんしゅう

探索たんさく(exploration)と活用かつよう(exploitation)のトレードオフは、うでバンディット問題もんだいや、Burnetas and Katehakis(1997)の有限ゆうげん状態じょうたい空間くうかんMDPの研究けんきゅうつうじて、もっと詳細しょうさい研究けんきゅうされてきた[8]

強化きょうか学習がくしゅうには巧妙こうみょう探索たんさく機構きこう不可欠ふかけつであり、推定すいていされたかくりつ分布ぶんぷ参照さんしょうせず、ランダムに行動こうどう選択せんたくすればその性能せいのう低下ていかする。(小規模しょうきぼな)有限ゆうげんMDPについては、比較的ひかくてきよく理解りかいされている。しかし、状態じょうたいすうおうじてうまくスケールする(あるいは状態じょうたい空間くうかん無限むげん問題もんだいでも対応たいおうする)アルゴリズムがないため、単純たんじゅん探索たんさく方法ほうほうもっと実用じつようてきとなる。

そのような方法ほうほうひとつが  -貪欲どんよくほう(イプシロンどんよくほう、 -greedy)で、 探索たんさく活用かつようりょう制御せいぎょするパラメータである。かくりつ  活用かつよう選択せんたくされ、エージェントは長期ちょうきてきもっと効果こうかがあるとおもわれる行動こうどう選択せんたくする(行動こうどうあいだ関係かんけい無作為むさくい解消かいしょうされる)。あるいは、かくりつ  探索たんさく選択せんたくされ、行動こうどう無作為むさくい選択せんたくされる。通常つうじょう 固定こていパラメータであるが、スケジュールにしたがったり(エージェントが探索たんさく徐々じょじょすくなくする)、またはヒューリスティック(経験けいけんそく)にもとづいて適応てきおうてき調整ちょうせいすることもできる[9]

制御せいぎょ学習がくしゅうアルゴリズム

編集へんしゅう

たとえ探索たんさく問題もんだい無視むしして、状態じょうたい観測かんそく可能かのうであっても(以下いか仮定かてい)、過去かこ経験けいけん使用しようして、どの行動こうどうがよりたか累積るいせき報酬ほうしゅうにつながるかをつけすという問題もんだいのこされる。

最適さいてきせい基準きじゅん

編集へんしゅう

方策ほうさく

編集へんしゅう

エージェントの行動こうどう(action)の選択せんたくは、方策ほうさく(policy)とばれる写像しゃぞうとしてモデルすることができる。

 
 

方策ほうさく写像しゃぞうは、状態じょうたい   において行動こうどう  選択せんたくするかくりつあたえる[10]:61決定けっていろんてき方策ほうさくすべてのかくりつが 0 または 1)をかんがえてもい。

状態じょうたい価値かち関数かんすう

編集へんしゅう

状態じょうたい価値かち関数かんすう(state-value function)   は、状態じょうたい  、すなわち   から出発しゅっぱつして、方策ほうさく  連続れんぞくしてしたが場合ばあい期待きたい割引わりびき収益しゅうえき(expected discounted return)と定義ていぎされる。したがって、おおまかにえば、状態じょうたい価値かち関数かんすうは、ある状態じょうたいにあることが「どれくらいいか」を推定すいていするものである[10]:60

 

ここで、かくりつ変数へんすう  割引わりびき収益しゅうえき(discounted return)をあらわし、報酬ほうしゅう(reward)に割引わりびきりつ(discount rate) じょうじた将来しょうらい割引わりびき報酬ほうしゅう(discounted reward)のとして定義ていぎされる。

 

ここで、報酬ほうしゅう  状態じょうたい   から  遷移せんいしたさい報酬ほうしゅうである。割引わりびきりつ 設定せっていされ、とお未来みらい報酬ほうしゅうほどおもけはちいさくなる。割引わりびきりつかんがかた経済けいざいがくでも使つかわれている。

アルゴリズムは、期待きたい割引わりびき収益しゅうえき最大さいだいになるような方策ほうさくつける必要ひつようがある。MDPの理論りろんから、一般いっぱんせいそこなうことなく、探索たんさくをいわゆる「定常ていじょう方策ほうさく」(stationary policies)の集合しゅうごう限定げんていできることがられている。ある方策ほうさくかえ行動こうどう分布ぶんぷが、(観察かんさつしているエージェントの履歴りれきから)最後さいごおとずれた状態じょうたいにのみ依存いぞんする場合ばあい、その方策ほうさくは「定常ていじょうてき」(stationary)である。探索たんさくはさらに決定けっていろんてき定常ていじょう方策ほうさく限定げんていされることがある。「決定けっていろんてき定常ていじょう方策ほうさく」(deterministic stationary policy)は、現在げんざい状態じょうたいもとづいて「決定けっていろんてき」に行動こうどう選択せんたくする。このような方策ほうさくは、状態じょうたい集合しゅうごうから行動こうどう集合しゅうごうへのマッピングとして識別しきべつできるので、一般いっぱんせいそこなうことなく、これらの方策ほうさくはこのようなマッピングと識別しきべつすることができる。

そうたりほう

編集へんしゅう

そうたりほう(brute force method、ちからまかせ探索たんさく)は、つぎの2つの段階だんかいともなう。

  • 可能かのうせいのあるかく方策ほうさくについて、それにしたがった場合ばあい収益しゅうえきをサンプリングする
  • 期待きたい収益しゅうえき最大さいだい方策ほうさく選択せんたくする

この場合ばあい問題もんだいひとつは、方策ほうさくすう増大ぞうだいする、あるいは無限むげんだいになる可能かのうせいである。また、収益しゅうえき分散ぶんさんおおきい場合ばあいかく方策ほうさく収益しゅうえき正確せいかく推定すいていするためにおおくのサンプルが必要ひつようになることもある。

これらの問題もんだいは、なんらかの構造こうぞう仮定かていし、ある方策ほうさくから生成せいせいされたサンプルが方策ほうさく推定すいてい影響えいきょうあたえるようにすることで改善かいぜんすることができる。これを実現じつげんするための2つな主要しゅよう手法しゅほうは、価値かち関数かんすう推定すいてい直接ちょくせつ方策ほうさく探索たんさくである。

価値かち関数かんすうほう

編集へんしゅう

価値かち関数かんすうほう(value function methods)は、ある方策ほうさく通常つうじょうは「現行げんこう」(on-policy、方策ほうさくない)または「最適さいてき」(方策ほうさくがい、off-policy)のいずれか)にたいする期待きたい収益しゅうえき推定すいてい集合しゅうごう維持いじすることにより、収益しゅうえき最大さいだいする方策ほうさくつけそうとするものである。

これらの方法ほうほうはマルコフ決定けってい過程かてい理論りろんもとづいており、最適さいてきせい前述ぜんじゅつしたよりもつよ意味いみ定義ていぎされている。方策ほうさくは、どのような初期しょき状態じょうたいからでも最大さいだい期待きたい収益しゅうえき達成たっせいする場合ばあい最適さいてきであるとばれる(つまり、この定義ていぎにおいて初期しょき分布ぶんぷなん役割やくわりたさない)。かえすが、最適さいてき方策ほうさくつね定常ていじょう方策ほうさくなかから見出みいだすことができる。

最適さいてきせい正式せいしき定義ていぎするために、方策ほうさく  したでの状態じょうたい価値かち(state-value)を、

 

定義ていぎする。ここで、 初期しょき状態じょうたい   から  したがうことにともな割引わりびき収益しゅうえきあらわす。また、 変更へんこうしうる場合ばあい 最大さいだい可能かのうとして 定義ていぎすると、

 

となる。

すべての状態じょうたいにおいて、これらの最適さいてき達成たっせいする方策ほうさく最適さいてき(optimal)とぶ。このつよ意味いみ最適さいてき方策ほうさくは、期待きたい割引わりびき収益しゅうえき  最大さいだいするという意味いみでも「最適さいてき」であることはあきらかである。ここで、 初期しょき状態じょうたい分布ぶんぷ   からランダムにサンプリングした状態じょうたい(したがって  )である。

最適さいてきせい定義ていぎするには状態じょうたい価値かち十分じゅうぶんだが、行動こうどう価値かち(action-value)を定義ていぎしておくと有用ゆうようである。状態じょうたい  行動こうどう  方策ほうさく  あたえられたとき、 したでの状態じょうたい-行動こうどうペア  行動こうどう価値かちは、

 

定義ていぎされる。ここで   は、状態じょうたい  最初さいしょ行動こうどう  り、その  したがっているときの割引わりびき収益しゅうえきあらわしている。

MDPの理論りろんでは、 最適さいてき方策ほうさくであれば、  からかく状態じょうたい  もっと行動こうどう価値かちたか行動こうどう選択せんたくすることで最適さいてき行動こうどうする(最適さいてき行動こうどうる)とされている。このような最適さいてき方策ほうさく )の行動こうどう価値かち関数かんすう(action-value function)を最適さいてき行動こうどう価値かち関数かんすう(optimal action-value function)といい、一般いっぱん あらわす。要約ようやくすると、最適さいてき行動こうどう価値かち関数かんすうっていれば、最適さいてき行動こうどう方法ほうほうることができる。

MDPの完全かんぜん知識ちしき前提ぜんていとすると、最適さいてき行動こうどう価値かち関数かんすう計算けいさんするための2つの基本きほんてき手法しゅほうは、価値かち反復はんぷくほう方策ほうさく反復はんぷくほうである。どちらのアルゴリズムも、 収束しゅうそくする一連いちれん関数かんすう   ( ) を計算けいさんする。これらの関数かんすう計算けいさんするには、状態じょうたい空間くうかん全体ぜんたいたいする期待きたい行動こうどう価値かち計算けいさんする必要ひつようがあるが、これは最小さいしょうの(有限ゆうげんの)MDPをのぞいては現実げんじつてきである。強化きょうか学習がくしゅうほうでは、おおきな状態じょうたい行動こうどう空間くうかんじょう行動こうどう価値かち関数かんすう表現ひょうげんする必要ひつようせい対処たいしょするために、サンプルの平均へいきん関数かんすう近似きんじ手法しゅほう使用しようして期待きたい近似きんじする。

モンテカルロほう

編集へんしゅう

モンテカルロほう(Monte Carlo methods)は、方策ほうさく反復はんぷくほう模倣もほうしたアルゴリズムに使用しようすることができる。方策ほうさく反復はんぷくほうは、方策ほうさく評価ひょうか(policy evaluation)と方策ほうさく改善かいぜん(policy improvement)という2つの段階だんかいから構成こうせいされる。モンテカルロほうは、方策ほうさく評価ひょうか段階だんかい使用しようされる。この段階だんかいでの目標もくひょうは、定常ていじょうてき決定けっていろんてき方策ほうさく  あたえられたとき、すべての状態じょうたい-行動こうどうペア  たいする関数かんすう  (またはその適切てきせつ近似きんじ)を計算けいさんすることである。ここでは簡単かんたんにするために、MDPは有限ゆうげんであり、行動こうどう価値かち収容しゅうようするのに十分じゅうぶんなメモリがあり、問題もんだい偶発ぐうはつてきえい: episodic)で、かく出来事できごとのちにランダムな初期しょき状態じょうたいからあたらしい出来事できごとはじまると仮定かていする。そして、あたえられた状態じょうたい-行動こうどうペア  行動こうどう価値かち推定すいていは、  からサンプリングされた収益しゅうえき時間じかん経過けいかとともに平均へいきんすることによって計算けいさんすることができる。十分じゅうぶん時間じかんがあれば、この手順てじゅんにより、行動こうどう価値かち関数かんすう  正確せいかく推定すいてい  構築こうちくすることができる。これで、方策ほうさく評価ひょうか段階だんかい説明せつめい終了しゅうりょうする。

方策ほうさく改善かいぜん段階だんかいでは、 かんする貪欲どんよく方策ほうさくgreedy policy)を計算けいさんすることによりつぎ方策ほうさくる。状態じょうたい  あたえられたとき、このあたらしい方策ほうさく 最大さいだいするひとつの行動こうどうかえす。実際じっさいには、遅延ちえん評価ひょうかによって、最大さいだい行動こうどう計算けいさん必要ひつようなときまで先送さきおくりすることができる。

この手法しゅほう問題もんだいつぎにあげる。

  1. 最適さいてきでない方策ほうさく評価ひょうかするのに時間じかんがかかりすぎる場合ばあいがある。
  2. サンプリングが効率こうりつてきおこなわれる(なが軌跡きせきが、軌跡きせき開始かいしした単一たんいつ状態じょうたい-行動こうどうペアの推定すいてい改善かいぜんするだけである)
  3. 軌跡きせきじょう収益しゅうえきこう分散ぶんさん(high variance)である場合ばあい収束しゅうそくおそくなる。
  4. 偶発ぐうはつてき問題もんだい(episodic problems)にたいしてのみ有効ゆうこうである。
  5. 小規模しょうきぼ有限ゆうげんなMDPでしか使つかえない。

以降いこう小節しょうせつでは、それぞれの問題もんだいについてさらに議論ぎろんする。

時間じかん差分さぶんほう

編集へんしゅう

最初さいしょ問題もんだいは、価値かちおさまるまえに(一部いちぶまたはすべての状態じょうたいで)手順てじゅん方策ほうさく変更へんこうできるようにすることによって対応たいおうできる。ただし収束しゅうそくさまたげて問題もんだいとなる可能かのうせいもある。現在げんざいのほとんどのアルゴリズムではこれをおこない、一般いっぱん方策ほうさく反復はんぷく(generalized policy iteration)という種類しゅるいのアルゴリズムをつくすことができる。おおくのアクター・クリティックほう(actor-critic methods)はこの範疇はんちゅう(はんちゅう)にぞくする。

2番目ばんめ問題もんだいは、軌跡きせきがそのなか任意にんい状態じょうたい-行動こうどうペアに関与かんよできるようにすることで修正しゅうせいできる。これは3番目ばんめ問題もんだいにもある程度ていど有効ゆうこうであるが、収益しゅうえき分散ぶんさんたか場合ばあいのよりすぐれた解決かいけつさくは、再帰さいきてきベルマン方程式ほうていしき(recursive Bellman equation)にもとづくリチャード・サットンが命名めいめいした時間じかん差分さぶん学習がくしゅう(temporal difference learning、TD学習がくしゅう)である[11][12]

TDほうにおける計算けいさんほうには、インクリメンタルほうかく遷移せんいにメモリを変更へんこうし、遷移せんい破棄はきする)またはバッチほう遷移せんいをバッチ処理しょりし、バッチにもとづいて推定すいていいちかい計算けいさんする)がある。最小さいしょうじょう時間じかんほう(least-squares temporal difference method)のようなバッチほう[13]、サンプルない情報じょうほうをより有効ゆうこう利用りようできる可能かのうせいがあるが、インクリメンタルほうは、バッチほう計算けいさんりょうやメモリの複雑ふくざつせい理由りゆう実行じっこう不可能ふかのう場合ばあい選択せんたくされる唯一ゆいいつ方法ほうほうとなる。この2つの方法ほうほうわせる手法しゅほうもある。時間じかん差分さぶんもとづく方法ほうほうは、4番目ばんめ問題もんだい克服こくふくしている。

TDに特有とくゆうのもうひとつの問題もんだいは、再帰さいきてきなベルマン方程式ほうていしきへの依存いぞん起因きいんしている。ほとんどのTDほうには、いわゆる   (ラムダ)パラメータ   があり、ベルマン方程式ほうていしき依存いぞんしないモンテカルロほうと、ベルマン方程式ほうていしき完全かんぜん依存いぞんする基本きほんてきなTDほうあいだを、連続れんぞくてき補間ほかんすることができる。これにより、この問題もんだい効果こうかてき緩和かんわすることができる。

関数かんすう近似きんじほう

編集へんしゅう

5番目ばんめ課題かだい解決かいけつするために、関数かんすう近似きんじほう(function approximation methods)が提案ていあんされている。線形せんけい関数かんすう近似きんじ(linear function approximation)は、かく状態じょうたい-行動こうどうペアに有限ゆうげん次元じげんベクトルをてるマッピング   からはじまる。そして、状態じょうたい-行動こうどうペア  行動こうどう価値かち(action-value)は、 成分せいぶんなんらかのおも  線形せんけい結合けつごうすることによってられる。

 

その、アルゴリズムは、かく状態じょうたい-行動こうどうペアに関連かんれんするではなく、おもみを調整ちょうせいする。ノンパラメトリック統計とうけいがくかんがかたもとづく方法ほうほう独自どくじ特徴とくちょう構築こうちくすることがられる)が探究たんきゅうされている。

また、反復はんぷく出発しゅっぱつてんとして、Q学習がくしゅうアルゴリズム(Q-learning algorithm)とそのおおくのバリエーションを作成さくせいすることができる[14]行動こうどう価値かち関数かんすうQを表現ひょうげんするためにニューラルネットワークを使用しようするディープQ学習がくしゅうほうふくめ、かくりつてき探索たんさく問題もんだいへのさまざまな応用おうようができる[15]

行動こうどう価値かちもちいる場合ばあい問題もんだいは、競合きょうごうする行動こうどう価値かちこう精度せいど推定すいていする必要ひつようであることになる可能かのうせいがあることで、収益しゅうえきにノイズがおお場合ばあいには取得しゅとくするのがむずかしい場合ばあいがあるが、この問題もんだい時間じかんほうによってある程度ていど軽減けいげんされる。いわゆる互換ごかん関数かんすう近似きんじほう(compatible function approximation method)を使用しようすると、一般いっぱんせい効率こうりつせいそこなわれる。

直接ちょくせつ方策ほうさく探索たんさく

編集へんしゅう

べつ方法ほうほうとして、方策ほうさく空間くうかん(そのなんらかの部分ぶぶん集合しゅうごう)を直接ちょくせつ探索たんさくする方法ほうほうがあり、この場合ばあい問題もんだいかくりつてき最適さいてき英語えいごばんひとつとなる。利用りよう可能かのうな2つの方法ほうほうとして、勾配こうばいもちいる方法ほうほうと、勾配こうばいもちいない方法ほうほうがある。

勾配こうばいほう使用しようする手法しゅほう方策ほうさく勾配こうばいほう(policy gradient method)とばれる。有限ゆうげん次元じげん(パラメータ)空間くうかんから方策ほうさく空間くうかんへのマッピングをおこない、パラメータベクトル  あたえられたとき、 対応たいおうする方策ほうさく  とする。評価ひょうか関数かんすう 定義ていぎすると、この関数かんすうおだやかな条件下じょうけんかではパラメータベクトル  関数かんすうとして微分びぶん可能かのうになる。もし  勾配こうばいがわかっていれば、さい急降下きゅうこうかほう使つかうことができる。勾配こうばい解析かいせきかいからないため、ノイズをふくんだ推定すいていしか利用りようできない[16]。このような推定すいていはさまざまな方法ほうほう構築こうちくすることができ、ウィリアムズのREINFORCEほうシミュレーションベース最適さいてき英語えいごばん文献ぶんけんではゆうほうとしてられている)のようなアルゴリズムで作成さくせいすることもできる[17]

勾配こうばいもちいない方法ほうほうも、おおくの種類しゅるいがある。たとえば、シミュレーティドアニーリングクロスエントロピー探索たんさく英語えいごばん、または進化しんかてき計算けいさん手法しゅほうなどがある。おおくの勾配こうばいもちいない手法しゅほうは、(理論りろんてきにも極限きょくげんてきにも)大域たいいきてき最適さいてきかい到達とうたつすることができる。

ノイズのおおいデータでは、方策ほうさく収束しゅうそくおそくなることがある。こうしたことは、たとえば、軌跡きせきながくリターンの分散ぶんさんおおきい偶発ぐうはつてき問題もんだいこる。このような場合ばあい時間じかん差分さぶんほう依存いぞんする価値かち関数かんすうもとづく手法しゅほう役立やくだ可能かのうせいがある。近年きんねんでは、1970年代ねんだいから存在そんざいしていたアクター・クリティックほう(actor-critic method)を改良かいりょうする方法ほうほう提案ていあんされ、さまざまな問題もんだい結果けっかしている[18]

方策ほうさく探索たんさくほうは、ロボット工学こうがく文脈ぶんみゃくでも使用しようされている[19]おおくの方策ほうさく探索たんさくほうは、局所きょくしょ探索たんさくもとづいているため、局所きょくしょ最適さいてきおちいることがある。

モデルベース・アルゴリズム

編集へんしゅう

最後さいごに、上記じょうき方法ほうほうはみな、はじめにモデルを訓練くんれんするアルゴリズムとわせることができる。たとえば、Dynaアルゴリズムは経験けいけんからモデルを訓練くんれんし、実際じっさい遷移せんいくわえて、よりモデルされた遷移せんい価値かち関数かんすうあたえることができる[20]。このような方法ほうほうはノンパラメトリックモデルに拡張かくちょうできる場合ばあいがあり、たとえば、遷移せんい単純たんじゅん保存ほぞんして学習がくしゅうアルゴリズムに「再生さいせい」させるなどの方法ほうほうがある[21]

モデルの使用しようには価値かち関数かんすう更新こうしんする以外いがい方法ほうほうもある[22]。たとえば、モデル予測よそく制御せいぎょ (en:英語えいごばんでは、モデルをもちいて挙動きょどう直接ちょくせつ更新こうしんする。

ほとんどのアルゴリズムの漸近ぜんきんてき挙動きょどう有限ゆうげん標本ひょうほん挙動きょどう両方りょうほうがよく理解りかいされている。(探索たんさく問題もんだい対処たいしょする)すぐれたオンライン性能せいのう証明しょうめいされたアルゴリズムもられている。

MDPの効率こうりつてき探索たんさくについては、Burnetas and Katehakis(1997)でべられている[8]。また、おおくのアルゴリズムで有限ゆうげん時間じかん性能せいのう限界げんかいられるが、これらの限界げんかいはかなりゆるいと予想よそうされるため、相対そうたいてき価値かち限界げんかいをよりふか理解りかいするために、さらなる研究けんきゅう必要ひつようである。

インクリメンタルアルゴリズムについては、漸近ぜんきんてき収束しゅうそく問題もんだい解決かいけつされた[よう説明せつめい]時間じかん差分さぶんもとづくアルゴリズムでは、従来じゅうらいよりもひろ条件じょうけんした収束しゅうそくするようになった(たとえば、任意にんいなめらかな関数かんすう近似きんじ併用へいようする場合ばあい)。

研究けんきゅう

編集へんしゅう

研究けんきゅうテーマをつぎ列挙れっきょする。

強化きょうか学習がくしゅうアルゴリズムの比較ひかく

編集へんしゅう
アルゴリズム 説明せつめい 方策ほうさく 行動こうどう空間くうかん 状態じょうたい空間くうかん 演算えんざん
モンテカルロほう 逐次ちくじ訪問ほうもんモンテカルロほう いずれでも 離散りさん 離散りさん 状態じょうたい価値かちもしくは行動こうどう価値かちのサンプル平均へいきん
TD学習がくしゅう 状態じょうたい-行動こうどう-報酬ほうしゅう-状態じょうたい 方策ほうさくがい 離散りさん 離散りさん 状態じょうたい価値かち
Q学習がくしゅう 状態じょうたい-行動こうどう-報酬ほうしゅう-状態じょうたい 方策ほうさくがい 離散りさん 離散りさん 行動こうどう価値かち
SARSA 状態じょうたい-行動こうどう-報酬ほうしゅう-状態じょうたい-行動こうどう 方策ほうさくない 離散りさん 離散りさん 行動こうどう価値かち
Q学習がくしゅう(λらむだ) 状態じょうたい-行動こうどう-報酬ほうしゅう-適格てきかくせいトレースをふく状態じょうたい 方策ほうさくがい 離散りさん 離散りさん 行動こうどう価値かち
SARSA(λらむだ) 状態じょうたい-行動こうどう-報酬ほうしゅう-状態じょうたい-行動こうどう適格てきかくせいトレース 方策ほうさくない 離散りさん 離散りさん 行動こうどう価値かち
DQN ディープQネットワーク 方策ほうさくがい 離散りさん 連続れんぞく 行動こうどう価値かち
DDPG ディープ決定けっていろんてき方策ほうさく勾配こうばい 方策ほうさくがい 連続れんぞく 連続れんぞく 行動こうどう価値かち
A3C 非同期ひどうきアドバンテージ・アクター・クリティック・アルゴリズム 方策ほうさくない 連続れんぞく 連続れんぞく アドバンテージ
(=行動こうどう価値かち - 状態じょうたい価値かち)
NAF 正規せいきアドバンテージ関数かんすう使用しようしたQ学習がくしゅう 方策ほうさくがい 連続れんぞく 連続れんぞく アドバンテージ
TRPO 信頼しんらい領域りょういき方策ほうさく最適さいてき 方策ほうさくない 連続れんぞく 連続れんぞく アドバンテージ
PPO英語えいごばん きん方策ほうさく最適さいてき 方策ほうさくない 連続れんぞく 連続れんぞく アドバンテージ
TD3 ツイン遅延ちえんディープ決定けっていろん方策ほうさく勾配こうばいほう 方策ほうさくがい 連続れんぞく 連続れんぞく 行動こうどう価値かち
SAC ソフト・アクター・クリティック 方策ほうさくがい 連続れんぞく 連続れんぞく アドバンテージ

連想れんそう強化きょうか学習がくしゅう

編集へんしゅう

連想れんそう強化きょうか学習がくしゅうタスク(associative reinforcement learning)は、かくりつてき学習がくしゅうオートマトンタスクと教師きょうしあり学習がくしゅうパターン分類ぶんるいタスクの側面そくめんをあわせっている。連想れんそう強化きょうか学習がくしゅうタスクでは、学習がくしゅうシステムはへいループで環境かんきょう相互そうご作用さようする[36]

深層しんそう強化きょうか学習がくしゅう

編集へんしゅう

深層しんそう強化きょうか学習がくしゅう(deep reinforcement learning) (en:英語えいごばんは、ディープニューラルネットワーク使用しようし、状態じょうたい空間くうかん明示めいじてき設計せっけいすることなく、強化きょうか学習がくしゅう拡張かくちょうするものである[37]。Google DeepMindによってAtari 2600のゲームの強化きょうか学習がくしゅう研究けんきゅうDeep Q-Network)されたことで、深層しんそう強化きょうか学習がくしゅうエンドツーエンド強化きょうか学習がくしゅう注目ちゅうもくされるようになった[38]

敵対てきたいてき深層しんそう強化きょうか学習がくしゅう

編集へんしゅう

敵対てきたいてき深層しんそう強化きょうか学習がくしゅう(adversarial deep reinforcement learning)は、学習がくしゅうされた方策ほうさく脆弱ぜいじゃくせい(ぜいじゃくせい)に焦点しょうてんてた強化きょうか学習がくしゅう活発かっぱつ研究けんきゅう分野ぶんやである。この研究けんきゅう領域りょういきでは、当初とうしょ強化きょうか学習がくしゅう方策ほうさくがわずかな敵対てきたいてき操作そうさ影響えいきょうけやすいことがいくつかの研究けんきゅうしめされていた[39][40][41]。これらの脆弱ぜいじゃくせい克服こくふくするためにいくつか方法ほうほう提案ていあんされているが、最新さいしん研究けんきゅうでは、これらの提案ていあんされた解決かいけつさくは、深層しんそう強化きょうか学習がくしゅう方策ほうさく現在げんざい脆弱ぜいじゃくせい正確せいかくあらわすには程遠ほどとおいことがしめされた[42]

ファジィ強化きょうか学習がくしゅう

編集へんしゅう

強化きょうか学習がくしゅうファジィ推論すいろん導入どうにゅうすることで[43]連続れんぞく空間くうかんにおけるファジィルール英語えいごばん状態じょうたい-行動こうどう価値かち関数かんすう近似きんじすることが可能かのうになる。ファジィルールの IF - THEN 形式けいしきは、自然しぜん言語げんごちか形式けいしき結果けっか表現ひょうげんするのにてきしている。ファジィルール補間ほかんによるファジィ強化きょうか学習がくしゅう(fuzzy reinforcement learning、FRL)への拡張かくちょうにより[44]、サイズが縮小しゅくしょうされたスパース・ファジィ・ルールベースを使用しようして、基本きほんルール(もっと重要じゅうよう状態じょうたい-行動こうどう価値かち)に重点じゅうてんくことができるようになった。

ぎゃく強化きょうか学習がくしゅう

編集へんしゅう

ぎゃく強化きょうか学習がくしゅう(inverse reinforcement learning、IRL)では報酬ほうしゅう関数かんすうあたえられない。そのわり、専門せんもん観察かんさつした行動こうどうから報酬ほうしゅう関数かんすう推測すいそくする。このアイディアは観察かんさつされた行動こうどう模倣もほうすることであり、おおくの場合ばあい最適さいてきまたは最適さいてきちか行動こうどうとなる[45]

安全あんぜん強化きょうか学習がくしゅう

編集へんしゅう

安全あんぜん強化きょうか学習がくしゅう(safe reinforcement learning、SRL)とは、システムの訓練くんれん配置はいち過程かていで、その合理ごうりてき性能せいのう確保かくほ安全あんぜん制約せいやく尊重そんちょうすることが重要じゅうよう問題もんだいにおいて、期待きたい収益しゅうえき最大さいだいする方策ほうさく学習がくしゅうする過程かてい定義ていぎすることができる[46]

参考さんこう項目こうもく

編集へんしゅう

脚注きゃくちゅう

編集へんしゅう
  1. ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). “Reinforcement Learning: A Survey”. Journal of Artificial Intelligence Research 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. オリジナルの2001-11-20時点じてんにおけるアーカイブ。. http://webarchive.loc.gov/all/20011120234539/http://www.cs.washington.edu/research/jair/abstracts/kaelbling96a.html. 
  2. ^ van Otterlo, M.; Wiering, M. (2012). Reinforcement learning and markov decision processes. Adaptation, Learning, and Optimization. 12. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6 
  3. ^ Russell, Stuart J.; Norvig, Peter (2010). Artificial intelligence : a modern approach (Third ed.). Upper Saddle River, New Jersey. pp. 830, 831. ISBN 978-0-13-604259-4 
  4. ^ Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 July 2012). “Neural Basis of Reinforcement Learning and Decision Making”. Annual Review of Neuroscience 35 (1): 287–308. doi:10.1146/annurev-neuro-062111-150512. PMC 3490621. PMID 22462543. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3490621/. 
  5. ^ Xie, Zhaoming, et al. "ALLSTEPS: Curriculum‐driven Learning of Stepping Stone Skills." Computer Graphics Forum. Vol. 39. No. 8. 2020.
  6. ^ Sutton & Barto 1998, Chapter 11.
  7. ^ Gosavi, Abhijit (2003). Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Operations Research/Computer Science Interfaces Series. Springer. ISBN 978-1-4020-7454-7. https://www.springer.com/mathematics/applications/book/978-1-4020-7454-7 
  8. ^ a b Burnetas, Apostolos N.; Katehakis, Michael N. (1997), “Optimal adaptive policies for Markov Decision Processes”, Mathematics of Operations Research 22: 222–255, doi:10.1287/moor.22.1.222 
  9. ^ Tokic, Michel; Palm, Günther (2011), “Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax”, KI 2011: Advances in Artificial Intelligence, Lecture Notes in Computer Science, 7006, Springer, pp. 335–346, ISBN 978-3-642-24455-1, http://www.tokic.com/www/tokicm/publikationen/papers/KI2011.pdf 
  10. ^ a b Reinforcement learning: An introduction”. 2023ねん5がつ12にち閲覧えつらん
  11. ^ Sutton, Richard S. (1984). Temporal Credit Assignment in Reinforcement Learning (PhD thesis). University of Massachusetts, Amherst, MA.
  12. ^ Sutton & Barto 1998, §6. Temporal-Difference Learning.
  13. ^ Bradtke, Steven J.; Barto, Andrew G. (1996). “Learning to predict by the method of temporal differences”. Machine Learning 22: 33–57. doi:10.1023/A:1018056104778. 
  14. ^ Watkins, Christopher J.C.H. (1989). Learning from Delayed Rewards (PDF) (PhD thesis). King’s College, Cambridge, UK.
  15. ^ Matzliach, Barouch; Ben-Gal, Irad; Kagan, Evgeny (2022). “Detection of Static and Mobile Targets by an Autonomous Agent with Deep Q-Learning Abilities”. Entropy 24 (8): 1168. Bibcode2022Entrp..24.1168M. doi:10.3390/e24081168. PMC 9407070. PMID 36010832. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9407070/. 
  16. ^ Williams, Ronald J. (1987). "A class of gradient-estimating algorithms for reinforcement learning in neural networks". Proceedings of the IEEE First International Conference on Neural Networks. CiteSeerX 10.1.1.129.8871
  17. ^ Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). "Reinforcement Learning for Humanoid Robotics" (PDF). IEEE-RAS International Conference on Humanoid Robots.
  18. ^ Juliani, Arthur (2016ねん12月17にち). “Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)”. Medium. 2018ねん2がつ22にち閲覧えつらん
  19. ^ Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). A Survey on Policy Search for Robotics. Foundations and Trends in Robotics. 2. NOW Publishers. pp. 1–142. doi:10.1561/2300000021. hdl:10044/1/12051. http://eprints.lincoln.ac.uk/28029/1/PolicySearchReview.pdf 
  20. ^ Sutton, Richard (1990). "Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming". Machine Learning: Proceedings of the Seventh International Workshop.
  21. ^ Lin, Long-Ji (1992). "Self-improving reactive agents based on reinforcement learning, planning and teaching" (PDF). Machine Learning volume 8. doi:10.1007/BF00992699
  22. ^ van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). "When to use parametric models in reinforcement learning?" (PDF). Advances in Neural Information Processing Systems 32.
  23. ^ On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment” (英語えいご). cie.acm.org. 2018ねん11月27にち閲覧えつらん
  24. ^ Riveret, Regis; Gao, Yang (2019). “A probabilistic argumentation framework for reinforcement learning agents” (英語えいご). Autonomous Agents and Multi-Agent Systems 33 (1–2): 216–274. doi:10.1007/s10458-019-09404-2. 
  25. ^ Yamagata, Taku; McConville, Ryan; Santos-Rodriguez, Raul (16 November 2021). "Reinforcement Learning with Feedback from Multiple Humans with Diverse Skills". arXiv:2111.08596 [cs.LG]。
  26. ^ Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). “Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation”. Proceedings of the 30th International Conference on Neural Information Processing Systems. NIPS'16 (USA: Curran Associates Inc.): 3682–3690. arXiv:1604.06057. Bibcode2016arXiv160406057K. ISBN 978-1-5108-3881-9. http://dl.acm.org/citation.cfm?id=3157382.3157509. 
  27. ^ Reinforcement Learning / Successes of Reinforcement Learning”. umichrl.pbworks.com. 2017ねん8がつ6にち閲覧えつらん
  28. ^ Quested, Tony. “Smartphones get smarter with Essex innovation”. Business Weekly. 2021ねん6がつ17にち閲覧えつらん
  29. ^ Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (March 2020). “User Interaction Aware Reinforcement Learning for Power and Thermal Efficiency of CPU-GPU Mobile MPSoCs”. 2020 Design, Automation Test in Europe Conference Exhibition (DATE): 1728–1733. doi:10.23919/DATE48585.2020.9116294. ISBN 978-3-9819263-4-7. https://ieeexplore.ieee.org/document/9116294. 
  30. ^ Williams, Rhiannon (2020ねん7がつ21にち). “Future smartphones 'will prolong their own battery life by monitoring owners' behaviour'” (英語えいご). i. 2021ねん6がつ17にち閲覧えつらん
  31. ^ Kaplan, F.; Oudeyer, P. (2004). “Maximizing learning progress: an internal reward system for development”. In Iida, F.; Pfeifer, R.; Steels, L. et al.. Embodied Artificial Intelligence. Lecture Notes in Computer Science. 3139. Berlin; Heidelberg: Springer. pp. 259–270. doi:10.1007/978-3-540-27833-7_19. ISBN 978-3-540-22484-6 
  32. ^ Klyubin, A.; Polani, D.; Nehaniv, C. (2008). “Keep your options open: an information-based driving principle for sensorimotor systems”. PLOS ONE 3 (12): e4018. Bibcode2008PLoSO...3.4018K. doi:10.1371/journal.pone.0004018. PMC 2607028. PMID 19107219. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2607028/. 
  33. ^ Barto, A. G. (2013). “Intrinsic motivation and reinforcement learning”. Intrinsically Motivated Learning in Natural and Artificial Systems. Berlin; Heidelberg: Springer. pp. 17–47. https://people.cs.umass.edu/~barto/IMCleVer-chapter-totypeset2.pdf 
  34. ^ Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). “Deep Execution - Value and Policy Based Reinforcement Learning for Trading and Beating Market Benchmarks”. The Journal of Machine Learning in Finance 1. SSRN 3374766. 
  35. ^ George Karimpanal, Thommen; Bouffanais, Roland (2019). “Self-organizing maps for storage and transfer of knowledge in reinforcement learning” (英語えいご). Adaptive Behavior 27 (2): 111–126. arXiv:1811.08318. doi:10.1177/1059712318818568. ISSN 1059-7123. 
  36. ^ Soucek, Branko (6 May 1992). Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series. John Wiley & Sons, Inc. p. 38. ISBN 0-471-55717-X 
  37. ^ Francois-Lavet, Vincent (2018). “An Introduction to Deep Reinforcement Learning”. Foundations and Trends in Machine Learning 11 (3–4): 219–354. arXiv:1811.12560. Bibcode2018arXiv181112560F. doi:10.1561/2200000071. 
  38. ^ Mnih, Volodymyr (2015). “Human-level control through deep reinforcement learning”. Nature 518 (7540): 529–533. Bibcode2015Natur.518..529M. doi:10.1038/nature14236. PMID 25719670. https://www.semanticscholar.org/paper/e0e9a94c4a6ba219e768b4e59f72c18f0a22e23d. 
  39. ^ Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). “Explaining and Harnessing Adversarial Examples”. International Conference on Learning Representations. arXiv:1412.6572. 
  40. ^ Behzadan, Vahid; Munir, Arslan (2017). “Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks”. International Conference on Machine Learning and Data Mining in Pattern Recognition. Lecture Notes in Computer Science 10358: 262–275. arXiv:1701.04143. doi:10.1007/978-3-319-62416-7_19. ISBN 978-3-319-62415-0. 
  41. ^ Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (2017-02-07). Adversarial Attacks on Neural Network Policies. OCLC 1106256905. http://worldcat.org/oclc/1106256905 
  42. ^ Korkmaz, Ezgi (2022). “Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across MDPs.”. Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22) 36 (7): 7229–7238. doi:10.1609/aaai.v36i7.20684. 
  43. ^ Berenji, H.R. (1994). “Fuzzy Q-learning: a new approach for fuzzy dynamic programming”. Proc. IEEE 3rd International Fuzzy Systems Conference (Orlando, FL, USA: IEEE): 486–491. doi:10.1109/FUZZY.1994.343737. ISBN 0-7803-1896-X. https://ieeexplore.ieee.org/document/343737. 
  44. ^ Vincze, David (2017). “Fuzzy rule interpolation and reinforcement learning”. 2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE. pp. 173–178. doi:10.1109/SAMI.2017.7880298. ISBN 978-1-5090-5655-2. http://users.iit.uni-miskolc.hu/~vinczed/research/vinczed_sami2017_author_draft.pdf 
  45. ^ Ng, A. Y.; Russell, S. J. (2000). “Algorithms for Inverse Reinforcement Learning”. Proceeding ICML '00 Proceedings of the Seventeenth International Conference on Machine Learning. pp. 663–670. ISBN 1-55860-707-2. https://ai.stanford.edu/~ang/papers/icml00-irl.pdf 
  46. ^ García, Javier; Fernández, Fernando (1 January 2015). “A comprehensive survey on safe reinforcement learning”. The Journal of Machine Learning Research 16 (1): 1437–1480. https://jmlr.org/papers/volume16/garcia15a/garcia15a.pdf. 

推薦すいせん文献ぶんけん

編集へんしゅう

外部がいぶリンク

編集へんしゅう