強化きょうか学習がくしゅう

強化きょうか学習がくしゅう（きょうかがくしゅう、英えい: reinforcement learning、RL）は、ある環境かんきょう内ないにおける知的ちてきエージェントが、現在げんざいの状態じょうたいを観測かんそくし、得えられる収益しゅうえき（累積るいせき報酬ほうしゅう）を最大さいだい化かするために、どのような行動こうどうをとるべきかを決定けっていする機械きかい学習がくしゅうの一いち分野ぶんやである。強化きょうか学習がくしゅうは、教師きょうしあり学習がくしゅう、教師きょうしなし学習がくしゅうと並ならんで、3つの基本きほん的てきな機械きかい学習がくしゅうパラダイムの一ひとつである。

強化きょうか学習がくしゅうが教師きょうしあり学習がくしゅうと異ことなる点てんは、ラベル付つきの入力にゅうりょく／出力しゅつりょくの組くみを提示ていじする必要ひつようがなく、最適さいてきでない行動こうどうを明示めいじ的てきに修正しゅうせいする必要ひつようもない。その代かわり、未知みちの領域りょういきの探索たんさくと、現在げんざいの知識ちしきの活用かつようの間あいだのバランスを見みつけることに重点じゅうてんが置おかれる^[1]。

この文脈ぶんみゃくの強化きょうか学習がくしゅうアルゴリズムの多おおくは動的どうてき計画けいかく法ほうを使用しようするため、この環境かんきょうは通常つうじょうマルコフ決定けってい過程かてい（MDP）として定式ていしき化かされる^[2]。古典こてん的てきな動的どうてき計画けいかく法ほうと強化きょうか学習がくしゅうアルゴリズムとの主おもな違ちがいは、後者こうしゃはMDPの正確せいかくな数学すうがく的てきモデルの知識ちしきを必要ひつようとせず、正確せいかくな方法ほうほうでは実行じっこう不可能ふかのうな大だい規模きぼMDPを対象たいしょうにできることである。代表だいひょう的てきなアルゴリズムとして時間じかん差分さぶん学習がくしゅう（TD学習がくしゅう）やQ学習がくしゅうが知しられている。

導入どうにゅう

強化きょうか学習がくしゅうシナリオの典型てんけい的てきな構成こうせい: エージェントは環境かんきょう内ないで行動こうどうをおこし、それは報酬ほうしゅうや状態じょうたいの表現ひょうげんに解釈かいしゃくされ、エージェントにフィードバックされる。

強化きょうか学習がくしゅうはその一般いっぱん性せいから、ゲーム理論りろん、制御せいぎょ理論りろん、オペレーションズ・リサーチ、情報じょうほう理論りろん、シミュレーションに基もとづく最適さいてき化か（英語えいご版ばん）、マルチエージェントシステム、群ぐん知能ちのう、統計とうけい学がくなど、多おおくの分野ぶんやで研究けんきゅうされている。オペレーションズ・リサーチや制御せいぎょの文献ぶんけんでは、強化きょうか学習がくしゅうは近似きんじ動的どうてき計画けいかく法ほう（approximate dynamic programming）あるいはニューロダイナミック・プログラミング（neuro-dynamic programming）と呼よばれている。強化きょうか学習がくしゅうの問題もんだいは最適さいてき制御せいぎょ理論りろんでも研究けんきゅうされており、主おもに最適さいてき解かいの存在そんざいと特徴とくちょうづけや、その厳密げんみつな計算けいさんのためのアルゴリズムを対象たいしょうするが、（特とくに環境かんきょうの数学すうがく的てきモデルがない場合ばあいの）学習がくしゅうや近似きんじへの関心かんしんは高たかくない。また、経済けいざい学がくやゲーム理論りろんでは、限定げんてい合理ごうり性せいのもとで均衡きんこうがどのように生しょうじるかを説明せつめいするために、強化きょうか学習がくしゅうが用もちいられることがある。

基本きほん的てきな強化きょうか学習がくしゅうは、マルコフ決定けってい過程かてい（Markov decision process、MDP）としてモデル化かされる。

${\mathcal {S}}$ ：環境かんきょうとエージェントの状態じょうたいの集合しゅうごう
${\mathcal {A}}$ ：エージェントの行動こうどうの集合しゅうごう
$P_{a}(s,s')=\Pr(S_{t+1}=s'\mid S_{t}=s,A_{t}=a)$ ：状態じょうたい $s$ から行動こうどう $a$ にて状態じょうたい $s'$ に遷移せんいする確かく率りつ
$R_{a}(s,s')$ ：行動こうどう $a$ で状態じょうたい $s$ から状態じょうたい $s'$ に遷移せんいした後のちの即時そくじ報酬ほうしゅう（immediate reward）

強化きょうか学習がくしゅうの目標もくひょうは、エージェントが、即時そくじ報酬ほうしゅうから蓄積ちくせきされる報酬ほうしゅう関数かんすう（reward function）または他たのユーザ提供ていきょうの強化きょうか信号しんごうを最大さいだい化かするような、最適さいてきまたは最適さいてきに近ちかい方策ほうさくを学習がくしゅうすることである。これは、動物どうぶつ心理しんり学がくで起おこっていると思おもわれるプロセスに似にている。たとえば、生物せいぶつの脳のうは、痛いたみや空腹くうふくなどの信号しんごうを負まけの強化きょうか、喜よろこびや食物しょくもつ摂取せっしゅを正せいの強化きょうかとして解釈かいしゃくするように配線はいせん（hardwired）されている。いくつかの状況じょうきょうでは、動物どうぶつはこれらの報酬ほうしゅうを最適さいてき化かするような行動こうどうを学習がくしゅうすることができる。このことは、動物どうぶつは強化きょうか学習がくしゅうが可能かのうであることを示唆しさしている^[3]^[4]。

基本きほん的てきな強化きょうか学習がくしゅうエージェント型がた人工じんこう知能ちのう（AI）は、離散りさん的てきな時間じかんステップで環境かんきょうと相互そうご作用さようを行おこなう。各かく時刻じこく $t$ において、エージェントは現在げんざいの状態じょうたい $S_{t}$ と報酬ほうしゅう $R_{t}$ を受うけ取とる。次つぎに選択せんたく可能かのうな行動こうどうの集合しゅうごうから、1つの行動こうどう $A_{t}$ を選択せんたくし、それを環境かんきょうに送信そうしんする。環境かんきょうは新あたらしい状態じょうたい $S_{t+1}$ に移動いどうし、遷移せんい（transition） $(S_{t},A_{t},S_{t+1})$ に関連付かんれんづけられる報酬ほうしゅう $R_{t+1}$ が決定けっていされる。強化きょうか学習がくしゅうエージェントの目標もくひょうは、期待きたい累積るいせき報酬ほうしゅうを最大さいだい化かする方策ほうさく $\pi :{\mathcal {S}}\times {\mathcal {A}}\rightarrow [0,1]$ , $\pi (s,a)=\Pr(A_{t}=a\mid S_{t}=s)$ を学習がくしゅうすることである。

この問題もんだいをMDPとして定式ていしき化かすると、エージェントが環境かんきょうの現在げんざいの状態じょうたいを直接ちょくせつ観測かんそくすることを仮定かていし、この場合ばあい、問題もんだいは完全かんぜん観測かんそく可能かのう（full observability）であると言いう。しかし、エージェントが一部いちぶの状態じょうたいしか観測かんそくできない場合ばあい、あるいは観測かんそくされた状態じょうたいがノイズによって破損はそんしている場合ばあい、エージェントは部分ぶぶん観測かんそく可能かのう（partial observability）であると呼よばれ、正式せいしきにはその問題もんだいを部分ぶぶん観測かんそく可能かのうマルコフ決定けってい過程かてい（partially observable Markov decision process）として定式ていしき化かしなければならない。どちらの場合ばあいも、エージェントが使用しようできる行動こうどうの集合しゅうごうは制限せいげんを受うける可能かのう性せいがある。たとえば、口座こうざ残高ざんだかの状態じょうたいが正せいである制約せいやくを課かすことができる。状態じょうたいの現在げんざい値ちが3で、状態じょうたい遷移せんいが値ねを4だけ減へらそうと試こころみた場合ばあい、その遷移せんいは許可きょかされない。

あるエージェントの性能せいのうを、最適さいてきに行動こうどうしている別べつのエージェントの性能せいのうと比較ひかくすると、その差さからリグレット（英語えいご版ばん）（regret、後悔こうかい）という概念がいねんが生しょうじる。最適さいてきな行動こうどうに近ちかづくために、たとえ即時そくじ報酬ほうしゅうは負まけであっても、エージェントはその行動こうどうの長期ちょうき的てきな結果けっか（すなわち将来しょうらいの収益しゅうえきの最大さいだい化か）について考かんがえなければならない。

したがって、強化きょうか学習がくしゅうは、長期ちょうき的てきな報酬ほうしゅうと短期たんき的てきな報酬ほうしゅうのトレードオフを伴ともなう問題もんだいに特とくに適てきしている。強化きょうか学習がくしゅうは、ロボット制御せいぎょ（英語えいご版ばん）^[5]、エレベーターのスケジューリング、電気でんき通信つうしん、バックギャモン、チェッカー^[6]、囲碁いご（AlphaGo）など、さまざまな問題もんだいへの応用おうように成功せいこうしている。

強化きょうか学習がくしゅうを強力きょうりょくなものにしている2つの要素ようそとして、性能せいのうを最適さいてき化かするためのサンプルの使用しようと、大だい規模きぼな環境かんきょうに対処たいしょするための関数かんすう近似きんじの使用しようがあげられる。この2つの重要じゅうような要素ようそにより、強化きょうか学習がくしゅうは次つぎのような状況じょうきょう下かで、大だい規模きぼ環境かんきょうに適用てきようすることができる。

環境かんきょうのモデルはわかっているが、解析かいせき解かい（英語えいご版ばん）が得えられない。
環境かんきょうのシミュレーションモデルだけが与あたえられている（シミュレーションに基もとづく最適さいてき化か（英語えいご版ばん）の対象たいしょう^[7]）。
環境かんきょうに関かんする情報じょうほうを収集しゅうしゅうする唯一ゆいいつの方法ほうほうは、環境かんきょうと対話たいわすることである。

これらの問題もんだいのうち、最初さいしょの2つは計画けいかく問題もんだいであり（何なんらかの形かたちのモデルが利用りよう可能かのうであるため）、最後さいごの1つは真しんの学習がくしゅう問題もんだいであると考かんがえることができる。ただし、強化きょうか学習がくしゅうはどちらの計画けいかく問題もんだいも機械きかい学習がくしゅう問題もんだいに変換へんかんする。

探索たんさく

探索たんさく（exploration）と活用かつよう（exploitation）のトレードオフは、多た腕うでバンディット問題もんだいや、Burnetas and Katehakis（1997）の有限ゆうげん状態じょうたい空間くうかんMDPの研究けんきゅうを通つうじて、最もっとも詳細しょうさいに研究けんきゅうされてきた^[8]。

強化きょうか学習がくしゅうには巧妙こうみょうな探索たんさく機構きこうが不可欠ふかけつであり、推定すいていされた確かく率りつ分布ぶんぷを参照さんしょうせず、ランダムに行動こうどうを選択せんたくすればその性能せいのうは低下ていかする。（小規模しょうきぼな）有限ゆうげんMDPについては、比較的ひかくてきよく理解りかいされている。しかし、状態じょうたい数すうに応おうじてうまくスケールする（あるいは状態じょうたい空間くうかんが無限むげんの問題もんだいでも対応たいおうする）アルゴリズムがないため、単純たんじゅんな探索たんさく方法ほうほうが最もっとも実用じつよう的てきとなる。

そのような方法ほうほうの一ひとつが $\varepsilon$ -貪欲どんよく法ほう（イプシロンどんよくほう、 $\varepsilon$ -greedy）で、 $0<\varepsilon <1$ は探索たんさくと活用かつようの量りょうを制御せいぎょするパラメータである。確かく率りつ $1-\varepsilon$ で活用かつようが選択せんたくされ、エージェントは長期ちょうき的てきに最もっとも効果こうかがあると思おもわれる行動こうどうを選択せんたくする（行動こうどう間あいだの関係かんけいは無作為むさくいに解消かいしょうされる）。あるいは、確かく率りつ $\varepsilon$ で探索たんさくが選択せんたくされ、行動こうどうは無作為むさくいに選択せんたくされる。通常つうじょう、 $\varepsilon$ は固定こていパラメータであるが、スケジュールに従したがったり（エージェントが探索たんさくを徐々じょじょに少すくなくする）、またはヒューリスティック（経験けいけん則そく）に基もとづいて適応てきおう的てきに調整ちょうせいすることもできる^[9]。

制御せいぎょ学習がくしゅうアルゴリズム

たとえ探索たんさくの問題もんだいを無視むしして、状態じょうたいが観測かんそく可能かのうであっても（以下いかは仮定かてい）、過去かこの経験けいけんを使用しようして、どの行動こうどうがより高たかい累積るいせき報酬ほうしゅうにつながるかを見みつけ出だすという問題もんだいが残のこされる。

最適さいてき性せいの基準きじゅん

方策ほうさく

エージェントの行動こうどう（action）の選択せんたくは、方策ほうさく（policy）と呼よばれる写像しゃぞうとしてモデル化かすることができる。

\pi :{\mathcal {S}}\times {\mathcal {A}}\rightarrow [0,1]

\pi (s,a)=\Pr(A_{t}=a\mid S_{t}=s)

方策ほうさくの写像しゃぞうは、状態じょうたい $s$ において行動こうどう $a$ を選択せんたくする確かく率りつを与あたえる^[10]^:61。決定けってい論ろん的てきな方策ほうさく（全すべての確かく率りつが 0 または 1）を考かんがえても良よい。

状態じょうたい価値かち関数かんすう

状態じょうたい価値かち関数かんすう（state-value function） $V_{\pi }(s)$ は、状態じょうたい $s$ 、すなわち $S_{0}=s$ から出発しゅっぱつして、方策ほうさく $\pi$ に連続れんぞくして従したがう場合ばあいの期待きたい割引わりびき収益しゅうえき（expected discounted return）と定義ていぎされる。したがって、大おおまかに言いえば、状態じょうたい価値かち関数かんすうは、ある状態じょうたいにあることが「どれくらい良よいか」を推定すいていするものである^[10]^:60。

V_{\pi }(s)=\operatorname {\mathbb {E} } [G\mid S_{0}=s]=\operatorname {\mathbb {E} } \left[\sum _{t=0}^{\infty }\gamma ^{t}R_{t+1}\mid S_{0}=s\right],

ここで、確かく率りつ変数へんすう $G$ は割引わりびき収益しゅうえき（discounted return）を表あらわし、報酬ほうしゅう（reward）に割引わりびき率りつ（discount rate） $\gamma$ を乗じょうじた将来しょうらいの割引わりびき報酬ほうしゅう（discounted reward）の和わとして定義ていぎされる。

G=\sum _{t=0}^{\infty }\gamma ^{t}R_{t+1}=R_{1}+\gamma R_{2}+\gamma ^{2}R_{3}+\dots

ここで、報酬ほうしゅう $R_{t+1}$ は状態じょうたい $S_{t}$ から $S_{t+1}$ に遷移せんいした際さいの報酬ほうしゅうである。割引わりびき率りつは $0<\gamma <1$ に設定せっていされ、遠とおい未来みらいの報酬ほうしゅうほど重おもみ付づけは小ちいさくなる。割引わりびき率りつの考かんがえ方かたは経済けいざい学がくでも使つかわれている。

アルゴリズムは、期待きたい割引わりびき収益しゅうえきが最大さいだいになるような方策ほうさくを見みつける必要ひつようがある。MDPの理論りろんから、一般いっぱん性せいを損そこなうことなく、探索たんさくをいわゆる「定常ていじょう方策ほうさく」（stationary policies）の集合しゅうごうに限定げんていできることが知しられている。ある方策ほうさくが返かえす行動こうどう分布ぶんぷが、（観察かんさつしているエージェントの履歴りれきから）最後さいごに訪おとずれた状態じょうたいにのみ依存いぞんする場合ばあい、その方策ほうさくは「定常ていじょう的てき」（stationary）である。探索たんさくはさらに決定けってい論ろん的てきな定常ていじょう方策ほうさくに限定げんていされることがある。「決定けってい論ろん的てき定常ていじょう方策ほうさく」（deterministic stationary policy）は、現在げんざいの状態じょうたいに基もとづいて「決定けってい論ろん的てき」に行動こうどうを選択せんたくする。このような方策ほうさくは、状態じょうたいの集合しゅうごうから行動こうどうの集合しゅうごうへのマッピングとして識別しきべつできるので、一般いっぱん性せいを損そこなうことなく、これらの方策ほうさくはこのようなマッピングと識別しきべつすることができる。

総そう当あたり法ほう

総そう当あたり法ほう（brute force method、力ちからまかせ探索たんさく）は、次つぎの2つの段階だんかいを伴ともなう。

可能かのう性せいのある各かく方策ほうさくについて、それに従したがった場合ばあいの収益しゅうえきをサンプリングする
期待きたい収益しゅうえきが最大さいだいの方策ほうさくを選択せんたくする

この場合ばあいの問題もんだいの一ひとつは、方策ほうさく数すうが増大ぞうだいする、あるいは無限むげん大だいになる可能かのう性せいである。また、収益しゅうえきの分散ぶんさんが大おおきい場合ばあい、各かく方策ほうさくの収益しゅうえきを正確せいかくに推定すいていするために多おおくのサンプルが必要ひつようになることもある。

これらの問題もんだいは、何なんらかの構造こうぞうを仮定かていし、ある方策ほうさくから生成せいせいされたサンプルが他たの方策ほうさくの推定すいていに影響えいきょうを与あたえるようにすることで改善かいぜんすることができる。これを実現じつげんするための2つな主要しゅような手法しゅほうは、価値かち関数かんすう推定すいていと直接ちょくせつ方策ほうさく探索たんさくである。

価値かち関数かんすう法ほう

→「価値かち関数かんすう（英語えいご版ばん）」も参照さんしょう

価値かち関数かんすう法ほう（value function methods）は、ある方策ほうさく（通常つうじょうは「現行げんこう」（on-policy、方策ほうさく内ない）または「最適さいてき」（方策ほうさく外がい、off-policy）のいずれか）に対たいする期待きたい収益しゅうえきの推定すいてい値ちの集合しゅうごうを維持いじすることにより、収益しゅうえきを最大さいだい化かする方策ほうさくを見みつけ出だそうとするものである。

これらの方法ほうほうはマルコフ決定けってい過程かていの理論りろんに基もとづいており、最適さいてき性せいは前述ぜんじゅつしたよりも強つよい意味いみで定義ていぎされている。方策ほうさくは、どのような初期しょき状態じょうたいからでも最大さいだいの期待きたい収益しゅうえきを達成たっせいする場合ばあい、最適さいてきであると呼よばれる（つまり、この定義ていぎにおいて初期しょき分布ぶんぷは何なんの役割やくわりも果はたさない）。繰くり返かえすが、最適さいてき方策ほうさくは常つねに定常ていじょう方策ほうさくの中なかから見出みいだすことができる。

最適さいてき性せいを正式せいしきに定義ていぎするために、方策ほうさく $\pi$ の下したでの状態じょうたい価値かち（state-value）を、

V^{\pi }(s)=\operatorname {\mathbb {E} } [G\mid s,\pi ]

で定義ていぎする。ここで、 $G$ は初期しょき状態じょうたい $s$ から $\pi$ に従したがうことに伴ともなう割引わりびき収益しゅうえきを表あらわす。また、 $\pi$ が変更へんこうしうる場合ばあい、 $V^{\pi }(s)$ の最大さいだい可能かのう値ちとして $V^{*}(s)$ を定義ていぎすると、

V^{*}(s)=\max _{\pi }V^{\pi }(s)

となる。

すべての状態じょうたいにおいて、これらの最適さいてき値ちを達成たっせいする方策ほうさくを最適さいてき（optimal）と呼よぶ。この強つよい意味いみで最適さいてきな方策ほうさくは、期待きたい割引わりびき収益しゅうえき $\rho ^{\pi }=\mathbb {E} [V^{\pi }(s)]$ を最大さいだい化かするという意味いみでも「最適さいてき」であることは明あきらかである。ここで、 $s$ は初期しょき状態じょうたいの分布ぶんぷ $\mu$ からランダムにサンプリングした状態じょうたい（したがって $\mu (s)=\Pr(S_{0}=s)$ ）である。

最適さいてき性せいを定義ていぎするには状態じょうたい価値かちで十分じゅうぶんだが、行動こうどう価値かち（action-value）を定義ていぎしておくと有用ゆうようである。状態じょうたい $s$ 、行動こうどう $a$ 、方策ほうさく $\pi$ が与あたえられたとき、 $\pi$ の下したでの状態じょうたい-行動こうどうペア $(s,a)$ の行動こうどう価値かちは、

Q^{\pi }(s,a)=\operatorname {\mathbb {E} } [G\mid s,a,\pi ],\,

で定義ていぎされる。ここで $G$ は、状態じょうたい $s$ で最初さいしょに行動こうどう $a$ を取とり、その後ご $\pi$ に従したがっているときの割引わりびき収益しゅうえきを表あらわしている。

MDPの理論りろんでは、 $\pi ^{*}$ が最適さいてき方策ほうさくであれば、 $Q^{\pi ^{*}}(s,\cdot )$ から各かく状態じょうたい $s$ で最もっとも行動こうどう価値かちの高たかい行動こうどうを選択せんたくすることで最適さいてきに行動こうどうする（最適さいてき行動こうどうを取とる）とされている。このような最適さいてき方策ほうさく（ $Q^{\pi ^{*}}$ ）の行動こうどう価値かち関数かんすう（action-value function）を最適さいてき行動こうどう価値かち関数かんすう（optimal action-value function）といい、一般いっぱんに $Q^{*}$ と表あらわす。要約ようやくすると、最適さいてき行動こうどう価値かち関数かんすうを知しっていれば、最適さいてきな行動こうどう方法ほうほうを知しることができる。

MDPの完全かんぜんな知識ちしきを前提ぜんていとすると、最適さいてきな行動こうどう価値かち関数かんすうを計算けいさんするための2つの基本きほん的てきな手法しゅほうは、価値かち反復はんぷく法ほうと方策ほうさく反復はんぷく法ほうである。どちらのアルゴリズムも、 $Q^{*}$ に収束しゅうそくする一連いちれんの関数かんすう $Q_{k}$ ( $k=0,1,2,\ldots$ ) を計算けいさんする。これらの関数かんすうを計算けいさんするには、状態じょうたい空間くうかん全体ぜんたいに対たいする期待きたい行動こうどう価値かちを計算けいさんする必要ひつようがあるが、これは最小さいしょうの（有限ゆうげんの）MDPを除のぞいては非ひ現実げんじつ的てきである。強化きょうか学習がくしゅう法ほうでは、大おおきな状態じょうたい行動こうどう空間くうかん上じょうの行動こうどう価値かち関数かんすうを表現ひょうげんする必要ひつよう性せいに対処たいしょするために、サンプルの平均へいきん化かや関数かんすう近似きんじの手法しゅほうを使用しようして期待きたい値ちを近似きんじする。

モンテカルロ法ほう

モンテカルロ法ほう（Monte Carlo methods）は、方策ほうさく反復はんぷく法ほうを模倣もほうしたアルゴリズムに使用しようすることができる。方策ほうさく反復はんぷく法ほうは、方策ほうさくの評価ひょうか（policy evaluation）と方策ほうさくの改善かいぜん（policy improvement）という2つの段階だんかいから構成こうせいされる。モンテカルロ法ほうは、方策ほうさく評価ひょうか段階だんかいで使用しようされる。この段階だんかいでの目標もくひょうは、定常ていじょう的てきで決定けってい論ろん的てきな方策ほうさく $\pi$ が与あたえられたとき、すべての状態じょうたい-行動こうどうペア $(s,a)$ に対たいする関数かんすう値ち $Q^{\pi }(s,a)$ （またはその適切てきせつな近似きんじ）を計算けいさんすることである。ここでは簡単かんたんにするために、MDPは有限ゆうげんであり、行動こうどう価値かちを収容しゅうようするのに十分じゅうぶんなメモリがあり、問題もんだいは偶発ぐうはつ的てき（英えい: episodic）で、各かく出来事できごとの後のちにランダムな初期しょき状態じょうたいから新あたらしい出来事できごとが始はじまると仮定かていする。そして、与あたえられた状態じょうたい-行動こうどうペア $(s,a)$ の行動こうどう価値かちの推定すいてい値ちは、 $(s,a)$ からサンプリングされた収益しゅうえきを時間じかん経過けいかとともに平均へいきん化かすることによって計算けいさんすることができる。十分じゅうぶんな時間じかんがあれば、この手順てじゅんにより、行動こうどう価値かち関数かんすう $Q^{\pi }$ の正確せいかくな推定すいてい値ち $Q$ を構築こうちくすることができる。これで、方策ほうさく評価ひょうか段階だんかいの説明せつめいを終了しゅうりょうする。

方策ほうさく改善かいぜん段階だんかいでは、 $Q$ に関かんする貪欲どんよくな方策ほうさく（greedy policy）を計算けいさんすることにより次つぎの方策ほうさくを得える。状態じょうたい $s$ が与あたえられたとき、この新あたらしい方策ほうさくは $Q(s,\cdot )$ を最大さいだい化かする一ひとつの行動こうどうを返かえす。実際じっさいには、遅延ちえん評価ひょうかによって、最大さいだい化か行動こうどうの計算けいさんを必要ひつようなときまで先送さきおくりすることができる。

この手法しゅほうの問題もんだいを次つぎにあげる。

最適さいてきでない方策ほうさくを評価ひょうかするのに時間じかんがかかりすぎる場合ばあいがある。
サンプリングが非ひ効率こうりつ的てきに行おこなわれる（長ながい軌跡きせきが、軌跡きせきを開始かいしした単一たんいつの状態じょうたい-行動こうどうペアの推定すいてい値ちを改善かいぜんするだけである）
軌跡きせき上じょうの収益しゅうえきが高こう分散ぶんさん（high variance）である場合ばあい、収束しゅうそくが遅おそくなる。
偶発ぐうはつ的てき問題もんだい（episodic problems）に対たいしてのみ有効ゆうこうである。
小規模しょうきぼで有限ゆうげんなMDPでしか使つかえない。

以降いこうの小節しょうせつでは、それぞれの問題もんだいについてさらに議論ぎろんする。

時間じかん差分さぶん法ほう

最初さいしょの問題もんだいは、価値かちが収おさまる前まえに（一部いちぶまたは全すべての状態じょうたいで）手順てじゅんが方策ほうさくを変更へんこうできるようにすることによって対応たいおうできる。ただし収束しゅうそくを妨さまたげて問題もんだいとなる可能かのう性せいもある。現在げんざいのほとんどのアルゴリズムではこれを行おこない、一般いっぱん化か方策ほうさく反復はんぷく（generalized policy iteration）という種類しゅるいのアルゴリズムを作つくり出だすことができる。多おおくのアクター・クリティック法ほう（actor-critic methods）はこの範疇はんちゅう（はんちゅう）に属ぞくする。

2番目ばんめの問題もんだいは、軌跡きせきがその中なかの任意にんいの状態じょうたい-行動こうどうペアに関与かんよできるようにすることで修正しゅうせいできる。これは3番目ばんめの問題もんだいにもある程度ていど有効ゆうこうであるが、収益しゅうえきの分散ぶんさんが高たかい場合ばあいのより優すぐれた解決かいけつ策さくは、再帰さいき的てきベルマン方程式ほうていしき（recursive Bellman equation）に基もとづくリチャード・サットンが命名めいめいした時間じかん差分さぶん学習がくしゅう（temporal difference learning、TD学習がくしゅう）である^[11]^[12]。

TD法ほうにおける計算けいさん法ほうには、インクリメンタル法ほう（各かく遷移せんい後ごにメモリを変更へんこうし、遷移せんいを破棄はきする）またはバッチ法ほう（遷移せんいをバッチ処理しょりし、バッチに基もとづいて推定すいてい値ちを一いち回かい計算けいさんする）がある。最小さいしょう二に乗じょう時間じかん差さ法ほう（least-squares temporal difference method）のようなバッチ法ほうは^[13]、サンプル内ないの情報じょうほうをより有効ゆうこうに利用りようできる可能かのう性せいがあるが、インクリメンタル法ほうは、バッチ法ほうが計算けいさん量りょうやメモリの複雑ふくざつ性せいの理由りゆうで実行じっこう不可能ふかのうな場合ばあいに選択せんたくされる唯一ゆいいつの方法ほうほうとなる。この2つの方法ほうほうを組くみ合あわせる手法しゅほうもある。時間じかん差分さぶんに基もとづく方法ほうほうは、4番目ばんめの問題もんだいも克服こくふくしている。

TDに特有とくゆうのもう一ひとつの問題もんだいは、再帰さいき的てきなベルマン方程式ほうていしきへの依存いぞんに起因きいんしている。ほとんどのTD法ほうには、いわゆる $\lambda$ （ラムダ）パラメータ $(0\leq \lambda \leq 1)$ があり、ベルマン方程式ほうていしきに依存いぞんしないモンテカルロ法ほうと、ベルマン方程式ほうていしきに完全かんぜんに依存いぞんする基本きほん的てきなTD法ほうの間あいだを、連続れんぞく的てきに補間ほかんすることができる。これにより、この問題もんだいを効果こうか的てきに緩和かんわすることができる。

関数かんすう近似きんじ法ほう

5番目ばんめの課題かだいを解決かいけつするために、関数かんすう近似きんじ法ほう（function approximation methods）が提案ていあんされている。線形せんけい関数かんすう近似きんじ（linear function approximation）は、各かく状態じょうたい-行動こうどうペアに有限ゆうげん次元じげんベクトルを割わり当あてるマッピング $\phi$ から始はじまる。そして、状態じょうたい-行動こうどうペア $(s,a)$ の行動こうどう価値かち（action-value）は、 $\phi (s,a)$ の成分せいぶんを何なんらかの重おもみ $\theta$ で線形せんけい結合けつごうすることによって得えられる。

Q(s,a)=\sum _{i=1}^{d}\theta _{i}\phi _{i}(s,a)

その後ご、アルゴリズムは、各かく状態じょうたい-行動こうどうペアに関連かんれんする値ねではなく、重おもみを調整ちょうせいする。ノンパラメトリック統計とうけい学がくの考かんがえ方かたに基もとづく方法ほうほう（独自どくじの特徴とくちょうを構築こうちくすることが見みられる）が探究たんきゅうされている。

また、値ねの反復はんぷくを出発しゅっぱつ点てんとして、Q学習がくしゅうアルゴリズム（Q-learning algorithm）とその多おおくのバリエーションを作成さくせいすることができる^[14]。行動こうどう価値かち関数かんすうQを表現ひょうげんするためにニューラルネットワークを使用しようするディープQ学習がくしゅう法ほうを含ふくめ、確かく率りつ的てき探索たんさく問題もんだいへのさまざまな応用おうようができる^[15]。

行動こうどう価値かちを用もちいる場合ばあいの問題もんだいは、競合きょうごうする行動こうどう価値かちを高こう精度せいどに推定すいていする必要ひつようであることになる可能かのう性せいがあることで、収益しゅうえきにノイズが多おおい場合ばあいには取得しゅとくするのが難むずかしい場合ばあいがあるが、この問題もんだいは時間じかん差さ法ほうによってある程度ていど軽減けいげんされる。いわゆる互換ごかん関数かんすう近似きんじ法ほう（compatible function approximation method）を使用しようすると、一般いっぱん性せいと効率こうりつ性せいが損そこなわれる。

直接ちょくせつ方策ほうさく探索たんさく

別べつの方法ほうほうとして、方策ほうさく空間くうかん（その何なんらかの部分ぶぶん集合しゅうごう）を直接ちょくせつ探索たんさくする方法ほうほうがあり、この場合ばあい、問題もんだいは確かく率りつ的てき最適さいてき化か（英語えいご版ばん）の一ひとつとなる。利用りよう可能かのうな2つの方法ほうほうとして、勾配こうばいを用もちいる方法ほうほうと、勾配こうばいを用もちいない方法ほうほうがある。

勾配こうばい法ほうを使用しようする手法しゅほうは方策ほうさく勾配こうばい法ほう（policy gradient method）と呼よばれる。有限ゆうげん次元じげん（パラメータ）空間くうかんから方策ほうさく空間くうかんへのマッピングを行おこない、パラメータベクトル $\theta$ が与あたえられたとき、 $\theta$ に対応たいおうする方策ほうさくを $\pi _{\theta }$ とする。評価ひょうか関数かんすうを $\rho (\theta )=\rho ^{\pi _{\theta }}$ と定義ていぎすると、この関数かんすうは穏おだやかな条件下じょうけんかではパラメータベクトル $\theta$ の関数かんすうとして微分びぶん可能かのうになる。もし $\rho$ の勾配こうばいがわかっていれば、最さい急降下きゅうこうか法ほうを使つかうことができる。勾配こうばいの解析かいせき解かいが分わからないため、ノイズを含ふくんだ推定すいてい値ちしか利用りようできない^[16]。このような推定すいてい値ちはさまざまな方法ほうほうで構築こうちくすることができ、ウィリアムズのREINFORCE法ほう（シミュレーションベース最適さいてき化か（英語えいご版ばん）の文献ぶんけんでは尤ゆう度ど比ひ法ほうとして知しられている）のようなアルゴリズムで作成さくせいすることもできる^[17]。

勾配こうばいを用もちいない方法ほうほうも、多おおくの種類しゅるいがある。たとえば、シミュレーティドアニーリング、クロスエントロピー探索たんさく（英語えいご版ばん）、または進化しんか的てき計算けいさんの手法しゅほうなどがある。多おおくの勾配こうばいを用もちいない手法しゅほうは、（理論りろん的てきにも極限きょくげん的てきにも）大域たいいき的てきな最適さいてき解かいに到達とうたつすることができる。

ノイズの多おおいデータでは、方策ほうさくの収束しゅうそくが遅おそくなることがある。こうしたことは、たとえば、軌跡きせきが長ながくリターンの分散ぶんさんが大おおきい偶発ぐうはつ的てき問題もんだいで起おこる。このような場合ばあい、時間じかん差分さぶん法ほうに依存いぞんする価値かち関数かんすうに基もとづく手法しゅほうが役立やくだつ可能かのう性せいがある。近年きんねんでは、1970年代ねんだいから存在そんざいしていたアクター・クリティック法ほう（actor-critic method）を改良かいりょうする方法ほうほうが提案ていあんされ、さまざまな問題もんだいで良よい結果けっかを出だしている^[18]。

方策ほうさく探索たんさく法ほうは、ロボット工学こうがくの文脈ぶんみゃくでも使用しようされている^[19]。多おおくの方策ほうさく探索たんさく法ほうは、局所きょくしょ探索たんさくに基もとづいているため、局所きょくしょ最適さいてきに陥おちいることがある。

モデルベース・アルゴリズム

最後さいごに、上記じょうきの方法ほうほうはみな、初はじめにモデルを訓練くんれんするアルゴリズムと組くみ合あわせることができる。たとえば、Dynaアルゴリズムは経験けいけんからモデルを訓練くんれんし、実際じっさいの遷移せんいに加くわえて、よりモデル化かされた遷移せんいを価値かち関数かんすうに与あたえることができる^[20]。このような方法ほうほうはノンパラメトリックモデルに拡張かくちょうできる場合ばあいがあり、たとえば、遷移せんいを単純たんじゅんに保存ほぞんして学習がくしゅうアルゴリズムに「再生さいせい」させるなどの方法ほうほうがある^[21]。

モデルの使用しようには価値かち関数かんすうを更新こうしんする以外いがいの方法ほうほうもある^[22]。たとえば、モデル予測よそく制御せいぎょ (en:英語えいご版ばん) では、モデルを用もちいて挙動きょどうを直接ちょくせつ更新こうしんする。

理論りろん

ほとんどのアルゴリズムの漸近ぜんきん的てき挙動きょどうと有限ゆうげん標本ひょうほん挙動きょどうの両方りょうほうがよく理解りかいされている。（探索たんさく問題もんだいに対処たいしょする）優すぐれたオンライン性能せいのうが証明しょうめいされたアルゴリズムも知しられている。

MDPの効率こうりつ的てきな探索たんさくについては、Burnetas and Katehakis（1997）で述のべられている^[8]。また、多おおくのアルゴリズムで有限ゆうげん時間じかん性能せいのうの限界げんかいが見みられるが、これらの限界げんかいはかなり緩ゆるいと予想よそうされるため、相対そうたい的てきな価値かちと限界げんかいをより深ふかく理解りかいするために、さらなる研究けんきゅうが必要ひつようである。

インクリメンタルアルゴリズムについては、漸近ぜんきん的てき収束しゅうそくの問題もんだいが解決かいけつされた^{[要よう説明せつめい]}。時間じかん差分さぶんに基もとづくアルゴリズムでは、従来じゅうらいよりも広ひろい条件じょうけんの下したで収束しゅうそくするようになった（たとえば、任意にんいの滑なめらかな関数かんすう近似きんじと併用へいようする場合ばあい）。

研究けんきゅう

研究けんきゅうテーマを次つぎに列挙れっきょする。

アクター・クリティック法ほう
少すくないパラメータでも多数たすうの条件下じょうけんかで動作どうさする適応てきおう的てき手法しゅほう
ソフトウェアプロジェクトにおけるバグ検出けんしゅつ
継続けいぞく的てきな学習がくしゅう^[23]
ロジックベースフレームワークとの組くみ合あわせ^[24]
大だい規模きぼMDPでの探索たんさく
人間にんげんのフィードバックからの強化きょうか学習がくしゅう^[25]
スキル獲得かくとくにおける暗黙あんもく知ちと明示めいじ知ちの相互そうご作用さよう
情報じょうほう探索たんさく-好奇心こうきしん型がた行動こうどうと、タスク依存いぞん型がた-目的もくてき指向しこう型がた行動こうどうとを区別くべつする内うち発はつ的てき動機付どうきずけ (人工じんこう知能ちのう)（英語えいご版ばん）の大だい規模きぼな経験けいけん的てき評価ひょうか
大おおきな（または連続れんぞく的てきな）行動こうどう空間くうかん
モジュール型がたおよび階層かいそう型がたな強化きょうか学習がくしゅう^[26]
マルチエージェント・分散ぶんさん型がた強化きょうか学習がくしゅうは、関心かんしんを集あつめて話題わだいで、応用おうようが拡大かくだいしている^[27]
乗員じょういん主体しゅたいの制御せいぎょ
コンピューティング資源しげんの最適さいてき化か^[28]^[29]^[30]
部分ぶぶん情報じょうほう（predictive state representation、POMDP）。たとえば予測よそく的てき状態じょうたい表現ひょうげん（英語えいご版ばん）（PSR）を使用しようする。
新規しんき情報じょうほうの最大さいだい化かすることに基もとづく報酬ほうしゅう関数かんすう^[31]^[32]^[33]
サンプルベースの計画けいかく（たとえばモンテカルロ木き探索たんさくに基もとづく）
証券しょうけん取引とりひき^[34]
転位てんい学習がくしゅう^[35]
脳のう内ないのドーパミンを利用りようした学習がくしゅうをモデル化かしたTD学習がくしゅう。黒くろ質しつ緻密ちみつ部ぶから大脳だいのう基底きてい核かくへのドーパミン作動さどう性せい投射とうしゃは予測よそく誤差ごさである。
価値かち関数かんすうと方策ほうさくの探索たんさく方法ほうほう

強化きょうか学習がくしゅうアルゴリズムの比較ひかく

アルゴリズム	説明せつめい	方策ほうさく	行動こうどう空間くうかん	状態じょうたい空間くうかん	演算えんざん
モンテカルロ法ほう	逐次ちくじ訪問ほうもんモンテカルロ法ほう	いずれでも	離散りさん	離散りさん	状態じょうたい価値かちもしくは行動こうどう価値かちのサンプル平均へいきん
TD学習がくしゅう	状態じょうたい-行動こうどう-報酬ほうしゅう-状態じょうたい	方策ほうさく外がい	離散りさん	離散りさん	状態じょうたい価値かち
Q学習がくしゅう	状態じょうたい-行動こうどう-報酬ほうしゅう-状態じょうたい	方策ほうさく外がい	離散りさん	離散りさん	行動こうどう価値かち
SARSA	状態じょうたい-行動こうどう-報酬ほうしゅう-状態じょうたい-行動こうどう	方策ほうさく内ない	離散りさん	離散りさん	行動こうどう価値かち
Q学習がくしゅう(λらむだ)	状態じょうたい-行動こうどう-報酬ほうしゅう-適格てきかく性せいトレースを含ふくむ状態じょうたい	方策ほうさく外がい	離散りさん	離散りさん	行動こうどう価値かち
SARSA(λらむだ)	状態じょうたい-行動こうどう-報酬ほうしゅう-状態じょうたい-行動こうどうと適格てきかく性せいトレース	方策ほうさく内ない	離散りさん	離散りさん	行動こうどう価値かち
DQN	ディープQネットワーク	方策ほうさく外がい	離散りさん	連続れんぞく	行動こうどう価値かち
DDPG	ディープ決定けってい論ろん的てき方策ほうさく勾配こうばい	方策ほうさく外がい	連続れんぞく	連続れんぞく	行動こうどう価値かち
A3C	非同期ひどうきアドバンテージ・アクター・クリティック・アルゴリズム	方策ほうさく内ない	連続れんぞく	連続れんぞく	アドバンテージ (=行動こうどう価値かち - 状態じょうたい価値かち)
NAF	正規せいき化かアドバンテージ関数かんすうを使用しようしたQ学習がくしゅう	方策ほうさく外がい	連続れんぞく	連続れんぞく	アドバンテージ
TRPO	信頼しんらい領域りょういき方策ほうさく最適さいてき化か	方策ほうさく内ない	連続れんぞく	連続れんぞく	アドバンテージ
PPO（英語えいご版ばん）	近きん位い方策ほうさく最適さいてき化か	方策ほうさく内ない	連続れんぞく	連続れんぞく	アドバンテージ
TD3	ツイン遅延ちえんディープ決定けってい論ろん方策ほうさく勾配こうばい法ほう	方策ほうさく外がい	連続れんぞく	連続れんぞく	行動こうどう価値かち
SAC	ソフト・アクター・クリティック	方策ほうさく外がい	連続れんぞく	連続れんぞく	アドバンテージ

連想れんそう強化きょうか学習がくしゅう

連想れんそう強化きょうか学習がくしゅうタスク（associative reinforcement learning）は、確かく率りつ的てき学習がくしゅうオートマトンタスクと教師きょうしあり学習がくしゅうパターン分類ぶんるいタスクの側面そくめんをあわせ持もっている。連想れんそう強化きょうか学習がくしゅうタスクでは、学習がくしゅうシステムは閉へいループで環境かんきょうと相互そうご作用さようする^[36]。

深層しんそう強化きょうか学習がくしゅう

深層しんそう強化きょうか学習がくしゅう（deep reinforcement learning） (en:英語えいご版ばん) は、ディープニューラルネットワークを使用しようし、状態じょうたい空間くうかんを明示めいじ的てきに設計せっけいすることなく、強化きょうか学習がくしゅうを拡張かくちょうするものである^[37]。Google DeepMindによってAtari 2600のゲームの強化きょうか学習がくしゅうが研究けんきゅう（Deep Q-Network）されたことで、深層しんそう強化きょうか学習がくしゅうやエンドツーエンド強化きょうか学習がくしゅうが注目ちゅうもくされるようになった^[38]。

敵対てきたい的てき深層しんそう強化きょうか学習がくしゅう

敵対てきたい的てき深層しんそう強化きょうか学習がくしゅう（adversarial deep reinforcement learning）は、学習がくしゅうされた方策ほうさくの脆弱ぜいじゃく性せい（ぜいじゃくせい）に焦点しょうてんを当あてた強化きょうか学習がくしゅうの活発かっぱつな研究けんきゅう分野ぶんやである。この研究けんきゅう領域りょういきでは、当初とうしょ、強化きょうか学習がくしゅう方策ほうさくがわずかな敵対てきたい的てき操作そうさの影響えいきょうを受うけやすいことがいくつかの研究けんきゅうで示しめされていた^[39]^[40]^[41]。これらの脆弱ぜいじゃく性せいを克服こくふくするためにいくつか方法ほうほうが提案ていあんされているが、最新さいしんの研究けんきゅうでは、これらの提案ていあんされた解決かいけつ策さくは、深層しんそう強化きょうか学習がくしゅう方策ほうさくの現在げんざいの脆弱ぜいじゃく性せいを正確せいかくに表あらわすには程遠ほどとおいことが示しめされた^[42]。

ファジィ強化きょうか学習がくしゅう

強化きょうか学習がくしゅうにファジィ推論すいろんを導入どうにゅうすることで^[43]、連続れんぞく空間くうかんにおけるファジィルール（英語えいご版ばん）で状態じょうたい-行動こうどう価値かち関数かんすうを近似きんじすることが可能かのうになる。ファジィルールの IF - THEN 形式けいしきは、自然しぜん言語げんごに近ちかい形式けいしきで結果けっかを表現ひょうげんするのに適てきしている。ファジィルール補間ほかんによるファジィ強化きょうか学習がくしゅう（fuzzy reinforcement learning、FRL）への拡張かくちょうにより^[44]、サイズが縮小しゅくしょうされたスパース・ファジィ・ルールベースを使用しようして、基本きほんルール（最もっとも重要じゅうような状態じょうたい-行動こうどう価値かち）に重点じゅうてんを置おくことができるようになった。

逆ぎゃく強化きょうか学習がくしゅう

逆ぎゃく強化きょうか学習がくしゅう（inverse reinforcement learning、IRL）では報酬ほうしゅう関数かんすうが与あたえられない。その代かわり、専門せんもん家かが観察かんさつした行動こうどうから報酬ほうしゅう関数かんすうを推測すいそくする。このアイディアは観察かんさつされた行動こうどうを模倣もほうすることであり、多おおくの場合ばあい、最適さいてきまたは最適さいてきに近ちかい行動こうどうとなる^[45]。

安全あんぜんな強化きょうか学習がくしゅう

安全あんぜんな強化きょうか学習がくしゅう（safe reinforcement learning、SRL）とは、システムの訓練くんれんや配置はいちの過程かていで、その合理ごうり的てきな性能せいのうを確保かくほし安全あんぜん制約せいやくを尊重そんちょうすることが重要じゅうような問題もんだいにおいて、期待きたい収益しゅうえきを最大さいだい化かする方策ほうさくを学習がくしゅうする過程かていと定義ていぎすることができる^[46]。

参考さんこう項目こうもく

脚注きゃくちゅう

^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). “Reinforcement Learning: A Survey”. Journal of Artificial Intelligence Research 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. オリジナルの2001-11-20時点じてんにおけるアーカイブ。.
^ van Otterlo, M.; Wiering, M. (2012). Reinforcement learning and markov decision processes. Adaptation, Learning, and Optimization. 12. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6
^ Russell, Stuart J.; Norvig, Peter (2010). Artificial intelligence : a modern approach (Third ed.). Upper Saddle River, New Jersey. pp. 830, 831. ISBN 978-0-13-604259-4
^ Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 July 2012). “Neural Basis of Reinforcement Learning and Decision Making”. Annual Review of Neuroscience 35 (1): 287–308. doi:10.1146/annurev-neuro-062111-150512. PMC 3490621. PMID 22462543.
^ Xie, Zhaoming, et al. "ALLSTEPS: Curriculum‐driven Learning of Stepping Stone Skills." Computer Graphics Forum. Vol. 39. No. 8. 2020.
^ Sutton & Barto 1998, Chapter 11.
^ Gosavi, Abhijit (2003). Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Operations Research/Computer Science Interfaces Series. Springer. ISBN 978-1-4020-7454-7
^ ^a ^b Burnetas, Apostolos N.; Katehakis, Michael N. (1997), “Optimal adaptive policies for Markov Decision Processes”, Mathematics of Operations Research 22: 222–255, doi:10.1287/moor.22.1.222
^ Tokic, Michel; Palm, Günther (2011), “Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax”, KI 2011: Advances in Artificial Intelligence, Lecture Notes in Computer Science, 7006, Springer, pp. 335–346, ISBN 978-3-642-24455-1
^ ^a ^b “Reinforcement learning: An introduction”. 2023年ねん5月がつ12日にち閲覧えつらん。
^ Sutton, Richard S. (1984). Temporal Credit Assignment in Reinforcement Learning (PhD thesis). University of Massachusetts, Amherst, MA.
^ Sutton & Barto 1998, §6. Temporal-Difference Learning.
^ Bradtke, Steven J.; Barto, Andrew G. (1996). “Learning to predict by the method of temporal differences”. Machine Learning 22: 33–57. doi:10.1023/A:1018056104778.
^ Watkins, Christopher J.C.H. (1989). Learning from Delayed Rewards (PDF) (PhD thesis). King’s College, Cambridge, UK.
^ Matzliach, Barouch; Ben-Gal, Irad; Kagan, Evgeny (2022). “Detection of Static and Mobile Targets by an Autonomous Agent with Deep Q-Learning Abilities”. Entropy 24 (8): 1168. Bibcode: 2022Entrp..24.1168M. doi:10.3390/e24081168. PMC 9407070. PMID 36010832.
^ Williams, Ronald J. (1987). "A class of gradient-estimating algorithms for reinforcement learning in neural networks". Proceedings of the IEEE First International Conference on Neural Networks. CiteSeerX 10.1.1.129.8871。
^ Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). "Reinforcement Learning for Humanoid Robotics" (PDF). IEEE-RAS International Conference on Humanoid Robots.
^ Juliani, Arthur (2016年ねん12月17日にち). “Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)”. Medium. 2018年ねん2月がつ22日にち閲覧えつらん。
^ Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). A Survey on Policy Search for Robotics. Foundations and Trends in Robotics. 2. NOW Publishers. pp. 1–142. doi:10.1561/2300000021. hdl:10044/1/12051
^ Sutton, Richard (1990). "Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming". Machine Learning: Proceedings of the Seventh International Workshop.
^ Lin, Long-Ji (1992). "Self-improving reactive agents based on reinforcement learning, planning and teaching" (PDF). Machine Learning volume 8. doi:10.1007/BF00992699。
^ van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). "When to use parametric models in reinforcement learning?" (PDF). Advances in Neural Information Processing Systems 32.
^ “On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment” (英語えいご). cie.acm.org. 2018年ねん11月27日にち閲覧えつらん。
^ Riveret, Regis; Gao, Yang (2019). “A probabilistic argumentation framework for reinforcement learning agents” (英語えいご). Autonomous Agents and Multi-Agent Systems 33 (1–2): 216–274. doi:10.1007/s10458-019-09404-2.
^ Yamagata, Taku; McConville, Ryan; Santos-Rodriguez, Raul (16 November 2021). "Reinforcement Learning with Feedback from Multiple Humans with Diverse Skills". arXiv:2111.08596 [cs.LG]。
^ Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). “Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation”. Proceedings of the 30th International Conference on Neural Information Processing Systems. NIPS'16 (USA: Curran Associates Inc.): 3682–3690. arXiv:1604.06057. Bibcode: 2016arXiv160406057K. ISBN 978-1-5108-3881-9.
^ “Reinforcement Learning / Successes of Reinforcement Learning”. umichrl.pbworks.com. 2017年ねん8月がつ6日にち閲覧えつらん。
^ Quested, Tony. “Smartphones get smarter with Essex innovation”. Business Weekly. 2021年ねん6月がつ17日にち閲覧えつらん。
^ Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (March 2020). “User Interaction Aware Reinforcement Learning for Power and Thermal Efficiency of CPU-GPU Mobile MPSoCs”. 2020 Design, Automation Test in Europe Conference Exhibition (DATE): 1728–1733. doi:10.23919/DATE48585.2020.9116294. ISBN 978-3-9819263-4-7.
^ Williams, Rhiannon (2020年ねん7月がつ21日にち). “Future smartphones 'will prolong their own battery life by monitoring owners' behaviour'” (英語えいご). i. 2021年ねん6月がつ17日にち閲覧えつらん。
^ Kaplan, F.; Oudeyer, P. (2004). “Maximizing learning progress: an internal reward system for development”. In Iida, F.; Pfeifer, R.; Steels, L. et al.. Embodied Artificial Intelligence. Lecture Notes in Computer Science. 3139. Berlin; Heidelberg: Springer. pp. 259–270. doi:10.1007/978-3-540-27833-7_19. ISBN 978-3-540-22484-6
^ Klyubin, A.; Polani, D.; Nehaniv, C. (2008). “Keep your options open: an information-based driving principle for sensorimotor systems”. PLOS ONE 3 (12): e4018. Bibcode: 2008PLoSO...3.4018K. doi:10.1371/journal.pone.0004018. PMC 2607028. PMID 19107219.
^ Barto, A. G. (2013). “Intrinsic motivation and reinforcement learning”. Intrinsically Motivated Learning in Natural and Artificial Systems. Berlin; Heidelberg: Springer. pp. 17–47
^ Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). “Deep Execution - Value and Policy Based Reinforcement Learning for Trading and Beating Market Benchmarks”. The Journal of Machine Learning in Finance 1. SSRN 3374766.
^ George Karimpanal, Thommen; Bouffanais, Roland (2019). “Self-organizing maps for storage and transfer of knowledge in reinforcement learning” (英語えいご). Adaptive Behavior 27 (2): 111–126. arXiv:1811.08318. doi:10.1177/1059712318818568. ISSN 1059-7123.
^ Soucek, Branko (6 May 1992). Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series. John Wiley & Sons, Inc. p. 38. ISBN 0-471-55717-X
^ Francois-Lavet, Vincent (2018). “An Introduction to Deep Reinforcement Learning”. Foundations and Trends in Machine Learning 11 (3–4): 219–354. arXiv:1811.12560. Bibcode: 2018arXiv181112560F. doi:10.1561/2200000071.
^ Mnih, Volodymyr (2015). “Human-level control through deep reinforcement learning”. Nature 518 (7540): 529–533. Bibcode: 2015Natur.518..529M. doi:10.1038/nature14236. PMID 25719670.
^ Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). “Explaining and Harnessing Adversarial Examples”. International Conference on Learning Representations. arXiv:1412.6572.
^ Behzadan, Vahid; Munir, Arslan (2017). “Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks”. International Conference on Machine Learning and Data Mining in Pattern Recognition. Lecture Notes in Computer Science 10358: 262–275. arXiv:1701.04143. doi:10.1007/978-3-319-62416-7_19. ISBN 978-3-319-62415-0.
^ Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (2017-02-07). Adversarial Attacks on Neural Network Policies. OCLC 1106256905. http://worldcat.org/oclc/1106256905
^ Korkmaz, Ezgi (2022). “Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across MDPs.”. Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22) 36 (7): 7229–7238. doi:10.1609/aaai.v36i7.20684.
^ Berenji, H.R. (1994). “Fuzzy Q-learning: a new approach for fuzzy dynamic programming”. Proc. IEEE 3rd International Fuzzy Systems Conference (Orlando, FL, USA: IEEE): 486–491. doi:10.1109/FUZZY.1994.343737. ISBN 0-7803-1896-X.
^ Vincze, David (2017). “Fuzzy rule interpolation and reinforcement learning”. 2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE. pp. 173–178. doi:10.1109/SAMI.2017.7880298. ISBN 978-1-5090-5655-2
^ Ng, A. Y.; Russell, S. J. (2000). “Algorithms for Inverse Reinforcement Learning”. Proceeding ICML '00 Proceedings of the Seventeenth International Conference on Machine Learning. pp. 663–670. ISBN 1-55860-707-2
^ García, Javier; Fernández, Fernando (1 January 2015). “A comprehensive survey on safe reinforcement learning”. The Journal of Machine Learning Research 16 (1): 1437–1480.

外部がいぶリンク

Reinforcement Learning Repository
Reinforcement Learning and Artificial Intelligence (RLAI, Rich Sutton's lab at the University of Alberta)
Autonomous Learning Laboratory (ALL, Andrew Barto's lab at the University of Massachusetts Amherst)
Real-world reinforcement learning experiments Archived 2018-10-08 at the Wayback Machine. at Delft University of Technology
Stanford University Andrew Ng Lecture on Reinforcement Learning
Dissecting Reinforcement Learning Series of blog post on RL with Python code
A (Long) Peek into Reinforcement Learning
Reinforcement Learning （英語えいご） - スカラーペディア百科ひゃっか事典じてん「強化きょうか学習がくしゅう」の項目こうもく。
強化きょうか学習がくしゅうとは？木村きむら元はじめら
強化きょうか学習がくしゅうFAQ Suttonの強化きょうか学習がくしゅうFAQ(英語えいご)の日本語にほんご訳やく

[kaelbling-1] Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). “Reinforcement Learning: A Survey”. Journal of Artificial Intelligence Research 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. オリジナルの2001-11-20時点じてんにおけるアーカイブ。.

[2] van Otterlo, M.; Wiering, M. (2012). Reinforcement learning and markov decision processes. Adaptation, Learning, and Optimization. 12. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6

[3] Russell, Stuart J.; Norvig, Peter (2010). Artificial intelligence : a modern approach (Third ed.). Upper Saddle River, New Jersey. pp. 830, 831. ISBN 978-0-13-604259-4

[4] Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 July 2012). “Neural Basis of Reinforcement Learning and Decision Making”. Annual Review of Neuroscience 35 (1): 287–308. doi:10.1146/annurev-neuro-062111-150512. PMC 3490621. PMID 22462543.

[5] Xie, Zhaoming, et al. "ALLSTEPS: Curriculum‐driven Learning of Stepping Stone Skills." Computer Graphics Forum. Vol. 39. No. 8. 2020.

[FOOTNOTESuttonBarto1998Chapter_11-6] Sutton & Barto 1998, Chapter 11.

[7] Gosavi, Abhijit (2003). Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Operations Research/Computer Science Interfaces Series. Springer. ISBN 978-1-4020-7454-7

[Optimal_adaptive_policies_for_Marko-8] Burnetas, Apostolos N.; Katehakis, Michael N. (1997), “Optimal adaptive policies for Markov Decision Processes”, Mathematics of Operations Research 22: 222–255, doi:10.1287/moor.22.1.222

[9] Tokic, Michel; Palm, Günther (2011), “Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax”, KI 2011: Advances in Artificial Intelligence, Lecture Notes in Computer Science, 7006, Springer, pp. 335–346, ISBN 978-3-642-24455-1

[:0-10] “Reinforcement learning: An introduction”. 2023年ねん5月がつ12日にち閲覧えつらん。

[11] Sutton, Richard S. (1984). Temporal Credit Assignment in Reinforcement Learning (PhD thesis). University of Massachusetts, Amherst, MA.

[FOOTNOTESuttonBarto1998§6._Temporal-Difference_Learning-12] Sutton & Barto 1998, §6. Temporal-Difference Learning.

[13] Bradtke, Steven J.; Barto, Andrew G. (1996). “Learning to predict by the method of temporal differences”. Machine Learning 22: 33–57. doi:10.1023/A:1018056104778.

[14] Watkins, Christopher J.C.H. (1989). Learning from Delayed Rewards (PDF) (PhD thesis). King’s College, Cambridge, UK.

[MBK-15] Matzliach, Barouch; Ben-Gal, Irad; Kagan, Evgeny (2022). “Detection of Static and Mobile Targets by an Autonomous Agent with Deep Q-Learning Abilities”. Entropy 24 (8): 1168. Bibcode: 2022Entrp..24.1168M. doi:10.3390/e24081168. PMC 9407070. PMID 36010832.

[16] Williams, Ronald J. (1987). "A class of gradient-estimating algorithms for reinforcement learning in neural networks". Proceedings of the IEEE First International Conference on Neural Networks. CiteSeerX 10.1.1.129.8871。

[17] Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). "Reinforcement Learning for Humanoid Robotics" (PDF). IEEE-RAS International Conference on Humanoid Robots.

[18] Juliani, Arthur (2016年ねん12月17日にち). “Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)”. Medium. 2018年ねん2月がつ22日にち閲覧えつらん。

[19] Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). A Survey on Policy Search for Robotics. Foundations and Trends in Robotics. 2. NOW Publishers. pp. 1–142. doi:10.1561/2300000021. hdl:10044/1/12051

[20] Sutton, Richard (1990). "Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming". Machine Learning: Proceedings of the Seventh International Workshop.

[21] Lin, Long-Ji (1992). "Self-improving reactive agents based on reinforcement learning, planning and teaching" (PDF). Machine Learning volume 8. doi:10.1007/BF00992699。

[22] van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). "When to use parametric models in reinforcement learning?" (PDF). Advances in Neural Information Processing Systems 32.

[23] “On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment” (英語えいご). cie.acm.org. 2018年ねん11月27日にち閲覧えつらん。

[24] Riveret, Regis; Gao, Yang (2019). “A probabilistic argumentation framework for reinforcement learning agents” (英語えいご). Autonomous Agents and Multi-Agent Systems 33 (1–2): 216–274. doi:10.1007/s10458-019-09404-2.

[25] Yamagata, Taku; McConville, Ryan; Santos-Rodriguez, Raul (16 November 2021). "Reinforcement Learning with Feedback from Multiple Humans with Diverse Skills". arXiv:2111.08596 [cs.LG]。

[26] Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). “Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation”. Proceedings of the 30th International Conference on Neural Information Processing Systems. NIPS'16 (USA: Curran Associates Inc.): 3682–3690. arXiv:1604.06057. Bibcode: 2016arXiv160406057K. ISBN 978-1-5108-3881-9.

[27] “Reinforcement Learning / Successes of Reinforcement Learning”. umichrl.pbworks.com. 2017年ねん8月がつ6日にち閲覧えつらん。

[28] Quested, Tony. “Smartphones get smarter with Essex innovation”. Business Weekly. 2021年ねん6月がつ17日にち閲覧えつらん。

[29] Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (March 2020). “User Interaction Aware Reinforcement Learning for Power and Thermal Efficiency of CPU-GPU Mobile MPSoCs”. 2020 Design, Automation Test in Europe Conference Exhibition (DATE): 1728–1733. doi:10.23919/DATE48585.2020.9116294. ISBN 978-3-9819263-4-7.

[30] Williams, Rhiannon (2020年ねん7月がつ21日にち). “Future smartphones 'will prolong their own battery life by monitoring owners' behaviour'” (英語えいご). i. 2021年ねん6月がつ17日にち閲覧えつらん。

[kaplan2004-31] Kaplan, F.; Oudeyer, P. (2004). “Maximizing learning progress: an internal reward system for development”. In Iida, F.; Pfeifer, R.; Steels, L. et al.. Embodied Artificial Intelligence. Lecture Notes in Computer Science. 3139. Berlin; Heidelberg: Springer. pp. 259–270. doi:10.1007/978-3-540-27833-7_19. ISBN 978-3-540-22484-6

[klyubin2008-32] Klyubin, A.; Polani, D.; Nehaniv, C. (2008). “Keep your options open: an information-based driving principle for sensorimotor systems”. PLOS ONE 3 (12): e4018. Bibcode: 2008PLoSO...3.4018K. doi:10.1371/journal.pone.0004018. PMC 2607028. PMID 19107219.

[barto2013-33] Barto, A. G. (2013). “Intrinsic motivation and reinforcement learning”. Intrinsically Motivated Learning in Natural and Artificial Systems. Berlin; Heidelberg: Springer. pp. 17–47

[34] Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). “Deep Execution - Value and Policy Based Reinforcement Learning for Trading and Beating Market Benchmarks”. The Journal of Machine Learning in Finance 1. SSRN 3374766.

[35] George Karimpanal, Thommen; Bouffanais, Roland (2019). “Self-organizing maps for storage and transfer of knowledge in reinforcement learning” (英語えいご). Adaptive Behavior 27 (2): 111–126. arXiv:1811.08318. doi:10.1177/1059712318818568. ISSN 1059-7123.

[36] Soucek, Branko (6 May 1992). Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series. John Wiley & Sons, Inc. p. 38. ISBN 0-471-55717-X

[intro_deep_RL-37] Francois-Lavet, Vincent (2018). “An Introduction to Deep Reinforcement Learning”. Foundations and Trends in Machine Learning 11 (3–4): 219–354. arXiv:1811.12560. Bibcode: 2018arXiv181112560F. doi:10.1561/2200000071.

[DQN2-38] Mnih, Volodymyr (2015). “Human-level control through deep reinforcement learning”. Nature 518 (7540): 529–533. Bibcode: 2015Natur.518..529M. doi:10.1038/nature14236. PMID 25719670.

[39] Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). “Explaining and Harnessing Adversarial Examples”. International Conference on Learning Representations. arXiv:1412.6572.

[40] Behzadan, Vahid; Munir, Arslan (2017). “Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks”. International Conference on Machine Learning and Data Mining in Pattern Recognition. Lecture Notes in Computer Science 10358: 262–275. arXiv:1701.04143. doi:10.1007/978-3-319-62416-7_19. ISBN 978-3-319-62415-0.

[41] Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (2017-02-07). Adversarial Attacks on Neural Network Policies. OCLC 1106256905. http://worldcat.org/oclc/1106256905

[42] Korkmaz, Ezgi (2022). “Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across MDPs.”. Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22) 36 (7): 7229–7238. doi:10.1609/aaai.v36i7.20684.

[43] Berenji, H.R. (1994). “Fuzzy Q-learning: a new approach for fuzzy dynamic programming”. Proc. IEEE 3rd International Fuzzy Systems Conference (Orlando, FL, USA: IEEE): 486–491. doi:10.1109/FUZZY.1994.343737. ISBN 0-7803-1896-X.

[44] Vincze, David (2017). “Fuzzy rule interpolation and reinforcement learning”. 2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE. pp. 173–178. doi:10.1109/SAMI.2017.7880298. ISBN 978-1-5090-5655-2

[45] Ng, A. Y.; Russell, S. J. (2000). “Algorithms for Inverse Reinforcement Learning”. Proceeding ICML '00 Proceedings of the Seventeenth International Conference on Machine Learning. pp. 663–670. ISBN 1-55860-707-2

[46] García, Javier; Fernández, Fernando (1 January 2015). “A comprehensive survey on safe reinforcement learning”. The Journal of Machine Learning Research 16 (1): 1437–1480.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]