花札はなふだのこいこいにおける方策ほうさく勾配こうばいほうとNeural Fitted Q Iteration の適用てきよう


  • Applying Policy Gradient method and Neural Fitted Q Iteration for Hanafuda Koi-Koi game player


花札はなふだの「こいこい」ゲームは交互こうご2にんれい不完全ふかんぜん情報じょうほうゲームの一種いっしゅで,様々さまざま媒体ばいたいおおくのひとあそばれているが研究けんきゅうれいすくなく,人間にんげん上級じょうきゅうしゃ匹敵ひってきする人工じんこうプレイヤが開発かいはつされたというはなしかない.そのため我々われわれ強化きょうか学習がくしゅう方策ほうさく勾配こうばいほうとNeural Fitted Q Iterationをもちいてつよい「こいこい」プレイヤの実装じっそうこころみた.それぞれ盤面ばんめん低級ていきゅう特徴とくちょうりょう268入力にゅうりょくもちいた人工じんこうニューラルネットワークを状態じょうたい行動こうどう価値かち推定すいていもちい,簡単かんたんなルールベース人工じんこうプレイヤとの反復はんぷく対戦たいせんつうじて適切てきせつなパラメータの学習がくしゅうおこなった.その結果けっかそれぞれ対戦たいせん相手あいてから搾取さくしゅした平均へいきんスコアは-0.3てんと0.5てんとなった. :Koi-koi game, which is played using Hanafuda playing cards, is a Japanese traditional card game classi?ed as two players turn based imperfect information zero sum game. There are few research article focusing on this game even though this game is popular in Japan. Therefore, we tried to make strong Koi-koi game player by applying two types of reinforcement learning methods. We applied policy gradient method and neural ?tted Q iteration. Each player played games against an arti?cial player which we constructed making its decision in a simple rule based manner. Over 1,000 times game, policy gradient player gained -0.3 score per game and neural ?tted Q iteration player gained 0.5 scores in average.



