AlphaZero

AlphaZero（アルファゼロ）は、DeepMindによって開発かいはつされたコンピュータプログラムである。汎ひろし化かされたAlphaGo Zeroのアプローチを使用しようしている。 2017年ねん12月5日にち、DeepMindチームはAlphaGo Zeroのアプローチを汎ひろし化かしたプログラムであるAlphaZeroの論文ろんぶんをarXiv上うえで発表はっぴょうした。AlphaZeroは、24時間じかん以内いないにチェス、将棋しょうぎ、囲碁いごの世界せかいチャンピオンプログラムであるStockfish、elmo、3日間にちかん学習がくしゅうさせたAlphaGo Zeroを破やぶるレベルに達たっした^[1]。具体ぐたい的てきには、2時じ間あいだで将棋しょうぎ、4時じ間あいだでチェスの最高峰さいこうほうのAIに勝利しょうりし、AlphaGo Zeroも8時じ間あいだで上回うわまわった。

AlphaZeroは、オープニングブック（序盤じょばん定跡じょうせきデータベース）とエンドゲームの表ひょう（終盤しゅうばんを解析かいせきしたデータベース）を参照さんしょうせずに、4時じ間あいだの自己じこ対戦たいせんだけでStockfishを凌駕りょうがした^[2]^[3]。

それまでチェスおよび将棋しょうぎのAIで一般いっぱん的てきであったアルファ・ベータ探索たんさくではなく、囲碁いごAIで成功せいこうを収おさめたモンテカルロ木き探索たんさく（モンテカルロ法ほうの応用おうよう）とディープラーニングをこれらのゲームに対たいして適用てきようしても強つよいAIが作つくれることを実証じっしょうした。

手法しゅほう[編集へんしゅう]

モンテカルロ木き探索たんさくを使用しようした自己じこ対戦たいせんによって、ディープラーニングを用もちいた強化きょうか学習がくしゅうをする。

AlphaGo Zeroとの関係かんけい[編集へんしゅう]

詳細しょうさいは「AlphaGo Zero」を参照さんしょう

AlphaZero (AZ) は、AlphaGo Zero (AGZ) アルゴリズムのより汎ひろし化かされた変種へんしゅであり、囲碁いごとともに将棋しょうぎとチェスがプレーできる。AZとAGZとの間あいだの違ちがいには以下いかの内容ないようが含ふくまれる^[1]。

AZは探索たんさくハイパーパラメータ（英語えいご版ばん）の設定せっていのためにハードコードされている。
ニューラルネットワークは絶たえず更新こうしんされる。
（チェスと異ことなり）囲碁いごは任意にんいの鏡かがみ映うつと回転かいてん下かで対称たいしょうである。AGZはこれらの対称たいしょう性せいをうまく利用りようするようにプログラムされている。AZはされていない。
（囲碁いごと異ことなり）チェスには引ひき分わけがある。したがって、AZは引ひき分わけの可能かのう性せいが考慮こうりょできる。

性能せいのう[編集へんしゅう]

囲碁いご[編集へんしゅう]

囲碁いごを8時じ間あいだ自己じこ学習がくしゅうした後のちに前ぜんバージョンのAlphaGo Zeroと対戦たいせんして、AlphaZeroは60勝しょう40敗はいであった^[4]。

将棋しょうぎ[編集へんしゅう]

将棋しょうぎプログラムelmoとの100局きょくにおいて、AlphaZeroは90勝しょう8敗はい2分ふんであった^[4]。このとき、思考しこう時間じかんはチェス同様どうよう一いち手てごとに1分ふん与あたえられた。

チェス[編集へんしゅう]

AlphaZeroとStockfishとのチェス対局たいきょくにおいて、それぞれのプログラムは一いち手てごとに1分ぶんの思考しこう時間じかんが与あたえられた。AlphaZeroは白しろ（先手せんて）で25勝しょう、黒くろ（後手ごて）で3勝しょうし、残のこりの72局きょくで引ひき分わけた^[4]。

AlphaZeroはStockfishを初はじめて打うち負まかしたプログラムではない。Komodo（英語えいご版ばん）と呼よばれるプログラムが、今回こんかいより前まえにStockfishを破やぶっていた^[4]。Komodoのラリー・カウフマン（英語えいご版ばん）はAlphaZeroの勝利しょうりを重要じゅうよう視しせず、「AlphaZeroは効果こうか的てきに自分じぶんのオープニングブックを構築こうちくしているので、オープニングブックを用もちいるトップエンジンに対たいしてよりフェアに戦たたかえたのだろう」と主張しゅちょうした^[5]。

評価ひょうか[編集へんしゅう]

新聞しんぶんは、訓練くんれんにわずか4時じ間あいだしかかからなかったとの大だい見出みだしを付つけた: 『朝食ちょうしょくと昼食ちゅうしょくの間あいだと大差たいさない時間じかんでやってのけた』^[2]^[6]。WIRED誌しは、AlphaZeroを「初はつのマルチスキルAIボードゲームチャンピオン」として大々的だいだいてきに宣伝せんでんした^[7]。AI専門せんもん家かのJoanna Bysoは、Googleは「パブリシティ（宣伝せんでん）の才覚さいかく」によって競合きょうごう他社たしゃに対たいして有利ゆうりな立場たちばに立たったと述のべた。「すぐれたプログラマーを雇やとえるだけではありません。AI部門ぶもんに注目ちゅうもくする各国かっこく政府せいふや規制きせい当局とうきょく者しゃとの交渉こうしょうにおいてできる限かぎり強つよい立場たちばに立たつ上じょうでも有益ゆうえきなので、非常ひじょうに政治せいじ的てきでもあるのです。」^[4]

オランダのチェスグランドマスターであるピーター・ハイネ・ニールセン（英語えいご版ばん）はBBCのインタビューに対たいして、「私わたしはいつも、人間にんげんより優すぐれた生命せいめいが地球ちきゅうに降おり立たち、チェスをどうプレーするのか見みせてくれたらどんな風ふうになるのだろうと思おもっていました。今いま、わかりました」と語かたった^[4]。ノルウェーのグランドマスターであるヨン・ルズヴィ・ハンメル（英語えいご版ばん）はAlphaZeroの特徴とくちょうについて、深遠しんえんなポジショナルプレイ（駒こまの位置いちを良よくする指さし方かた）を用もちいながらの「常軌じょうきを逸いっした攻撃こうげき的てきチェス」と述のべた^[2]。

脚注きゃくちゅう[編集へんしゅう]

^ ^a ^b Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 December 2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI]。
^ ^a ^b ^c Knapton, Sarah; Watson, Leon (2017年ねん12月6日にち). “Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours” (英語えいご). Telegraph.co.uk 2017年ねん12月6日にち閲覧えつらん。
^ Vincent, James (2017年ねん12月6日にち). “DeepMind’s AI became a superhuman chess player in a few hours, just for fun”. The Verge 2017年ねん12月6日にち閲覧えつらん。
^ ^a ^b ^c ^d ^e ^f “'Superhuman' Google AI claims chess crown”. BBC News. (2017年ねん12月6日にち) 2017年ねん12月7日にち閲覧えつらん。
^ “Google's AlphaZero Destroys Stockfish In 100-Game Match - Chess.com”. Chess.com 2017年ねん12月7日にち閲覧えつらん。
^ Badshah, Nadeem (2017年ねん12月7日にち). “Google's DeepMind robot becomes world-beating chess grandmaster in four hours”. The Times 2017年ねん12月7日にち閲覧えつらん。
^ “Alphabet's Latest AI Show Pony Has More Than One Trick”. WIRED. (2017年ねん12月6日にち) 2017年ねん12月7日にち閲覧えつらん。

[preprint-1] Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 December 2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI]。

[telegraph-2] Knapton, Sarah; Watson, Leon (2017年ねん12月6日にち). “Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours” (英語えいご). Telegraph.co.uk 2017年ねん12月6日にち閲覧えつらん。

[3] Vincent, James (2017年ねん12月6日にち). “DeepMind’s AI became a superhuman chess player in a few hours, just for fun”. The Verge 2017年ねん12月6日にち閲覧えつらん。

[bbc-4] ^ ^a ^b ^c ^d ^e ^f “'Superhuman' Google AI claims chess crown”. BBC News. (2017年ねん12月6日にち) 2017年ねん12月7日にち閲覧えつらん。

[5] “Google's AlphaZero Destroys Stockfish In 100-Game Match - Chess.com”. Chess.com 2017年ねん12月7日にち閲覧えつらん。

[tol-6] Badshah, Nadeem (2017年ねん12月7日にち). “Google's DeepMind robot becomes world-beating chess grandmaster in four hours”. The Times 2017年ねん12月7日にち閲覧えつらん。

[7] “Alphabet's Latest AI Show Pony Has More Than One Trick”. WIRED. (2017年ねん12月6日にち) 2017年ねん12月7日にち閲覧えつらん。

[1]

[2]

[3]

[4]

[5]

[6]

[7]