マールタスの仕組みを解説

マールタスとは？ RPGアツマールに投稿されたゲームのプレイ⽅法を⾃動的に学習するシステム

ゲームのプレイ⽅法を学習するプレイ⽅法を⼈間がデザインするのではなく学習によって獲得する何度もプレイして試⾏錯誤してデータ取集強化学習と呼ばれる⽅法でシステムを更新し成⻑ハイスコアを⽬指す ܦա࣌ؒ είΞɿ είΞɿ
είΞɿ

この時間で話したいことマールタスの学習の仕組み Deep Q-Network(DQN)の基本マールタスのが得意/不得意なゲームの特徴 %2/

ビデオゲームAIを作る？伝統的な⽅法：ルールベース「〜のときは〜せよ」 • ఢΩϟϥΫλʔ͕࠲ඪ ̋ɺ̋ ʹ౸ୡͨ͠Β"ϘλϯΛԡ͢ • ࣌ؒͷΧ΢ϯλʔ͕˘ඵʹͳΔ·ͰԣҠಈΛଓ͚Δ
• ʜ

ビデオゲームAIを作る？伝統的な⽅法：ルールベース「〜のときは〜せよ」 • ఢΩϟϥΫλʔ͕࠲ඪ ̋ɺ̋ ʹ౸ୡͨ͠Β"ϘλϯΛԡ͢ • ࣌ؒͷΧ΢ϯλʔ͕˘ඵʹͳΔ·ͰԣҠಈΛଓ͚Δ
• ʜ ήʔϜ͕ෳࡶʹͳΔͱॻ͘ͷ͕೉͘͠ͳΔ

攻略法を機械に学ばせる：機械学習ルールを⼈間が記述するのは諦める機械に攻略法を探してもらう

機械学習による（ビデオ）ゲームAI 様々な⽅法が提案されてきた遺伝的アルゴリズムモンテカルロ⽊探索などなどマールタスの学習⽅法：強化学習

強化学習によるビデオゲームAI 古いゲームから新しいゲームまで⼈⼯知能研究の題材としてゲームが使われることも ATARI Dota 2 Starcraft-II .OJI 7
FUBM IUUQTPQFOBJDPNGJWF IUUQTEFFQNJOEDPNCMPHBMQIBTUBSNBTUFSJOHSFBM UJNFTUSBUFHZHBNFTUBSDSBGUJJ

強化学習の枠組み環境とエージェントの相互作⽤ゲーム：環境エージェント：ゲームプレイヤー ΤʔδΣϯτ ؀ڥ

環境とエージェントの相互作⽤マールタスがボタンを選択ゲーム画⾯が変わる

環境とエージェントの相互作⽤マールタスがボタンを選択ゲーム画⾯が変わる新たな画⾯とスコアが与えられるマールタスは画⾯をみて次のボタンを選択

環境とエージェントの相互作⽤マールタスがボタンを選択ゲーム画⾯が変わる新たな画⾯とスコアが与えられるマールタスは画⾯をみて次のボタンを選択スコア差分：ゲームの画⾯が変わるときの良さを測る指標

環境とエージェントの相互作⽤エージェントが⾏動を選択環境が変わる新たな状態と報酬が与えられるエージェントは状態をみて次の⾏動を選択報酬：環境の状態が変わるときの良さを測る指標

エージェントが⾏動選択をするルール⽅策：状態を⼊⼒として⾏動を出⼒する関数 ํࡦ ೖྗͨͪ ग़ྗ

強化学習で⽬指すこと⽅策：状態を⼊⼒として⾏動を出⼒する関数 ํࡦ ೖྗͨͪ ग़ྗ ྑ͍ํࡦΛݟ͚͍ͭͨʂ

良い⽅策とは？良い⽅策：たくさん報酬（＝スコア差分）がもらえる⽅策たくさんとは？ゲームの終わりまでの報酬の合計を考える ελʔτ ήʔϜΦʔόʔ
఺

1ステップのみの場合

⻑いエピソード BͱCͲ͕ͬͪྑ͍ʁ

ܭࢉͯ͠ΈΑ͏

ܭࢉͯ͠ΈΑ͏
఺

ܭࢉͯ͠ΈΑ͏
఺ ఺

ܭࢉͯ͠ΈΑ͏
఺ ఺ C

⾏動選択の価値を考える価値：ある状態におけるゲームの終わりまでの報酬の総和（報酬の総和の期待値）⾏動価値（Q値）：ある状態において、ある⾏動を選択した場合の報酬の総和

Q値があれば良いルートがわかる ߦಈBͷ2஋ ʼ ߦಈCͷ2஋ ߦಈB͕͓ಘ

Q値を計算したい Q値を計算したい関数を考える ؔ਺ ೖྗ ग़ྗ

Q値を計算したい Q関数：状態を⼊⼒してQ値を出⼒する関数 2ؔ਺ ঢ়ଶ ֤Ϙλϯͷ2஋

Q関数は簡単に求められない⾮常に限られた環境では正確なQ関数を作ることができるが。。。実際には組み合わせが膨⼤計算できない！

Q関数の近似正確なQ値を計算するのを諦める実際にエピソードを集める

Q関数の近似正確なQ値を計算するのを諦める実際にエピソードを集める集めた中でのQ値を使ってQ関数を近似する 2ؔ਺ ঢ়ଶ ֤Ϙλϯͷ2஋ ͷ༧ଌ 0,

どうやってQ関数を近似するの？ニューラルネットワークと呼ばれるものを使う脳の神経回路を模したモデル ॏΈɺόΠΞε ೖྗ ग़ྗ

どうやってQ関数を近似するの？ニューラルネットワークと呼ばれるものを使う脳の神経回路を模したモデル ग़ྗ ॏΈʹ όΠΞεʹ = ೖྗ
×[重み]＋όΠΞε = . × . ＋.

ニューラルネットワークの学習 1. 重みとバイアスをランダムに決める 2. 出⼒を計算 3. 欲しい出⼒（正解データ）を使って誤差を計算 4. 誤差を使って重みとバイアスを修正する 5.
2に戻る ೖྗ ग़ྗ ਖ਼ղ ޡࠩ मਖ਼

ニューラルネットワークの拡張 ೖྗ ग़ྗ ͭͷೖྗɺ̍ͭͷग़ྗ

ニューラルネットワークの拡張複数⼊⼒、複数出⼒に拡張⼤規模なニューラルネットワーク＝Deep Neural Network

ニューラルネットワークに画像を⼊⼒ ը૾ ϐΫηϧ஋

ニューラルネットワークに画像を⼊⼒ Deep Neural NetworkでQ値を予測する ֤Ϙλϯͷ2஋ ͷ༧ଌ ʢը૾ʣ %FFQ2/FUXPSL %2/

Deep Q-Network(DQN)の学習 1. Deep Q-Networkの重みとバイアスを初期化（乱数とか） 2. 状態を⼊⼒してQ値を予測 3. ゲームをプレイさせてデータを集める 4.
集めたデータで重みとバイアスを更新 5. 2に戻る ঢ়ଶʢը૾ʣ %FFQ2/FUXPSL ༧ଌͨ͠2஋

データ収集の効率化重みとバイアスの修正の時間＜データ収集にかかる時間並列してデータ収集

データ収集の効率化重みとバイアスの修正の時間＜データ収集にかかる時間並列してデータ収集 • ࣮ࡍʹ͸৭ʑ޻෉ΛՃ͑ͨ"QF9ͱݺ ͹ΕΔख๏Λ࢖͍ͬͯΔ •
࣮૷͸3-MJCʢ1ZUIPOͷڧԽֶशͷͨΊ ͷϥΠϒϥϦʣΛར༻ <)PSHBO FUBM >

マールタスが得意なゲーム⾏動に対して報酬が即座に反映する：アクションゲーム⾏動に対する報酬の反映が遅いと学習が難しい⾏動パターンが少ない：クリックよりもキーボード操作 Q学習は離散の値を前提にしている

マールタスが不得意なゲーム報酬がすぐに与えられない：RPG系ゲームオーバー時にしかスコアがもらえないスコアがもらえるが限られた複雑な操作をしないと進めない⾔語の理解を必要とする⾏動パターンが連続：マウス操作とか

ルールを機械に学ばせる⾏動に対して報酬が即座に反映する：アクションゲーム⾏動に対する報酬の反映が遅いと学習が難しい⾏動パターンが少ない：クリックよりもキーボード操作 Q学習は離散の値を前提にしている

まとめエージェントと環境、⾏動、状態、報酬ある状態で⾏動を選択した場合の未来のスコアを考える（Q値） Q値は簡単に求められないので近似するデータを集める Deep Q-NetworkでQ値を予測させる得意なゲーム／不得意なゲームがあるよ

マールタスの仕組みを解説

マールタスの仕組みを解説

More Decks by kzmssk

Other Decks in Technology

Featured

Transcript