Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ICLR2019読み会Solving the Rubik's Cube with Approx...

rea_tea
June 02, 2019

ICLR2019読み会Solving the Rubik's Cube with Approximate Policy Iteration

ライトニングトーク(LT)用スライド

rea_tea

June 02, 2019
Tweet

More Decks by rea_tea

Other Decks in Research

Transcript

  1. 概要 ⚫ 強化学習でルービックキューブを解く手法(Deep Cube)論文 ⚫ 人間の知識は一切使用しないで解く (Alpha Go Zero[1] と似た手法)

    ⚫ Alpha Go Zeroとの違い ⚫ 報酬を得るタイミングの少なさ ⚫ Autodidactic Iterationによる学習データの準備 ⚫ 基本的にはキューブの状態を記述した木を探索 ⚫ 木を効率よく探索するのにDeep Learningを用いる 2 [1]SILVER, David, et al. Mastering the game of go without human knowledge. Nature, 2017, 550.7676: 354. ルービックキューブのルール 揃える 完成 バラバラ ・・・・・・・・ ・・・ ・・・・・・・・ モンテカルロ木探索 ⚫ 3× 3× 3の立方体 ⚫ 外側の辺を回せる 各状態の価値がわかる、「価値関数」 がわかればOK
  2. 手法 ⚫ Value Network+Policy network + 探索木 ⚫ 報酬は完成状態で1、その他で-1とする ⚫

    Value Network: ⚫ 入力:キューブの状態 ⚫ 出力:その状態の価値(あと何手で解けるか 的な) ⚫ この関数を元にモンテカルロ木探索 ⚫ Policy Network: ⚫ 入力:キューブの状態 ⚫ 出力:各行動(キューブの回転)に対する筋 の良さ ⚫ モンテカルロ木探索の探索“幅“を減らす ⚫ Value Network を元に作られる 3 Autodidactic Iteration (ADI) 学習データの作り方 完成状態からスタートすることで、 完成状態を経やすくする キューブを回していく
  3. 結果と考察 4 赤点線は神の数字(どんな状態からも26, 15手あれば解ける) ※半回転は2手として数える ⚫ 報酬が得られる確証のないタスクで、純粋な強化学 習ができた ⚫ 将来は計画問題(ロボットの操作、2プレイヤーゲー

    ム、経路探索等)に適応したい ⚫ Baseline ⚫ Kociemba: 人間の知識あり ⚫ Korf: ヒューリスティック手法。優秀だが時間が かかりすぎる ⚫ DeepCubeは分散は大きいが、 人間の知識を使った手法に匹敵