ICLR2019読み会Solving the Rubik's Cube with Approximate Policy Iteration

SOLVING THE RUBIK’S CUBE WITH APPROXIMATE POLICY ITERATION 2019年６月２日（日） ICLR2019
読み会 in 京都廣田敦士 1

概要 ⚫ 強化学習でルービックキューブを解く手法（Deep Cube）論文 ⚫ 人間の知識は一切使用しないで解く（Alpha Go Zero［１］と似た手法）
⚫ Alpha Go Zeroとの違い ⚫ 報酬を得るタイミングの少なさ ⚫ Autodidactic Iterationによる学習データの準備 ⚫ 基本的にはキューブの状態を記述した木を探索 ⚫ 木を効率よく探索するのにDeep Learningを用いる 2 ［1］SILVER, David, et al. Mastering the game of go without human knowledge. Nature, 2017, 550.7676: 354. ルービックキューブのルール揃える完成バラバラ・・・・・・・・・・・・・・・・・・・モンテカルロ木探索 ⚫ 3× 3× 3の立方体 ⚫ 外側の辺を回せる各状態の価値がわかる、「価値関数」がわかればOK

手法 ⚫ Value Network＋Policy network + 探索木 ⚫ 報酬は完成状態で１、その他で-1とする ⚫
Value Network: ⚫ 入力：キューブの状態 ⚫ 出力：その状態の価値（あと何手で解けるか的な） ⚫ この関数を元にモンテカルロ木探索 ⚫ Policy Network: ⚫ 入力：キューブの状態 ⚫ 出力：各行動（キューブの回転）に対する筋の良さ ⚫ モンテカルロ木探索の探索“幅“を減らす ⚫ Value Network を元に作られる 3 Autodidactic Iteration (ADI) 学習データの作り方完成状態からスタートすることで、完成状態を経やすくするキューブを回していく

結果と考察 4 赤点線は神の数字（どんな状態からも26, 15手あれば解ける） ※半回転は2手として数える ⚫ 報酬が得られる確証のないタスクで、純粋な強化学習ができた ⚫ 将来は計画問題（ロボットの操作、2プレイヤーゲー
ム、経路探索等）に適応したい ⚫ Baseline ⚫ Kociemba: 人間の知識あり ⚫ Korf: ヒューリスティック手法。優秀だが時間がかかりすぎる ⚫ DeepCubeは分散は大きいが、人間の知識を使った手法に匹敵

APPENDIX: Network Architecture 5 ⚫ 入力は図の白色部分（20か所） ⚫ 1cubletにつき24通りの入り方が存在 ⚫ 12通り
⚫ 6（辺）×2（時計回り・反時計回り） ⚫ 完成までの手数

ICLR2019読み会Solving the Rubik's Cube with Approx...

ICLR2019読み会Solving the Rubik's Cube with Approximate Policy Iteration

rea_tea

More Decks by rea_tea

Other Decks in Research

Featured

Transcript

SOLVING THE RUBIK’S CUBE WITH APPROXIMATE POLICY ITERATION 2019年６月２日（日） ICLR2019

概要 ⚫ 強化学習でルービックキューブを解く手法（Deep Cube）論文 ⚫ 人間の知識は一切使用しないで解く（Alpha Go Zero［１］と似た手法）

手法 ⚫ Value Network＋Policy network + 探索木 ⚫ 報酬は完成状態で１、その他で-1とする ⚫

APPENDIX: Network Architecture 5 ⚫ 入力は図の白色部分（20か所） ⚫ 1cubletにつき24通りの入り方が存在 ⚫ 12通り

ICLR2019読み会Solving the Rubik's Cube with Approx...

ICLR2019読み会Solving the Rubik's Cube with Approximate Policy Iteration

rea_tea

More Decks by rea_tea

Other Decks in Research

Featured

Transcript

SOLVING THE RUBIK’S CUBE WITH APPROXIMATE POLICY ITERATION 2019年６月２日（日） ICLR2019

概要 ⚫ 強化学習でルービックキューブを解く手法（Deep Cube）論文 ⚫ 人間の知識は一切使用しないで解く （Alpha Go Zero［１］ と似た手法）

手法 ⚫ Value Network＋Policy network + 探索木 ⚫ 報酬は完成状態で１、その他で-1とする ⚫

APPENDIX: Network Architecture 5 ⚫ 入力は図の白色部分（20か所） ⚫ 1cubletにつき24通りの入り方が存在 ⚫ 12通り

概要 ⚫ 強化学習でルービックキューブを解く手法（Deep Cube）論文 ⚫ 人間の知識は一切使用しないで解く（Alpha Go Zero［１］と似た手法）