Upgrade to Pro — share decks privately, control downloads, hide ads and more …

みんな大好き強化学習

 みんな大好き強化学習

(2022年7月開催のDevelopersIO2022ビデオセッションの一つです)
みんな大好きなのにあまり語られることのない強化学習について語ります。概要的なものはすっ飛ばして基礎理論の話をします。

貞松政史

July 26, 2022
Tweet

More Decks by 貞松政史

Other Decks in Technology

Transcript

  1. 8 おしながき • 位置付けと基本構成 • 解法の種類 − 価値ベース − ⽅策ベース

    • ニューラルネットワークおよび深層学習の適⽤ • 弱点と対策
  2. 9 位置付けと基本構成 • 位置付けと基本構成 • 解法の種類 − 価値ベース − ⽅策ベース

    • ニューラルネットワークおよび深層学習の適⽤ • 弱点と対策
  3. 10 強化学習の位置付け ⼈⼯知能 (Artificial Intelligence, AI) 機械学習 (Machine Learning, ML)

    教師あり学習 教師なし学習 強化学習 NeuralNetwork DeepLearning
  4. 13 強化学習の適⽤領域 • ゲームAI • 機械の動作制御 • ⾃動運転 • ロボットのアーム制御や歩⾏制御

    など • 対話型インターフェースの最適化 • 商品・コンテンツの推薦(レコメンド) • スマートスピーカーやチャットボットの応答 など
  5. 14 解法の種類 • 位置付けと基本構成 • 解法の種類 − 価値ベース − ⽅策ベース

    • ニューラルネットワークおよび深層学習の適⽤ • 弱点と対策
  6. 15 強化学習による問題解決 初期状態→⽬標状態 = 1エピソード 1エピソード全体で得られる報酬 = 累積報酬 を最⼤化することが⽬的 基本的に

    ⾼い報酬=良い⾏動 累積報酬の最⼤化=良い⾏動の積み重ね によって問題を解決する(⾏動を獲得する)
  7. 19 強化学習の解法 価値ベース • 大きく分けて, Q-Learningに基づくアプローチとSARSAに基 づくアプローチの2種類 • 方策関数 π

    を固定し, 価値関数 Q のみを学習によって改善 ⽅策ベース • 方策関数 π を直接改善 • 行動空間が連続な場合や多変数の場合に使用
  8. 25 深層学習を⽤いた解法 Deep Q-Network (DQN) 状態評価に深層学習を適⽤ CNNを利⽤するだけでなく以下のアイデアで学習を安定させる • Experience Replay

    • ⼀旦経験した状態/⾏動/報酬/遷移先をメモリーに蓄積し、学習を⾏う際は そこからランダムサンプリングして利⽤する • Fixed Target Q-Network • データからいくつかサンプルを抽出してミニバッチを作成し、その学習中 は期待値の計算に利⽤するθは固定する • Clipping • 与える報酬を固定する (正なら1、負なら-1 など)
  9. 26 弱点と対策 • 位置付けと基本構成 • 解法の種類 − 価値ベース − ⽅策ベース

    • ニューラルネットワークおよび深層学習の適⽤ • 弱点と対策
  10. 27 強化学習の弱点 • サンプル効率が悪い • 学習に膨⼤なデータが必要 • データ量に⽐例して学習時間がかかる • 過学習しやすい

    • 局所最適(ローカルトラップ)にハマりやすい • 再現性が低い • 同⼀の⼿法でも学習が収束した時点のモデル同⼠で獲得 報酬に差異が発⽣する
  11. 28 弱点への対策 • テスト可能なモジュール化 • エージェント、学習器、オブザーバーなど • 実験管理 (ログ出⼒) •

    ハイパーパラメータや報酬に関する値、⾏動分布など • 学習パイプライン (学習の⾃動化) • アルゴリズムの改良 • 転移学習、模倣学習