Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文サーベイ] Survey on Visualization in Deep Reinfo...

tt1717
January 30, 2024

[論文サーベイ] Survey on Visualization in Deep Reinforcement Learning of Game Tasks

PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
1.Visualizing and Understanding Atari Agents,
Sam Greydanus, Anurag Koul, Jonathan Dodge, Alan Fern. (Oregon State University, Corvallis, Oregon, USA) [ICML'18] (Cited by:342)
2.Deep Attention Recurrent Q-Network,
Ivan Sorokin, Alexey Seleznev, Mikhail Pavlov, Aleksandr Fedorov, Anastasiia Ignateva. (DeepHack.Game 2015, 5vision) [NIPS'15 (NeurIPS)] (Cited by:171)
3.Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks,
Fabio Pardo, Vitaly Levdik, Petar Kormushev. (Robot Intelligence Lab, Imperial College London, United Kingdom) [AAAI'20] (Cited by:5)

tt1717

January 30, 2024
Tweet

More Decks by tt1717

Other Decks in Research

Transcript

  1. Survey on Visualization in Deep Reinforcement Learning of Game Tasks

    Visualizing and Understanding Atari Agents, Sam Greydanus, Anurag Koul, Jonathan Dodge, Alan Fern. (Oregon State University, Corvallis, Oregon, USA) [ICML'18] (Cited by:342) 1/14 2023/12/20 Deep Attention Recurrent Q-Network, Ivan Sorokin, Alexey Seleznev, Mikhail Pavlov, Aleksandr Fedorov, Anastasiia Ignateva. (DeepHack.Game 2015, 5vision) [NIPS'15 (NeurIPS)] (Cited by:171) Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks, Fabio Pardo, Vitaly Levdik, Petar Kormushev. (Robot Intelligence Lab, Imperial College London, United Kingdom) [AAAI'20] (Cited by:5)
  2. 基礎知識 | XAI (Explainable Artificial Intelligence) 2/14 ❏ XAIは機械学習モデル全般で取り組まれている ❏

    e.g.,)画像分類のような教師あり学習 引用:zero2one, モデルの解釈
  3. 背景 | XRL (Explainable Reinforcement Learning) ❏ ネットワーク内部の特徴量を可視化する方法 : t-SNEを使用

    ❏ 説明可能な強化学習モデルそのものを構築する方法 : 階層的なDRLモデル ❏ 自然言語で判断根拠を説明 : 言語的説明 (Linguistic Explanation) ❏ 視覚的説明 (Visual Explanation) : 観測を画像とする強化学習 3/14 Visualizing Dynamics: from t-SNE to SEMI-MDPs [ICML'16] Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning [ICLR'18] Trust Calibration within a Human-Robot Team: Comparing Automatically Generated Explanations [HRI'16] 参考:深層強化学習における視覚的説明 [日本ロボット学会誌]
  4. 4/14 ❏ 強化学習エージェントの判断根拠を可視化したもの ❏ 従来手法より効果的な顕著性マップ生成方法を提案 Visualizing and Understanding Atari Agents

    | 概要 強化学習アルゴリズム:A3C 青:方策ネットワークの顕著性 (Actor) 赤:価値ネットワークの顕著性 (Critic) 左:勾配降下法ベースの顕著性マップ 右:摂動を用いた顕著性マップ
  5. 6/14 Visualizing and Understanding Atari Agents | 実験結果 ❏ 各列は1000万フレームの学習で

    区切られている ❏ 徐々に重要な特徴を学んでいく のがわかる (上段,下段) ❏ 「効率的な戦略を取れる状態」 においても徐々に特徴を学んで いる (中段)
  6. 7/14 ❏ ソフトアテンションとハードアテンションによるDQNの拡張手法を提案 Deep Attention Recurrent Q-Network | 概要 ❏

    アテンションネットワーク:g ❏ Z:正規化定数 ❏ W:重み行列 ❏ 2つの全結合層とsoftmax関数 ❏ コンテキストベクトル計算:zt ❏ Vti:各位置ベクトル
  7. ハードアテンション ❏ 画像の一つの領域のみにアテ ンションを集中させる メリット ❏ 計算効率:一つの領域のみに アテンションを集中させるた め,計算効率が高い ❏

    集中的な注意:特定領域に集 中することで,その領域情報 を深く解析できる デメリット ❏ 解釈可能性の限界:他の重要 な情報を見逃す可能性がある 8/14 ソフトアテンション ❏ 画像の複数領域にアテン ションを分散させる メリット ❏ 学習の容易さ:勾配ベース の学習アルゴリズムに適し ており,訓練が比較的容易 ❏ 解釈可能性:画像のどの部 分が重要視されているか理 解しやすい デメリット ❏ 注意の散漫:特定のタスク において注意が散漫になる 可能性がある Deep Attention Recurrent Q-Network | アテンションの違い
  8. 9/14 ソフトアテンション ❏ 上段:ボールの軌跡を広範囲 で着目している ❏ 下段:潜水艦と酸素メータの 両方に着目している Deep Attention

    Recurrent Q-Network | 実験結果 ハードアテンション ❏ 上段:ボールが消失した際に パドル側にアテンションを集 中させている ❏ 下段:潜水艦と敵の間にアテ ンションを集中させている
  9. 11/14 ❏ 観測 (t,t+1) を元にして,すべての行動に対するQ値を生成 ❏ 次の観測 (t+1) において,すべての行動のQ値を重ねる (最大化)

    ❏ 重ねたQ値を0〜1の範囲にクリップして正規化し,割引率を適用 Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks | Q-map
  10. 12/14 ❏ 観測 (t+1) で到達すると仮定される位置のQ値を1にする (training target) ❏ 観測 (t)

    の各Q値とtraining targetで平均二乗誤差をとる ❏ 計算された誤差を元にしてモデルの重みを更新する Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks | Q-map
  11. まとめ Visualizing and Understanding Atari Agents: 効果的な顕著性マップ生成方法を提案 14/14 Deep Attention

    Recurrent Q-Network: ソフトアテンション,ハードアテンションによる可視化 ❏ 傾向と今後 ❏ 様々なタスクにも使える統一的な説明性の手法が求められている ❏ 自分の研究に使うことができそう (Atariタスク) ❏ 視覚的説明 × 言語的説明によるマルチモーダルな説明ができる Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks: CNNを用いたQ-map手法を提案
  12. 参考文献 15/14 ❏ 深層強化学習モデルの内部挙動の言語化を通じた 制御手法の構築 ❏ 深層強化学習における視覚的説明 [日本ロボット学会誌] ❏ 深層強化学習エージェント可視化ライブラリChainerRL

    Visualizer公開 ❏ Visualizing and Understanding Atari Agents ❏ Visualizing and Understanding Atari Agents : Github ❏ Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks:Google Site ❏ Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks:Github