Slide 1

Slide 1 text

Survey on Visualization in Deep Reinforcement Learning of Game Tasks Visualizing and Understanding Atari Agents, Sam Greydanus, Anurag Koul, Jonathan Dodge, Alan Fern. (Oregon State University, Corvallis, Oregon, USA) [ICML'18] (Cited by:342) 1/14 2023/12/20 Deep Attention Recurrent Q-Network, Ivan Sorokin, Alexey Seleznev, Mikhail Pavlov, Aleksandr Fedorov, Anastasiia Ignateva. (DeepHack.Game 2015, 5vision) [NIPS'15 (NeurIPS)] (Cited by:171) Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks, Fabio Pardo, Vitaly Levdik, Petar Kormushev. (Robot Intelligence Lab, Imperial College London, United Kingdom) [AAAI'20] (Cited by:5)

Slide 2

Slide 2 text

基礎知識 | XAI (Explainable Artificial Intelligence) 2/14 ❏ XAIは機械学習モデル全般で取り組まれている ❏ e.g.,)画像分類のような教師あり学習 引用:zero2one, モデルの解釈

Slide 3

Slide 3 text

背景 | XRL (Explainable Reinforcement Learning) ❏ ネットワーク内部の特徴量を可視化する方法 : t-SNEを使用 ❏ 説明可能な強化学習モデルそのものを構築する方法 : 階層的なDRLモデル ❏ 自然言語で判断根拠を説明 : 言語的説明 (Linguistic Explanation) ❏ 視覚的説明 (Visual Explanation) : 観測を画像とする強化学習 3/14 Visualizing Dynamics: from t-SNE to SEMI-MDPs [ICML'16] Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning [ICLR'18] Trust Calibration within a Human-Robot Team: Comparing Automatically Generated Explanations [HRI'16] 参考:深層強化学習における視覚的説明 [日本ロボット学会誌]

Slide 4

Slide 4 text

4/14 ❏ 強化学習エージェントの判断根拠を可視化したもの ❏ 従来手法より効果的な顕著性マップ生成方法を提案 Visualizing and Understanding Atari Agents | 概要 強化学習アルゴリズム:A3C 青:方策ネットワークの顕著性 (Actor) 赤:価値ネットワークの顕著性 (Critic) 左:勾配降下法ベースの顕著性マップ 右:摂動を用いた顕著性マップ

Slide 5

Slide 5 text

5/14 ❏ 摂動画像を加えた結果の差分を利用するアプローチ ❏ 「ガウス分布で表現されたマスク画像M」と「ぼかした画像A」を使用 ❏ 「摂動画像」と「摂動なし画像」で獲得した方策の差分から顕著性を計算 Visualizing and Understanding Atari Agents | 顕著性マップ

Slide 6

Slide 6 text

6/14 Visualizing and Understanding Atari Agents | 実験結果 ❏ 各列は1000万フレームの学習で 区切られている ❏ 徐々に重要な特徴を学んでいく のがわかる (上段,下段) ❏ 「効率的な戦略を取れる状態」 においても徐々に特徴を学んで いる (中段)

Slide 7

Slide 7 text

7/14 ❏ ソフトアテンションとハードアテンションによるDQNの拡張手法を提案 Deep Attention Recurrent Q-Network | 概要 ❏ アテンションネットワーク:g ❏ Z:正規化定数 ❏ W:重み行列 ❏ 2つの全結合層とsoftmax関数 ❏ コンテキストベクトル計算:zt ❏ Vti:各位置ベクトル

Slide 8

Slide 8 text

ハードアテンション ❏ 画像の一つの領域のみにアテ ンションを集中させる メリット ❏ 計算効率:一つの領域のみに アテンションを集中させるた め,計算効率が高い ❏ 集中的な注意:特定領域に集 中することで,その領域情報 を深く解析できる デメリット ❏ 解釈可能性の限界:他の重要 な情報を見逃す可能性がある 8/14 ソフトアテンション ❏ 画像の複数領域にアテン ションを分散させる メリット ❏ 学習の容易さ:勾配ベース の学習アルゴリズムに適し ており,訓練が比較的容易 ❏ 解釈可能性:画像のどの部 分が重要視されているか理 解しやすい デメリット ❏ 注意の散漫:特定のタスク において注意が散漫になる 可能性がある Deep Attention Recurrent Q-Network | アテンションの違い

Slide 9

Slide 9 text

9/14 ソフトアテンション ❏ 上段:ボールの軌跡を広範囲 で着目している ❏ 下段:潜水艦と酸素メータの 両方に着目している Deep Attention Recurrent Q-Network | 実験結果 ハードアテンション ❏ 上段:ボールが消失した際に パドル側にアテンションを集 中させている ❏ 下段:潜水艦と敵の間にアテ ンションを集中させている

Slide 10

Slide 10 text

10/14 ❏ CNNを使用して,すべての行動に対応するQ値を出力 (Q-map) Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks | 概要

Slide 11

Slide 11 text

11/14 ❏ 観測 (t,t+1) を元にして,すべての行動に対するQ値を生成 ❏ 次の観測 (t+1) において,すべての行動のQ値を重ねる (最大化) ❏ 重ねたQ値を0〜1の範囲にクリップして正規化し,割引率を適用 Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks | Q-map

Slide 12

Slide 12 text

12/14 ❏ 観測 (t+1) で到達すると仮定される位置のQ値を1にする (training target) ❏ 観測 (t) の各Q値とtraining targetで平均二乗誤差をとる ❏ 計算された誤差を元にしてモデルの重みを更新する Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks | Q-map

Slide 13

Slide 13 text

13/14 Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks | 実験結果

Slide 14

Slide 14 text

まとめ Visualizing and Understanding Atari Agents: 効果的な顕著性マップ生成方法を提案 14/14 Deep Attention Recurrent Q-Network: ソフトアテンション,ハードアテンションによる可視化 ❏ 傾向と今後 ❏ 様々なタスクにも使える統一的な説明性の手法が求められている ❏ 自分の研究に使うことができそう (Atariタスク) ❏ 視覚的説明 × 言語的説明によるマルチモーダルな説明ができる Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks: CNNを用いたQ-map手法を提案

Slide 15

Slide 15 text

参考文献 15/14 ❏ 深層強化学習モデルの内部挙動の言語化を通じた 制御手法の構築 ❏ 深層強化学習における視覚的説明 [日本ロボット学会誌] ❏ 深層強化学習エージェント可視化ライブラリChainerRL Visualizer公開 ❏ Visualizing and Understanding Atari Agents ❏ Visualizing and Understanding Atari Agents : Github ❏ Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks:Google Site ❏ Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks:Github