[論文サーベイ] Survey on Visualization in Deep Reinforcement Learning of Game Tasks

Slide 1

Slide 1 text

Survey on Visualization in Deep Reinforcement Learning of Game Tasks Visualizing and Understanding Atari Agents, Sam Greydanus, Anurag Koul, Jonathan Dodge, Alan Fern. (Oregon State University, Corvallis, Oregon, USA) [ICML'18] (Cited by:342) 1/14 2023/12/20 Deep Attention Recurrent Q-Network, Ivan Sorokin, Alexey Seleznev, Mikhail Pavlov, Aleksandr Fedorov, Anastasiia Ignateva. (DeepHack.Game 2015, 5vision) [NIPS'15 (NeurIPS)] (Cited by:171) Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks, Fabio Pardo, Vitaly Levdik, Petar Kormushev. (Robot Intelligence Lab, Imperial College London, United Kingdom) [AAAI'20] (Cited by:5)

Slide 2

Slide 2 text

基礎知識 | XAI (Explainable Artiﬁcial Intelligence) 2/14 ❏ XAIは機械学習モデル全般で取り組まれている ❏ e.g.,)画像分類のような教師あり学習引用：zero2one, モデルの解釈

Slide 3

Slide 3 text

背景 | XRL (Explainable Reinforcement Learning) ❏ ネットワーク内部の特徴量を可視化する方法 : t-SNEを使用 ❏ 説明可能な強化学習モデルそのものを構築する方法 : 階層的なDRLモデル ❏ 自然言語で判断根拠を説明 : 言語的説明 (Linguistic Explanation) ❏ 視覚的説明 (Visual Explanation) : 観測を画像とする強化学習 3/14 Visualizing Dynamics: from t-SNE to SEMI-MDPs [ICML'16] Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning [ICLR'18] Trust Calibration within a Human-Robot Team: Comparing Automatically Generated Explanations [HRI'16] 参考：深層強化学習における視覚的説明 [日本ロボット学会誌]

Slide 4

Slide 4 text

4/14 ❏ 強化学習エージェントの判断根拠を可視化したもの ❏ 従来手法より効果的な顕著性マップ生成方法を提案 Visualizing and Understanding Atari Agents | 概要強化学習アルゴリズム：A3C 青：方策ネットワークの顕著性 (Actor) 赤：価値ネットワークの顕著性 (Critic) 左：勾配降下法ベースの顕著性マップ右：摂動を用いた顕著性マップ

Slide 5

Slide 5 text

5/14 ❏ 摂動画像を加えた結果の差分を利用するアプローチ ❏ 「ガウス分布で表現されたマスク画像M」と「ぼかした画像A」を使用 ❏ 「摂動画像」と「摂動なし画像」で獲得した方策の差分から顕著性を計算 Visualizing and Understanding Atari Agents | 顕著性マップ

Slide 6

Slide 6 text

6/14 Visualizing and Understanding Atari Agents | 実験結果 ❏ 各列は1000万フレームの学習で区切られている ❏ 徐々に重要な特徴を学んでいくのがわかる (上段，下段) ❏ 「効率的な戦略を取れる状態」においても徐々に特徴を学んでいる (中段)

Slide 7

Slide 7 text

7/14 ❏ ソフトアテンションとハードアテンションによるDQNの拡張手法を提案 Deep Attention Recurrent Q-Network | 概要 ❏ アテンションネットワーク：g ❏ Z：正規化定数 ❏ W：重み行列 ❏ 2つの全結合層とsoftmax関数 ❏ コンテキストベクトル計算：zt ❏ Vti：各位置ベクトル

Slide 8

Slide 8 text

ハードアテンション ❏ 画像の一つの領域のみにアテンションを集中させるメリット ❏ 計算効率：一つの領域のみにアテンションを集中させるため，計算効率が高い ❏ 集中的な注意：特定領域に集中することで，その領域情報を深く解析できるデメリット ❏ 解釈可能性の限界：他の重要な情報を見逃す可能性がある 8/14 ソフトアテンション ❏ 画像の複数領域にアテンションを分散させるメリット ❏ 学習の容易さ：勾配ベースの学習アルゴリズムに適しており，訓練が比較的容易 ❏ 解釈可能性：画像のどの部分が重要視されているか理解しやすいデメリット ❏ 注意の散漫：特定のタスクにおいて注意が散漫になる可能性がある Deep Attention Recurrent Q-Network | アテンションの違い

Slide 9

Slide 9 text

9/14 ソフトアテンション ❏ 上段：ボールの軌跡を広範囲で着目している ❏ 下段：潜水艦と酸素メータの両方に着目している Deep Attention Recurrent Q-Network | 実験結果ハードアテンション ❏ 上段：ボールが消失した際にパドル側にアテンションを集中させている ❏ 下段：潜水艦と敵の間にアテンションを集中させている

Slide 10

Slide 10 text

10/14 ❏ CNNを使用して，すべての行動に対応するQ値を出力 (Q-map) Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks | 概要

Slide 11

Slide 11 text

11/14 ❏ 観測 (t,t+1) を元にして，すべての行動に対するQ値を生成 ❏ 次の観測 (t+1) において，すべての行動のQ値を重ねる (最大化) ❏ 重ねたQ値を0〜1の範囲にクリップして正規化し，割引率を適用 Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks | Q-map

Slide 12

Slide 12 text

12/14 ❏ 観測 (t+1) で到達すると仮定される位置のQ値を1にする (training target) ❏ 観測 (t) の各Q値とtraining targetで平均二乗誤差をとる ❏ 計算された誤差を元にしてモデルの重みを更新する Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks | Q-map

Slide 13

Slide 13 text

13/14 Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks | 実験結果

Slide 14

Slide 14 text

まとめ Visualizing and Understanding Atari Agents：効果的な顕著性マップ生成方法を提案 14/14 Deep Attention Recurrent Q-Network：ソフトアテンション，ハードアテンションによる可視化 ❏ 傾向と今後 ❏ 様々なタスクにも使える統一的な説明性の手法が求められている ❏ 自分の研究に使うことができそう (Atariタスク) ❏ 視覚的説明 × 言語的説明によるマルチモーダルな説明ができる Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks： CNNを用いたQ-map手法を提案

Slide 15

Slide 15 text

参考文献 15/14 ❏ 深層強化学習モデルの内部挙動の言語化を通じた制御手法の構築 ❏ 深層強化学習における視覚的説明 [日本ロボット学会誌] ❏ 深層強化学習エージェント可視化ライブラリChainerRL Visualizer公開 ❏ Visualizing and Understanding Atari Agents ❏ Visualizing and Understanding Atari Agents : Github ❏ Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks：Google Site ❏ Scaling All-Goals Updates in Reinforcement Learning Using Convolutional Neural Networks：Github