Slide 1

Slide 1 text

Survey on Linguistic Explanations in Deep Reinforcement Learning of Atari Tasks Beating Atari with Natural Language Guided Reinforcement Learning, Russell Kaplan et al. (Department of Computer Science Stanford University) [arXiv'17] (Cited by:67) Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals, Yue Wu et al. (Carnegie Mellon University et al.) [NeurIPS'23] (Cited by:13) 1/20 2024/04/17 Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction, Yonggang Jin et al. (Beijing University of Posts and Telecommunications et al.) [arXiv'24] (Cited by:2)

Slide 2

Slide 2 text

基礎知識 | XAI (Explainable Artificial Intelligence) 2/20 ❏ XAIは機械学習モデル全般で取り組まれている ❏ e.g.,)画像分類のような教師あり学習 引用:zero2one, モデルの解釈

Slide 3

Slide 3 text

背景 | XRL (Explainable Reinforcement Learning) ❏ ネットワーク内部の特徴量を可視化する方法 : t-SNEを使用 ❏ 説明可能な強化学習モデルそのものを構築する方法 : 階層的なDRLモデル ❏ 視覚的説明 (Visual Explanation) : 観測を画像とする強化学習 ❏ 自然言語で判断根拠を説明 : 言語的説明 (Linguistic Explanation) 3/20 Visualizing Dynamics: from t-SNE to SEMI-MDPs [ICML'16] Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning [ICLR'18] 参考:深層強化学習における視覚的説明 [日本ロボット学会誌] Visualizing and Understanding Atari Agents

Slide 4

Slide 4 text

4/20 ❏ Atariの中でも難しいゲームタスク ❏ 少しの落差で死んでしまう ❏ 報酬が疎 (報酬をほとんど得られない) Montezuma’s Revenge | 概要 報酬が密 途中の報酬がゴール への手がかりとなる 報酬が疎 ゴールに到達するまで 報酬が得られない 鍵を入手するまで報酬が得られない

Slide 5

Slide 5 text

5/20 ❏ 自然言語の指示文を活用してAtariを攻略する手法を提案したもの ❏ 難しいゲームであるMontezuma’s Revengeにおいてスコア改善 Beating Atari with Natural Language Guided Reinforcement Learning | 概要 1:はしごを降りる 2:ロープに飛び移る 3:部屋の右側に行く 4:はしごを降りる 5:部屋の左側に行く 6:はしごを登る 7:鍵を手に入れる

Slide 6

Slide 6 text

6/20 ❏ 「4つの観測画像」と「観測に対する自然言語の指示文」が入力 ❏ 観測画像をCNNで処理し,方策ネットワークを通して行動を起こし,報酬 を獲得 (R_environment) Beating Atari with Natural Language Guided Reinforcement Learning | 手法

Slide 7

Slide 7 text

7/20 ❏ 指示文が与えられてから2フレーム分をCNNで処理し (f),指示文をLSTM で処理する (s) ❏ fとsで内積をとったものを,シグモイド関数に通して指示文が達成された かを判断する Beating Atari with Natural Language Guided Reinforcement Learning | 手法

Slide 8

Slide 8 text

8/20 ❏ 指示文を満たすと次の指示文に移り,追加報酬を与える (R_language) ❏ フレームの埋め込み (f) と指示文の埋め込み (s)は方策ネットワークに追加 される Beating Atari with Natural Language Guided Reinforcement Learning | 手法

Slide 9

Slide 9 text

9/20 Beating Atari with Natural Language Guided Reinforcement Learning | 実験結果 ❏ Montezuma’s Revengeで1000万フレーム訓練後の結果 ❏ 提案手法の方策ネットワーク:A3C ❏ 指示文を訓練に導入することで,難しいタスクにも対応できている

Slide 10

Slide 10 text

10/20 ❏ Atariゲームの説明書を利用してサンプル効率と性能を向上させる手法 ❏ 入力:現在のフレームとAtariゲームの説明書 ❏ 検出:「画像からのオブジェクト検出」と「単語の関連付け」 ❏ QA抽出モジュール:説明書から関連情報を抽出・要約 ❏ 推論モジュール:QA抽出モジュールから推論して補助報酬を割り当てる Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals | 概要

Slide 11

Slide 11 text

❏ オブジェクト検出:SPACEモデル ❏ 単語の関連付け:CLIPモデル ❏ SPACEは画像からバウンディング ボックスを生成する ❏ CLIPを用いてこれらのボックスを 単語に基づいて関連付ける 11/20 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals | 検出 オブジェクトマス ク SPACEで検出され たバウンディング ボックス

Slide 12

Slide 12 text

❏ 事前学習済みのLLMであるRoBERTa-largeを使用 ❏ 入力はAtariゲームの説明書 ❏ 一般的な質問に対するQAを抽出 ❏ Q:ゲームの目的は何ですか? ❏ A:プレイヤーはペレットを食べたりゴーストを避けてポイントを稼ぐ 12/20 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals | QA抽出モジュール

Slide 13

Slide 13 text

❏ TF-IDFを用いて上位10個の重要単語を特定 ❏ TF-IDF = (単語の出現頻度) × (各単語のレア度) ❏ 各単語固有のQAを抽出 ❏ Q:プレーヤーがにぶつかると何が起こる? ❏ A:フルーツをガツガツ食べる ❏ 「一般的な質問のQA」と「各単語固有のQA」を連結する 13/20 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals | QA抽出モジュール

Slide 14

Slide 14 text

❏ LLM:GPT-3と同等の性能のMacawを使用 (推論に適しているモデル) ❏ Context文字列を参考に,質問を生成する (RoBERTa-large) ❏ Context文字列と質問を基に推論を行い,Yes/Noの形式で回答する ❏ ゲームの目的に対して有益であれば正の補助報酬+5,無益であれば-5 14/20 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals | 推論モジュール RoBERTa-large Macaw

Slide 15

Slide 15 text

15/20 ❏ サンプル効率:A2C (Baseline) と比較してサンプル効率向上 ❏ 性能:提案手法 (R&R) を用いた全タスクでスコア向上 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals | 実験結果 Skiing

Slide 16

Slide 16 text

16/20 ❏ Decision Transformerにマルチモーダル指示を与える手法を提案 1. 指示文のみに依存する場合,タスクの文脈を十分に理解できない 2. 視覚情報のみに依存する場合,どのように行動すれば良いかが不明確 3. 指示文と視覚情報のマルチモーダル情報を組み合わせることでエージェン トはタスクの文脈をより正確に把握し,適切な行動を選択できる Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction | 概要

Slide 17

Slide 17 text

17/20 ❏ ゲーム概要 ❏ 人間がゲームの全体的な概要とア クションについて説明文を提供 ❏ ゲーム軌道 ❏ 人間の専門家がプレイするゲーム のビデオを収集 ❏ 言語ガイダンス ❏ ChatGPTを使用して各アクション に関する言語ガイダンスを生成 ❏ キー要素 ❏ バウンディングボックスの座標を 特定する (左下と右上) ❏ 「ゲーム軌道の画像」と「ゲーム概 要&言語ガイダンス」をCLIPで処理 Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction | 手法

Slide 18

Slide 18 text

18/20 Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction | 実験結果 ❏ ID:訓練データセットに含まれるタスクを 使ってモデルを評価 ❏ OOD:訓練中には見られない未知のタスク を使ってモデルを評価 ❏ DTGI-a:各指示の重要性を均一に扱い評価

Slide 19

Slide 19 text

19/20 Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction | 実験結果

Slide 20

Slide 20 text

まとめ Beating Atari with Natural Language Guided Reinforcement Learning: 指示文を活用して疎な報酬環境を解決 20/20 Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals: 物体検出と説明書を活用してサンプル効率と性能向上 ❏ 傾向と今後 ❏ RLとLLMを組み合わせた手法の傾向がある ❏ 視覚的説明 × 言語的説明で性能向上できそう Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction: DTにマルチモーダル指示を適用して性能向上

Slide 21

Slide 21 text

参考文献 21/20 ❏ SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜 ❏ tf-idfについてざっくりまとめ_理論編 ❏ Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction