[論文サーベイ] Survey on VLM and Reinforcement Learning in Game Tasks (Minecraft)

Slide 1

Slide 1 text

Survey on VLM and Reinforcement Learning in Game Tasks (Minecraft) STEVE-1: A Generative Model for Text-to-Behavior in Minecraft, Shalev Lifshitz et al. (University of Toronto et al.) [NeurIPS'23] (Cited by:28) Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft, Hao Li et al. (The Chinese University of Hong Kong et al.) [CVPR'24] (Cited by:5) 1/22 2024/07/10 MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception, Yiran Qin et al. (The Chinese University of Hong Kong et al.) [CVPR'24] (Cited by:5)

Slide 2

Slide 2 text

2/22 Minecraft | 背景 ❏ Minecraftタスクは報酬が階層的 ❏ e.g.) ダイヤモンドツール ❏ 木材を集めて->木のつるはしを作って... ❏ 従来の強化学習手法で学習させるのは困難 ❏ 階層的な報酬構造により段階を踏んだタスク達成が必要 ❏ LLM × 強化学習の手法で成功 Number of prompting iterations (プロンプトの反復回数) Voyager

Slide 3

Slide 3 text

3/22 ❏ Minecraftの操作を動画から学習したモデル 1. 2,000時間分の「行動ラベル付き動画」からIDMモデルを学習 2. 70,000時間分の行動ラベルなし動画を取得 3. ラベルなし動画に「行動ラベル」を付ける (IDMモデルを使用) 4. 行動ラベル付きの動画でVPTモデルを学習 Video PreTraining (VPT) | 基礎知識 ① ② ③ ④

Slide 4

Slide 4 text

4/22 ❏ オープンエンドなゲームでは報酬を定義することは困難 ❏ YouTube動画とその字幕から，言語条件付きの報酬関数を学習 ❏ “16フレームの切り抜き”と”自然言語”の関係性を評価する ❏ その評価結果を報酬とする MINECLIP | 基礎知識

Slide 5

Slide 5 text

❏ Minecraftでテキスト指示と画像指示に基づいて行動するモデルを提案 ❏ Minecraftのゴール条件付きタスクにおいて12/13で成功 5/22 STEVE-1: A Generative Model for Text-to-Behavior in Minecraft | 概要

Slide 6

Slide 6 text

6/22 ❏ MineCLIP STEVE-1: A Generative Model for Text-to-Behavior in Minecraft | 手法 ❖ ビデオエンコーダ ➢ Minecraftのビデオフレームをエンコードしてフレーム特徴 (Zτgoal)を抽出 ❖ テキストエンコーダ ➢ テキスト指示をエンコードしてテキスト特徴 (Zy)を抽出 ➢ e.g.,) "chop a tree" ❖ MineCLIPの使用 ➢ ビデオフレームとテキスト指示の関係性を学習し，フレーム特徴とテキスト特徴を統合

Slide 7

Slide 7 text

7/22 ❏ Prior STEVE-1: A Generative Model for Text-to-Behavior in Minecraft | 手法 ❖ CVAE (デコーダ) ➢ 「ガウス分布」と「エンコードされたテキスト特徴 (Zy)」を入力し，潜在目標 (Zτgoal)を生成 ❖ 出力 ➢ 潜在目標 (Zτgoal) ➢ ※フレーム特徴とは別物 ❖ 線形層 (Linear) ➢ 潜在目標 (Zτgoal)を線形層に通し，潜在表現を得る ❖ 入力 ➢ ガウス分布 ➢ エンコードされたテキスト特徴 (Zy)

Slide 8

Slide 8 text

8/22 ❏ VPT STEVE-1: A Generative Model for Text-to-Behavior in Minecraft | 手法 ❖ 潜在目標の使用 ➢ Priorで取得した潜在目標を使用する ❖ ResNetによるフレーム処理 ➢ ResNetを用いてビデオフレームを処理し，特徴ベクトルを抽出 ❖ 方策ネットワークの学習 ➢ 潜在目標と特徴ベクトルを統合し，VPTモデルに入力 ➢ テキスト指示に基づいて適切な行動を取るための方策を学習 ❖ アクションの生成 ➢ 現在の状態から次の行動 (a0,a1,a2) を予測して，エージェントの行動を決定

Slide 9

Slide 9 text

9/22 ❏ テキスト指示によるエージェントの行動結果 STEVE-1: A Generative Model for Text-to-Behavior in Minecraft | 実験結果

Slide 10

Slide 10 text

10/22 ❏ フレーム指示によるエージェントの行動結果 STEVE-1: A Generative Model for Text-to-Behavior in Minecraft | 実験結果

Slide 11

Slide 11 text

11/22 ❏ LLMを利用して，密な報酬関数を自動的に設計する手法 ❏ エージェントのタスク成功率とサンプル効率を大幅に向上させた ❏ 3つのLLMを利用した要素で，報酬関数を自動設計している Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft | 概要

Slide 12

Slide 12 text

12/22 ❏ 環境情報とタスク説明を元に，報酬関数をPythonコードとして生成 ❏ “Reward Critic”からフィードバックを受け取り，報酬関数を改善 ❏ “Trajectory Analyzer”からフィードバックを受け取り，報酬関数を改善 Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft | 手法

Slide 13

Slide 13 text

13/22 ❏ 設計した報酬関数のコードを検証し，コードエラーをチェック ❏ コードエラーがあった場合，エラー内容をフィードバック ❏ コードが正しく動作するまで，何度もコードレビューを行う Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft | 手法

Slide 14

Slide 14 text

14/22 ❏ エージェントの軌道データを分析し，タスク失敗の原因を特定 ❏ 失敗原因に基づき，報酬関数の改善案をフィードバック ❏ フィードバックを基に，報酬関数を更新 Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft | 手法

Slide 15

Slide 15 text

15/22 ❏ 「ダイヤモンド鉱石を探索するタスク」の結果 ❏ 平均距離が高い (※エージェントがより広範囲を探索している) ❏ 低い死亡率 ❏ 溶岩を避ける確率が高い ❏ タスク成功率が高い ❏ 「木や牛への接近タスク」において”サンプル効率と成功率”の改善 Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft | 実験結果

Slide 16

Slide 16 text

❏ LLMを利用して，最終目標をサブ目標に分解する手法 ❏ Minecraftにおける多様なタスクに対処することができる 16/22 MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception | 概要

Slide 17

Slide 17 text

17/22 ❏ タスク：昼間に水辺の草付近で石の剣を使って豚を倒す ❏ 目標達成のためにサブ目標 (o1〜o7)を順番に達成する ❏ サブ目標ごとに環境中の重要なアイテムを認識する ❏ e.g.,) o1のときlogがある，o6のときstoneがある... MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception | 手法

Slide 18

Slide 18 text

❏ サブ目標を達成する各ステップで必要な環境アイテム ❏ e.g.,) o1は”log”，o6は”stone”，o8は”grass, day, pig, water” 18/22 MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception | 手法 o1 o6 o8

Slide 19

Slide 19 text

19/22 ❏ o1とo6の画像は，サブ目標達成の過程で観測される一人称視点画像 ❏ o18とo28の画像は，最後の目標「豚を倒す」アクションを実行する画像 ❏ タスク指示に基づいて観測画像を利用し，サブ目標を達成する MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception | 手法

Slide 20

Slide 20 text

❏ タスク：夜に水辺で木のシャベルを使って砂を掘る ❏ e.g.,) o1はlog，o6はsand, water, night 20/22 MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception | 実験結果

Slide 21

Slide 21 text

STEVE-1: A Generative Model for Text-to-Behavior in Minecraft：テキスト指示と画像指示に基づいて行動するモデル 21/22 Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft： LLMを利用して，密な報酬関数を自動的に設計する手法 ❏ 傾向と今後 ❏ トップカンファレンスではMinecraftタスクが多い傾向 ❏ LLM × 強化学習の手法で別タスクに応用されそう (ロボットetc) MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception： LLMを利用して，最終目標をサブ目標に分解する手法まとめ

Slide 22

Slide 22 text

22/22 ❏ STEVE-1 ❏ Auto MC-Reward ❏ MP5 参考文献