[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024

Slide 1

Slide 1 text

Survey on Minecraft AI in NeurIPS 2024 タイトル学会著者/所属引用数 RL-GPT: Integrating Reinforcement Learning and Code-as-policy NeurIPS'24 [Oral Poster] Shaoteng Liu et al. (The Chinese University of Hong Kong et al.) 6 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks NeurIPS'24 [Poster] Zaijing Li et al. (Harbin Institute of Technology, Shenzhen et al.) 6 OmniJARVIS: Uniﬁed Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents NeurIPS'24 [Poster] Zihao Wang et al. (Institute for Artiﬁcial Intelligence, Peking University et al.) - 2025/01/08 1/21

Slide 2

Slide 2 text

● Slow Agentを用いてタスクを高レベルと低レベルに分解する． ● Fast Agentを用いて「RLによる処理」では行動空間を設計し，「LLMによる処理」ではコードを生成する． A. どんなもの？ ● 強化学習（RL）と大規模言語モデル（LLM）を統合した新しい手法「RL-GPT」を提案 ● タスクを「RLによる処理」と「LLMによる処理」に分解し，サンプル効率の高い仕組みを構築 B. 先行研究と比べてどこがすごい？ ● RLとLLMの弱みを相互補完し，サンプル効率の高い学習を実現． ● Minecraft環境で，従来手法を上回る成功率 D. どうやって有効だと検証した？ ● MinecraftベースのMineDojo環境で複数タスクを評価し，従来手法を上回る成功率を確認． ● 「ダイヤモンド入手」タスクでは，少ないサンプル数で効率的に学習できることを実証． E. 手法の概要 C. 技術や手法のキモはどこ？ 2/21 RL-GPT: Integrating Reinforcement Learning and Code-as-policy

Slide 3

Slide 3 text

課題：LLMは高度な推論が可能だが，環境の学習がうまくできない　　　RLは環境の学習に強いが，サンプル効率が低い成果：LLMとRLを統合し，サンプル効率を大幅に向上させた 3/21 概要・タスクは不明・GPTはコード生成のみで学習　　は行わない・エポックが進んでもアクション　変化なし

Slide 4

Slide 4 text

4/21 手法 (Slow Agent) ● RL-GPTはSlow AgentとFast Agentで役割を分担 ● タスクを複数のサブタスクに分解 ● サブタスクを「RLで実行させる」or「コード生成で実行させる」で分類 Slow Agent:GPT-4 Fast Agent:GPT-4 Policy Network:PPO

Slide 5

Slide 5 text

5/21 手法 (RL Implementation) ● 複雑な環境適応が必要なサブタスクを実施 ○ 木を収穫する ● Fast Agentが環境情報を元に，行動空間を設計する ● サブタスクを実行し，方策ネットワークを学習させる Slow Agent:GPT-4 Fast Agent:GPT-4 Policy Network:PPO

Slide 6

Slide 6 text

6/21 手法 (Direct Code Implementation) ● 環境適応を必要としないサブタスクを実施 ○ 作業台でツルハシを作る ● 訓練が不要なので，サンプル効率が高い ● コード生成の正確性は，環境フィードバックで検証し，必要に応じて修正 Slow Agent:GPT-4 Fast Agent:GPT-4 Policy Network:PPO

Slide 7

Slide 7 text

7/21 実験結果 MineDojoベンチマークのタスク (成功率) ダイヤモンド入手のタスクサンプル効率が高い

Slide 8

Slide 8 text

● 階層型知識グラフ（HDKG）: タスクの構造を整理し，効率的にサブゴールを設定する能力を提供． ● 抽象化マルチモーダル経験プール（AMEP）: 成功例と失敗例を活用して，計画の改善． A. どんなもの？ ● 長期的なタスクを遂行可能なエージェントOptimus-1 を提案． ● 知識グラフとマルチモーダルな経験プールを活用し，Minecraftタスクで高い成功率を達成． B. 先行研究と比べてどこがすごい？ ● 視覚情報や環境知識を活用し，従来のエージェントが困難としていた複雑なタスクの遂行を可能にした． ● 失敗事例を含む学習データを用いて柔軟な行動調整を実現し，人間に近い適応能力を発揮． D. どうやって有効だと検証した？ ● Minecraftタスクを対象に，従来のエージェントよりも高い成功率を確認． ● GPT-4Vや他のエージェントを大幅に上回る性能を示し，人間に近い成功率を達成． E. 手法の概要 C. 技術や手法のキモはどこ？ 8/21 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

Slide 9

Slide 9 text

9/21 概要課題：エージェントがオープンワールド環境内のルールを体系的に学習できない　　　経験データが単一モーダル (e.g.,観測画像) で，柔軟な適応が難しい　　　長期的なタスクにおいて人間レベルの成功率を達成できない成果：階層型知識グラフ (HDKG) と抽象化マルチモーダル経験プール (AMEP) 　　　を提案し，知識の蓄積と学習を効率化　　　GPT-4VなどのLLMを超えるパフォーマンスを確認

Slide 10

Slide 10 text

10/21 手法 (階層型知識グラフ：HDKG) ● 観測情報から道具や材料などの環境知識を獲得 ○ 棒+木材 with 作業台 = 木のつるはし ● 獲得した知識を有向グラフにし，Plannerに活用 ○ 長期的なタスクを階層的なグラフに表示 (タスク分解)

Slide 11

Slide 11 text

11/21 手法 (抽象化マルチモーダル経験プール：AMEP) ● 画像バッファに保存された16枚の画像の類似性を計算 ● MineCLIPを使用して，類似性の高い画像とテキスト指示との類似性を計算 ○ 閾値を超えると，画像バッファとテキスト指示が保存される ● 最後に「環境情報+エージェントの初期情報+Plan」を保存する

Slide 12

Slide 12 text

12/21 手法 (フレームワーク) 1. Plannerが知識グラフ (HDKG) を基に，サブゴールを設定 2. Controllerがサブゴールを目指して行動する 3. Reﬂectorが経験プール (AMEP) を基に，プランに反映させる 4. 1~3を繰り返す Planner：青枠 Reﬂector：緑枠 Controller：黄枠

Slide 13

Slide 13 text

13/21 実験結果

Slide 14

Slide 14 text

14/21 実験結果 SR：平均成功率 AT：平均時間 AS：平均ステップ数 +∞：タスクを完了できないことを示す Overall：Iron, Gold, Diamond, Redstone, Armorの 5つの平均成功率

Slide 15

Slide 15 text

● 行動トークン化: VAEベースの自己教師あり学習で行動軌跡を離散化して，意味的に重要なトークンを生成． A. どんなもの？ ● 視覚，言語，行動を統一的にトークン化する手法を用いて，Minecraftのようなオープンワールド環境で指示に従うエージェントを開発 B. 先行研究と比べてどこがすごい？ ● 行動を含む統一的なトークン化により，タスクの効率的な推論と長期的な計画が可能 D. どうやって有効だと検証した？ ● Minecraft内での短期タスク (e.g.,木を伐採) や長期タスク (e.g.,ダイヤモンドピッケルの作成) で性能を評価し，従来手法を超える性能を確認． E. 手法の概要 C. 技術や手法のキモはどこ？ 15/21 OmniJARVIS: Uniﬁed Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents

Slide 16

Slide 16 text

課題：行動データを効率的かつ意味的に重要なトークンとして扱う方法がない　　　行動トークンが他のトークン (視覚・言語) と統合しにくい成果：行動データを意味的に保持した離散トークンとして生成する手法を提案 16/21 概要

Slide 17

Slide 17 text

17/21 手法 (Behavior Token) Encoder：観測データと学習可能トークンを入力し，潜在表現を得る FSQ：ガウス潜在変数を離散トークンに量子化 Decoder：離散トークンと観測データを入力し，行動を出力 VAEベース

Slide 18

Slide 18 text

18/21 手法 (アーキテクチャ) 1. タスク指示，記憶を入力 →Chain of Thoughtによる推論を繰り返す 2. 観測を入力 → 離散トークンに量子化し，Decoderを通して行動を出力 3. 128ステップごとにCoTによる推論を繰り返す図を一部改変

Slide 19

Slide 19 text

19/21 実験結果短期的なタスク/10回分の平均報酬 (木を切る，土を掘る，石を採掘する，小麦の種を集める) 長期的なタスク/成功率 (木，食べ物，石，鉄，ダイヤモンド)

Slide 20

Slide 20 text

20/21 まとめ RL-GPT： LLMとRLを統合し，サンプル効率を向上させた手法 (タスク分解をLLMで行う) Optimus-1：知識グラフと経験プールを活用した手法 (タスク分解を有向グラフで行う) OmniJARVIS：視覚，言語，行動を統一的にトークン化する手法 ❖ 傾向と今後 ➢ 長期的タスクはタスク分解するのがスタンダード ➢ VLAモデルやChatGPT o1が使われる？

Slide 21

Slide 21 text

21/21 参考文献 ❏ RL-GPT ❏ Optimus-1 ❏ OmniJARVIS