[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024

Survey on Minecraft AI in NeurIPS 2024 タイトル学会著者/所属
引用数 RL-GPT: Integrating Reinforcement Learning and Code-as-policy NeurIPS'24 [Oral Poster] Shaoteng Liu et al. (The Chinese University of Hong Kong et al.) 6 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks NeurIPS'24 [Poster] Zaijing Li et al. (Harbin Institute of Technology, Shenzhen et al.) 6 OmniJARVIS: Uniﬁed Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents NeurIPS'24 [Poster] Zihao Wang et al. (Institute for Artiﬁcial Intelligence, Peking University et al.) - 2025/01/08 1/21

• Slow Agentを用いてタスクを高レベルと低レベルに分解する． • Fast Agentを用いて「RLによる処理」では行動空間を設計し，「LLMによる処理」ではコードを生成する． A. どんなもの？
• 強化学習（RL）と大規模言語モデル（LLM）を統合した新しい手法「RL-GPT」を提案 • タスクを「RLによる処理」と「LLMによる処理」に分解し，サンプル効率の高い仕組みを構築 B. 先行研究と比べてどこがすごい？ • RLとLLMの弱みを相互補完し，サンプル効率の高い学習を実現． • Minecraft環境で，従来手法を上回る成功率 D. どうやって有効だと検証した？ • MinecraftベースのMineDojo環境で複数タスクを評価し，従来手法を上回る成功率を確認． • 「ダイヤモンド入手」タスクでは，少ないサンプル数で効率的に学習できることを実証． E. 手法の概要 C. 技術や手法のキモはどこ？ 2/21 RL-GPT: Integrating Reinforcement Learning and Code-as-policy

課題：LLMは高度な推論が可能だが，環境の学習がうまくできない　　　RLは環境の学習に強いが，サンプル効率が低い成果：LLMとRLを統合し，サンプル効率を大幅に向上させた 3/21 概要・タスクは不明・GPTはコード生成のみで学習　　は行わない・エポックが進んでもアクション　変化なし

4/21 手法 (Slow Agent) • RL-GPTはSlow AgentとFast Agentで役割を分担 • タスクを複数のサブタスクに分解
• サブタスクを「RLで実行させる」or「コード生成で実行させる」で分類 Slow Agent:GPT-4 Fast Agent:GPT-4 Policy Network:PPO

5/21 手法 (RL Implementation) • 複雑な環境適応が必要なサブタスクを実施 ◦ 木を収穫する • Fast
Agentが環境情報を元に，行動空間を設計する • サブタスクを実行し，方策ネットワークを学習させる Slow Agent:GPT-4 Fast Agent:GPT-4 Policy Network:PPO

6/21 手法 (Direct Code Implementation) • 環境適応を必要としないサブタスクを実施 ◦ 作業台でツルハシを作る •
訓練が不要なので，サンプル効率が高い • コード生成の正確性は，環境フィードバックで検証し，必要に応じて修正 Slow Agent:GPT-4 Fast Agent:GPT-4 Policy Network:PPO

7/21 実験結果 MineDojoベンチマークのタスク (成功率) ダイヤモンド入手のタスクサンプル効率が高い

• 階層型知識グラフ（HDKG）: タスクの構造を整理し，効率的にサブゴールを設定する能力を提供． • 抽象化マルチモーダル経験プール（AMEP）: 成功例と失敗例を活用して，計画の改善． A. どんなもの？ •
長期的なタスクを遂行可能なエージェントOptimus-1 を提案． • 知識グラフとマルチモーダルな経験プールを活用し，Minecraftタスクで高い成功率を達成． B. 先行研究と比べてどこがすごい？ • 視覚情報や環境知識を活用し，従来のエージェントが困難としていた複雑なタスクの遂行を可能にした． • 失敗事例を含む学習データを用いて柔軟な行動調整を実現し，人間に近い適応能力を発揮． D. どうやって有効だと検証した？ • Minecraftタスクを対象に，従来のエージェントよりも高い成功率を確認． • GPT-4Vや他のエージェントを大幅に上回る性能を示し，人間に近い成功率を達成． E. 手法の概要 C. 技術や手法のキモはどこ？ 8/21 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

9/21 概要課題：エージェントがオープンワールド環境内のルールを体系的に学習できない　　　経験データが単一モーダル (e.g.,観測画像) で，柔軟な適応が難しい　　　長期的なタスクにおいて人間レベルの成功率を達成できない成果：階層型知識グラフ (HDKG) と抽象化マルチモーダル経験プール
(AMEP) 　　　を提案し，知識の蓄積と学習を効率化　　　GPT-4VなどのLLMを超えるパフォーマンスを確認

10/21 手法 (階層型知識グラフ：HDKG) • 観測情報から道具や材料などの環境知識を獲得 ◦ 棒+木材 with 作業台 =
木のつるはし • 獲得した知識を有向グラフにし，Plannerに活用 ◦ 長期的なタスクを階層的なグラフに表示 (タスク分解)

11/21 手法 (抽象化マルチモーダル経験プール：AMEP) • 画像バッファに保存された16枚の画像の類似性を計算 • MineCLIPを使用して，類似性の高い画像とテキスト指示との類似性を計算 ◦ 閾値を超えると，画像バッファとテキスト指示が保存される •
最後に「環境情報+エージェントの初期情報+Plan」を保存する

12/21 手法 (フレームワーク) 1. Plannerが知識グラフ (HDKG) を基に，サブゴールを設定 2. Controllerがサブゴールを目指して行動する 3.
Reﬂectorが経験プール (AMEP) を基に，プランに反映させる 4. 1~3を繰り返す Planner：青枠 Reﬂector：緑枠 Controller：黄枠

13/21 実験結果

14/21 実験結果 SR：平均成功率 AT：平均時間 AS：平均ステップ数 +∞：タスクを完了できないことを示す Overall：Iron, Gold, Diamond, Redstone,
Armorの 5つの平均成功率

• 行動トークン化: VAEベースの自己教師あり学習で行動軌跡を離散化して，意味的に重要なトークンを生成． A. どんなもの？ • 視覚，言語，行動を統一的にトークン化する手法を用いて，Minecraftのようなオープンワールド環境で指示に従うエージェントを開発
B. 先行研究と比べてどこがすごい？ • 行動を含む統一的なトークン化により，タスクの効率的な推論と長期的な計画が可能 D. どうやって有効だと検証した？ • Minecraft内での短期タスク (e.g.,木を伐採) や長期タスク (e.g.,ダイヤモンドピッケルの作成) で性能を評価し，従来手法を超える性能を確認． E. 手法の概要 C. 技術や手法のキモはどこ？ 15/21 OmniJARVIS: Uniﬁed Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents

課題：行動データを効率的かつ意味的に重要なトークンとして扱う方法がない　　　行動トークンが他のトークン (視覚・言語) と統合しにくい成果：行動データを意味的に保持した離散トークンとして生成する手法を提案 16/21 概要

17/21 手法 (Behavior Token) Encoder：観測データと学習可能トークンを入力し，潜在表現を得る FSQ：ガウス潜在変数を離散トークンに量子化 Decoder：離散トークンと観測データを入力し，行動を出力 VAEベース

18/21 手法 (アーキテクチャ) 1. タスク指示，記憶を入力 →Chain of Thoughtによる推論を繰り返す 2. 観測を入力
→ 離散トークンに量子化し，Decoderを通して行動を出力 3. 128ステップごとにCoTによる推論を繰り返す図を一部改変

19/21 実験結果短期的なタスク/10回分の平均報酬 (木を切る，土を掘る，石を採掘する，小麦の種を集める) 長期的なタスク/成功率 (木，食べ物，石，鉄，ダイヤモンド)

20/21 まとめ RL-GPT： LLMとRLを統合し，サンプル効率を向上させた手法 (タスク分解をLLMで行う) Optimus-1：知識グラフと経験プールを活用した手法 (タスク分解を有向グラフで行う) OmniJARVIS：視覚，言語，行動を統一的にトークン化する手法
❖ 傾向と今後 ➢ 長期的タスクはタスク分解するのがスタンダード ➢ VLAモデルやChatGPT o1が使われる？

21/21 参考文献 ❏ RL-GPT ❏ Optimus-1 ❏ OmniJARVIS

[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024

[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024

tt1717

More Decks by tt1717

Other Decks in Research

Featured

Transcript

Survey on Minecraft AI in NeurIPS 2024 タイトル学会著者/所属

• Slow Agentを用いてタスクを高レベルと低レベルに分解する． • Fast Agentを用いて「RLによる処理」では行動空間を設計し，「LLMによる処理」ではコードを生成する． A. どんなもの？

4/21 手法 (Slow Agent) • RL-GPTはSlow AgentとFast Agentで役割を分担 • タスクを複数のサブタスクに分解

5/21 手法 (RL Implementation) • 複雑な環境適応が必要なサブタスクを実施 ◦ 木を収穫する • Fast

6/21 手法 (Direct Code Implementation) • 環境適応を必要としないサブタスクを実施 ◦ 作業台でツルハシを作る •

7/21 実験結果 MineDojoベンチマークのタスク (成功率) ダイヤモンド入手のタスクサンプル効率が高い

• 階層型知識グラフ（HDKG）: タスクの構造を整理し，効率的にサブゴールを設定する能力を提供． • 抽象化マルチモーダル経験プール（AMEP）: 成功例と失敗例を活用して，計画の改善． A. どんなもの？ •

10/21 手法 (階層型知識グラフ：HDKG) • 観測情報から道具や材料などの環境知識を獲得 ◦ 棒+木材 with 作業台 =

12/21 手法 (フレームワーク) 1. Plannerが知識グラフ (HDKG) を基に，サブゴールを設定 2. Controllerがサブゴールを目指して行動する 3.

13/21 実験結果

14/21 実験結果 SR：平均成功率 AT：平均時間 AS：平均ステップ数 +∞：タスクを完了できないことを示す Overall：Iron, Gold, Diamond, Redstone,

17/21 手法 (Behavior Token) Encoder：観測データと学習可能トークンを入力し，潜在表現を得る FSQ：ガウス潜在変数を離散トークンに量子化 Decoder：離散トークンと観測データを入力し，行動を出力 VAEベース

18/21 手法 (アーキテクチャ) 1. タスク指示，記憶を入力 →Chain of Thoughtによる推論を繰り返す 2. 観測を入力

19/21 実験結果短期的なタスク/10回分の平均報酬 (木を切る，土を掘る，石を採掘する，小麦の種を集める) 長期的なタスク/成功率 (木，食べ物，石，鉄，ダイヤモンド)

21/21 参考文献 ❏ RL-GPT ❏ Optimus-1 ❏ OmniJARVIS