Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024

tt1717
February 09, 2025

[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024

PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
1.RL-GPT: Integrating Reinforcement Learning and Code-as-policy,
Shaoteng Liu et al. (The Chinese University of Hong Kong et al.)
NeurIPS'24 [Oral Poster] (Cited by: 6 )
2.Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks,
Zaijing Li et al. (Harbin Institute of Technology, Shenzhen et al.)
NeurIPS'24 [Poster] (Cited by: 6 )
3.OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents,
Zihao Wang et al. (Institute for Artificial Intelligence, Peking University et al.)
NeurIPS'24 [Poster] (Cited by: - )

tt1717

February 09, 2025
Tweet

More Decks by tt1717

Other Decks in Research

Transcript

  1. Survey on Minecraft AI in NeurIPS 2024 タイトル 学会 著者/所属

    引用数 RL-GPT: Integrating Reinforcement Learning and Code-as-policy NeurIPS'24 [Oral Poster] Shaoteng Liu et al. (The Chinese University of Hong Kong et al.) 6 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks NeurIPS'24 [Poster] Zaijing Li et al. (Harbin Institute of Technology, Shenzhen et al.) 6 OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents NeurIPS'24 [Poster] Zihao Wang et al. (Institute for Artificial Intelligence, Peking University et al.) - 2025/01/08 1/21
  2. • Slow Agentを用いてタスクを高レベルと低レベルに分 解する. • Fast Agentを用いて「RLによる処理」では行動空間を 設計し,「LLMによる処理」ではコードを生成する. A. どんなもの?

    • 強化学習(RL)と大規模言語モデル(LLM)を統合し た新しい手法「RL-GPT」を提案 • タスクを「RLによる処理」と「LLMによる処理」に分 解し,サンプル効率の高い仕組みを構築 B. 先行研究と比べてどこがすごい? • RLとLLMの弱みを相互補完し,サンプル効率の高い学 習を実現. • Minecraft環境で,従来手法を上回る成功率 D. どうやって有効だと検証した? • MinecraftベースのMineDojo環境で複数タスクを評価 し,従来手法を上回る成功率を確認. • 「ダイヤモンド入手」タスクでは,少ないサンプル数 で効率的に学習できることを実証. E. 手法の概要 C. 技術や手法のキモはどこ? 2/21 RL-GPT: Integrating Reinforcement Learning and Code-as-policy
  3. 4/21 手法 (Slow Agent) • RL-GPTはSlow AgentとFast Agentで役割を分担 • タスクを複数のサブタスクに分解

    • サブタスクを「RLで実行させる」or「コード生成で実行させる」で分類 Slow Agent:GPT-4 Fast Agent:GPT-4 Policy Network:PPO
  4. 5/21 手法 (RL Implementation) • 複雑な環境適応が必要なサブタスクを実施 ◦ 木を収穫する • Fast

    Agentが環境情報を元に,行動空間を設計する • サブタスクを実行し,方策ネットワークを学習させる Slow Agent:GPT-4 Fast Agent:GPT-4 Policy Network:PPO
  5. 6/21 手法 (Direct Code Implementation) • 環境適応を必要としないサブタスクを実施 ◦ 作業台でツルハシを作る •

    訓練が不要なので,サンプル効率が高い • コード生成の正確性は,環境フィードバックで検証し,必要に応じて修正 Slow Agent:GPT-4 Fast Agent:GPT-4 Policy Network:PPO
  6. • 階層型知識グラフ(HDKG): タスクの構造を整理し,効率的にサブゴールを設定す る能力を提供. • 抽象化マルチモーダル経験プール(AMEP): 成功例と失敗例を活用して,計画の改善. A. どんなもの? •

    長期的なタスクを遂行可能なエージェントOptimus-1 を提案. • 知識グラフとマルチモーダルな経験プールを活用し ,Minecraftタスクで高い成功率を達成. B. 先行研究と比べてどこがすごい? • 視覚情報や環境知識を活用し,従来のエージェントが 困難としていた複雑なタスクの遂行を可能にした. • 失敗事例を含む学習データを用いて柔軟な行動調整を 実現し,人間に近い適応能力を発揮. D. どうやって有効だと検証した? • Minecraftタスクを対象に,従来のエージェントより も高い成功率を確認. • GPT-4Vや他のエージェントを大幅に上回る性能を示し ,人間に近い成功率を達成. E. 手法の概要 C. 技術や手法のキモはどこ? 8/21 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
  7. 10/21 手法 (階層型知識グラフ:HDKG) • 観測情報から道具や材料などの環境知識を獲得 ◦ 棒+木材 with 作業台 =

    木のつるはし • 獲得した知識を有向グラフにし,Plannerに活用 ◦ 長期的なタスクを階層的なグラフに表示 (タスク分解)
  8. 12/21 手法 (フレームワーク) 1. Plannerが知識グラフ (HDKG) を基に,サブゴールを設定 2. Controllerがサブゴールを目指して行動する 3.

    Reflectorが経験プール (AMEP) を基に,プランに反映させる 4. 1~3を繰り返す Planner:青枠 Reflector:緑枠 Controller:黄枠
  9. • 行動トークン化: VAEベースの自己教師あり学習で行動軌跡を離散化し て,意味的に重要なトークンを生成. A. どんなもの? • 視覚,言語,行動を統一的にトークン化する手法を用 いて,Minecraftのようなオープンワールド環境で指 示に従うエージェントを開発

    B. 先行研究と比べてどこがすごい? • 行動を含む統一的なトークン化により,タスクの効率 的な推論と長期的な計画が可能 D. どうやって有効だと検証した? • Minecraft内での短期タスク (e.g.,木を伐採) や長期タ スク (e.g.,ダイヤモンドピッケルの作成) で性能を評価 し,従来手法を超える性能を確認. E. 手法の概要 C. 技術や手法のキモはどこ? 15/21 OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents
  10. 18/21 手法 (アーキテクチャ) 1. タスク指示,記憶を入力 →Chain of Thoughtによる推論を繰り返す 2. 観測を入力

    → 離散トークンに量子化し,Decoderを通して行動を出力 3. 128ステップごとにCoTによる推論を繰り返す 図を一部改変