Slide 1

Slide 1 text

Survey on Minecraft AI in NeurIPS 2024 タイトル 学会 著者/所属 引用数 RL-GPT: Integrating Reinforcement Learning and Code-as-policy NeurIPS'24 [Oral Poster] Shaoteng Liu et al. (The Chinese University of Hong Kong et al.) 6 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks NeurIPS'24 [Poster] Zaijing Li et al. (Harbin Institute of Technology, Shenzhen et al.) 6 OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents NeurIPS'24 [Poster] Zihao Wang et al. (Institute for Artificial Intelligence, Peking University et al.) - 2025/01/08 1/21

Slide 2

Slide 2 text

● Slow Agentを用いてタスクを高レベルと低レベルに分 解する. ● Fast Agentを用いて「RLによる処理」では行動空間を 設計し,「LLMによる処理」ではコードを生成する. A. どんなもの? ● 強化学習(RL)と大規模言語モデル(LLM)を統合し た新しい手法「RL-GPT」を提案 ● タスクを「RLによる処理」と「LLMによる処理」に分 解し,サンプル効率の高い仕組みを構築 B. 先行研究と比べてどこがすごい? ● RLとLLMの弱みを相互補完し,サンプル効率の高い学 習を実現. ● Minecraft環境で,従来手法を上回る成功率 D. どうやって有効だと検証した? ● MinecraftベースのMineDojo環境で複数タスクを評価 し,従来手法を上回る成功率を確認. ● 「ダイヤモンド入手」タスクでは,少ないサンプル数 で効率的に学習できることを実証. E. 手法の概要 C. 技術や手法のキモはどこ? 2/21 RL-GPT: Integrating Reinforcement Learning and Code-as-policy

Slide 3

Slide 3 text

課題:LLMは高度な推論が可能だが,環境の学習がうまくできない    RLは環境の学習に強いが,サンプル効率が低い 成果:LLMとRLを統合し,サンプル効率を大幅に向上させた 3/21 概要 ・タスクは不明 ・GPTはコード生成のみで学習   は行わない ・エポックが進んでもアクション  変化なし

Slide 4

Slide 4 text

4/21 手法 (Slow Agent) ● RL-GPTはSlow AgentとFast Agentで役割を分担 ● タスクを複数のサブタスクに分解 ● サブタスクを「RLで実行させる」or「コード生成で実行させる」で分類 Slow Agent:GPT-4 Fast Agent:GPT-4 Policy Network:PPO

Slide 5

Slide 5 text

5/21 手法 (RL Implementation) ● 複雑な環境適応が必要なサブタスクを実施 ○ 木を収穫する ● Fast Agentが環境情報を元に,行動空間を設計する ● サブタスクを実行し,方策ネットワークを学習させる Slow Agent:GPT-4 Fast Agent:GPT-4 Policy Network:PPO

Slide 6

Slide 6 text

6/21 手法 (Direct Code Implementation) ● 環境適応を必要としないサブタスクを実施 ○ 作業台でツルハシを作る ● 訓練が不要なので,サンプル効率が高い ● コード生成の正確性は,環境フィードバックで検証し,必要に応じて修正 Slow Agent:GPT-4 Fast Agent:GPT-4 Policy Network:PPO

Slide 7

Slide 7 text

7/21 実験結果 MineDojoベンチマークのタスク (成功率) ダイヤモンド入手のタスク サンプル効率が高い

Slide 8

Slide 8 text

● 階層型知識グラフ(HDKG): タスクの構造を整理し,効率的にサブゴールを設定す る能力を提供. ● 抽象化マルチモーダル経験プール(AMEP): 成功例と失敗例を活用して,計画の改善. A. どんなもの? ● 長期的なタスクを遂行可能なエージェントOptimus-1 を提案. ● 知識グラフとマルチモーダルな経験プールを活用し ,Minecraftタスクで高い成功率を達成. B. 先行研究と比べてどこがすごい? ● 視覚情報や環境知識を活用し,従来のエージェントが 困難としていた複雑なタスクの遂行を可能にした. ● 失敗事例を含む学習データを用いて柔軟な行動調整を 実現し,人間に近い適応能力を発揮. D. どうやって有効だと検証した? ● Minecraftタスクを対象に,従来のエージェントより も高い成功率を確認. ● GPT-4Vや他のエージェントを大幅に上回る性能を示し ,人間に近い成功率を達成. E. 手法の概要 C. 技術や手法のキモはどこ? 8/21 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

Slide 9

Slide 9 text

9/21 概要 課題:エージェントがオープンワールド環境内のルールを体系的に学習できない    経験データが単一モーダル (e.g.,観測画像) で,柔軟な適応が難しい    長期的なタスクにおいて人間レベルの成功率を達成できない 成果:階層型知識グラフ (HDKG) と抽象化マルチモーダル経験プール (AMEP)     を提案し,知識の蓄積と学習を効率化    GPT-4VなどのLLMを超えるパフォーマンスを確認

Slide 10

Slide 10 text

10/21 手法 (階層型知識グラフ:HDKG) ● 観測情報から道具や材料などの環境知識を獲得 ○ 棒+木材 with 作業台 = 木のつるはし ● 獲得した知識を有向グラフにし,Plannerに活用 ○ 長期的なタスクを階層的なグラフに表示 (タスク分解)

Slide 11

Slide 11 text

11/21 手法 (抽象化マルチモーダル経験プール:AMEP) ● 画像バッファに保存された16枚の画像の類似性を計算 ● MineCLIPを使用して,類似性の高い画像とテキスト指示との類似性を計算 ○ 閾値を超えると,画像バッファとテキスト指示が保存される ● 最後に「環境情報+エージェントの初期情報+Plan」を保存する

Slide 12

Slide 12 text

12/21 手法 (フレームワーク) 1. Plannerが知識グラフ (HDKG) を基に,サブゴールを設定 2. Controllerがサブゴールを目指して行動する 3. Reflectorが経験プール (AMEP) を基に,プランに反映させる 4. 1~3を繰り返す Planner:青枠 Reflector:緑枠 Controller:黄枠

Slide 13

Slide 13 text

13/21 実験結果

Slide 14

Slide 14 text

14/21 実験結果 SR:平均成功率 AT:平均時間 AS:平均ステップ数 +∞:タスクを完了できないことを示す Overall:Iron, Gold, Diamond, Redstone, Armorの 5つの平均成功率

Slide 15

Slide 15 text

● 行動トークン化: VAEベースの自己教師あり学習で行動軌跡を離散化し て,意味的に重要なトークンを生成. A. どんなもの? ● 視覚,言語,行動を統一的にトークン化する手法を用 いて,Minecraftのようなオープンワールド環境で指 示に従うエージェントを開発 B. 先行研究と比べてどこがすごい? ● 行動を含む統一的なトークン化により,タスクの効率 的な推論と長期的な計画が可能 D. どうやって有効だと検証した? ● Minecraft内での短期タスク (e.g.,木を伐採) や長期タ スク (e.g.,ダイヤモンドピッケルの作成) で性能を評価 し,従来手法を超える性能を確認. E. 手法の概要 C. 技術や手法のキモはどこ? 15/21 OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents

Slide 16

Slide 16 text

課題:行動データを効率的かつ意味的に重要なトークンとして扱う方法がない    行動トークンが他のトークン (視覚・言語) と統合しにくい 成果:行動データを意味的に保持した離散トークンとして生成する手法を提案 16/21 概要

Slide 17

Slide 17 text

17/21 手法 (Behavior Token) Encoder:観測データと学習可能トークンを入力し,潜在表現を得る FSQ:ガウス潜在変数を離散トークンに量子化 Decoder:離散トークンと観測データを入力し,行動を出力 VAEベース

Slide 18

Slide 18 text

18/21 手法 (アーキテクチャ) 1. タスク指示,記憶を入力 →Chain of Thoughtによる推論を繰り返す 2. 観測を入力 → 離散トークンに量子化し,Decoderを通して行動を出力 3. 128ステップごとにCoTによる推論を繰り返す 図を一部改変

Slide 19

Slide 19 text

19/21 実験結果 短期的なタスク/10回分の平均報酬 (木を切る,土を掘る,石を採掘する,小麦の種を集める) 長期的なタスク/成功率 (木,食べ物,石,鉄,ダイヤモンド)

Slide 20

Slide 20 text

20/21 まとめ RL-GPT: LLMとRLを統合し,サンプル効率を向上させた手法 (タスク分解をLLMで行う) Optimus-1: 知識グラフと経験プールを活用した手法 (タスク分解を有向グラフで行う) OmniJARVIS: 視覚,言語,行動を統一的にトークン化する手法 ❖ 傾向と今後 ➢ 長期的タスクはタスク分解するのがスタンダード ➢ VLAモデルやChatGPT o1が使われる?

Slide 21

Slide 21 text

21/21 参考文献 ❏ RL-GPT ❏ Optimus-1 ❏ OmniJARVIS