Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文サーベイ] Survey on Minecraft AI

tt1717
October 25, 2023

[論文サーベイ] Survey on Minecraft AI

PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
1.Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos,
Bowen Baker, lge Akkaya, Peter Zhokhov, et al. (OpenAI, University of British Columbia, et al.) [arXiv'22] (Cited by:88)
2.MINEDOJO: Building Open-Ended Embodied Agents with Internet-Scale Knowledge,
Linxi Fan,Guanzhi Wang,Yunfan Jiang, et al. (NVIDIA, Caltech, Stanford, et al.) [NeurIPS'22] (Cited by:89), NeurIPS 2022 Outstanding Paper Award
3.VOYAGER: An Open-Ended Embodied Agent with Large Language Models,
Guanzhi Wang, Yuqi Xie, Yunfan Jiang, et al. (NVIDIA, Caltech, UT Austin, et al.) [arXiv'23] (Cited by:38)

tt1717

October 25, 2023
Tweet

More Decks by tt1717

Other Decks in Research

Transcript

  1. Survey on Minecraft AI MINEDOJO: Building Open-Ended Embodied Agents with

    Internet-Scale Knowledge, Linxi Fan,Guanzhi Wang,Yunfan Jiang, et al. (NVIDIA, Caltech, Stanford, et al.) [NeurIPS'22] (Cited by:89), NeurIPS 2022 Outstanding Paper Award Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos, Bowen Baker, lge Akkaya, Peter Zhokhov, et al. (OpenAI, University of British Columbia, et al.) [arXiv'22] (Cited by:88) 1/22 2023/9/27 VOYAGER: An Open-Ended Embodied Agent with Large Language Models, Guanzhi Wang, Yuqi Xie, Yunfan Jiang, et al. (NVIDIA, Caltech, UT Austin, et al.) [arXiv'23] (Cited by:38)
  2. 背景 | Minecraft ❏ Minecraftは,報酬が階層的 ❏ e.g. ダイヤモンドのつるはし作成 ❏ 木材を集めて,木のつるはしを作成して...

    ❏ 通常の強化学習では学習するのは,ほぼ不可能 ❏ Minecraftの強化学習コンペがあるが,ダイヤモンド獲得した エージェントはなかった 3/22 “MineRL”より引用
  3. 4/22 ❏ Minecraftの操作を動画から学習した研究 ❏ 2,000時間分のラベル付き動画 (キーボードとマウス操作)からアクション を予測するInverse Dynamics Model (IDM)を学習

    ❏ 70,000時間分のラベルなし動画をIDMによって,アノテーション (ラベル 付け)する ❏ 70,000時間分のIDMラベル付き動画で訓練する (VPT Foundation Model) Video PreTraining (VPT) | 概要
  4. 7/22 ❏ 通常のRLで訓練した場合,ほとんど報酬を得られない ❏ VPTモデルに強化学習によるFine-tuningを適用した場合, ❏ ダイヤモンドつるはしの作り方を学習 ❏ アイテム収集においても人間レベルの成功率を得られる ❏

    ダイヤモンドツール (人間が平均20分以上かかる)をエージェントが作成で きることを示したのはこの論文が最初 Video PreTraining (VPT) | 強化学習によるFine-tuning
  5. 9/22 ❏ エージェントに様々なタスクを与える ❏ 1,581のプログラムタスク ❏ 明確な成功基準があるタスク (e.g.) 金のピッケルを作成する ❏

    216のクリエイティブタスク ❏ 明確な成功基準がないタスク (e.g.) 豚に乗ってレースをする MINEDOJO | 環境の多様性
  6. 16/22 ❏ 既出の行動を再利用する ❏ タスク実行時 (下):Pop ❏ LLMに,Automatic Curriculamで生成されたタスクから具体的な方法を生成 ❏

    タスク終了時 (上):Push ❏ 生成された行動を実行するためのソースコードをkey-valueの形で記録 VOYAGER | Skill Library
  7. 19/22 ❏ ①Automatic Curriculumを用いてタスクを生成 ❏ ②Iterative Prompting Mechanismに入力 ❏ ③Skill

    Libraryと照らし合わせコード実行し,Minecraftを操作 ❏ ④フィードバックを通じて自己改善 VOYAGER | 全体の流れ
  8. 20/22 ❏ 従来手法 (ReAct, Reflexion, AutoGPT)と比較 ❏ ablationとしてSkill Libraryを使わない時と比較 ❏

    VOYAGERのみが「木->石->鉄->ダイヤモンド」ツールの作成に成功 VOYAGER | 結果 Number of prompting iterations (プロンプトの反復回数)
  9. まとめ Video PreTraining (VPT): 少ないラベル付け動画と,大量のラベルなし動画により学習 22/22 MINEDOJO: CLIPを改良したMINECLIP,大規模マルチタスクベンチマーク ❏ 傾向と今後

    ❏ 強化学習 × LLMの論文の傾向がある ❏ 音声情報などのモダリティが追加されそう VOYAGER: LLMを使用したMinecraftエージェント
  10. 参考文献 23/22 ❏ HEROZ_VPT資料 ❏ OpenAI公式_VPT ❏ Zenn_VPT資料 ❏ MINEDOJO公式

    ❏ IT MAGAZINE_MINEDOJO ❏ VOYAGER ❏ 自律型マインクラフター_note