[論文サーベイ] Survey on Minecraft AI

Slide 1

Slide 1 text

Survey on Minecraft AI MINEDOJO: Building Open-Ended Embodied Agents with Internet-Scale Knowledge, Linxi Fan,Guanzhi Wang,Yunfan Jiang, et al. (NVIDIA, Caltech, Stanford, et al.) [NeurIPS'22] (Cited by:89), NeurIPS 2022 Outstanding Paper Award Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos, Bowen Baker, lge Akkaya, Peter Zhokhov, et al. (OpenAI, University of British Columbia, et al.) [arXiv'22] (Cited by:88) 1/22 2023/9/27 VOYAGER: An Open-Ended Embodied Agent with Large Language Models, Guanzhi Wang, Yuqi Xie, Yunfan Jiang, et al. (NVIDIA, Caltech, UT Austin, et al.) [arXiv'23] (Cited by:38)

Slide 2

Slide 2 text

基礎知識 | 模倣学習 (Imitation Learning) 2/22 “小川雄太郎さんのTwitter”より引用

Slide 3

Slide 3 text

背景 | Minecraft ❏ Minecraftは，報酬が階層的 ❏ e.g. ダイヤモンドのつるはし作成 ❏ 木材を集めて，木のつるはしを作成して... ❏ 通常の強化学習では学習するのは，ほぼ不可能 ❏ Minecraftの強化学習コンペがあるが，ダイヤモンド獲得したエージェントはなかった 3/22 “MineRL”より引用

Slide 4

Slide 4 text

4/22 ❏ Minecraftの操作を動画から学習した研究 ❏ 2,000時間分のラベル付き動画 (キーボードとマウス操作)からアクションを予測するInverse Dynamics Model (IDM)を学習 ❏ 70,000時間分のラベルなし動画をIDMによって，アノテーション (ラベル付け)する ❏ 70,000時間分のIDMラベル付き動画で訓練する (VPT Foundation Model) Video PreTraining (VPT) | 概要

Slide 5

Slide 5 text

5/22 ❏ プレイヤーに新しいMinecraft世界で10分間プレイ ❏ 基本的な素材から家を作ることが目標 ❏ このデータセットでFine-Tuningすると，ゲームの初期タスクで大幅に改善 Video PreTraining (VPT) | Fine-tuning with behavioral cloning

Slide 6

Slide 6 text

6/22 ❏ 1時間〜70,000時間まで増加するデータ量で学習 ❏ 2,000時間未満では，ラベル付き動画 (キーボードとマウス操作) ❏ 2,000時間以上では，IDMでラベル付けされた動画 ❏ “Stone Tools”は，10,000時間以降からしか作成されない Video PreTraining (VPT) | Data scaling

Slide 7

Slide 7 text

7/22 ❏ 通常のRLで訓練した場合，ほとんど報酬を得られない ❏ VPTモデルに強化学習によるFine-tuningを適用した場合， ❏ ダイヤモンドつるはしの作り方を学習 ❏ アイテム収集においても人間レベルの成功率を得られる ❏ ダイヤモンドツール (人間が平均20分以上かかる)をエージェントが作成できることを示したのはこの論文が最初 Video PreTraining (VPT) | 強化学習によるFine-tuning

Slide 8

Slide 8 text

8/22 ❏ オープンエンド環境 (目標を途中修正可能)では，目標を制限しない ❏ オープンエンド環境での学習では，大規模な事前知識データベースが必要 ❏ エージェントは多様なタスクに対応できる柔軟性と，大規模な知識を活用できる拡張性が必要 MINEDOJO | 概要

Slide 9

Slide 9 text

9/22 ❏ エージェントに様々なタスクを与える ❏ 1,581のプログラムタスク ❏ 明確な成功基準があるタスク (e.g.) 金のピッケルを作成する ❏ 216のクリエイティブタスク ❏ 明確な成功基準がないタスク (e.g.) 豚に乗ってレースをする MINEDOJO | 環境の多様性

Slide 10

Slide 10 text

10/22 ❏ YouTube：33年分，73万本 ❏ Wiki：6,000以上のページ ❏ Reddit：660万のコメント ❏ データセットでノイズになってしまうものは機械的に排除 MINEDOJO | 大規模データセット

Slide 11

Slide 11 text

11/22 ❏ オープンエンドなゲームでは報酬を定義することは困難 ❏ YouTube動画とその字幕から，言語条件付きの報酬関数を学習 ❏ “16フレームの切り抜き”と”自然言語”の両者の関係性 (相関)を求める ❏ その評価結果を報酬とする MINEDOJO | MINECLIP (柔軟性と拡張性)

Slide 12

Slide 12 text

12/22 ❏ ΦGはCLIPのTextエンコーダーを使っている ❏ ΦVは16フレームそれぞれをImageエンコーダーΦIによって変換した合計 ❏ 学習時にΦI，ΦGの最後の2層のみがFine-tuningされる MINEDOJO | MINECLIP (柔軟性と拡張性)

Slide 13

Slide 13 text

13/22 ❏ 12のタスクに対する成功率 ❏ 6つのタスクで性能向上したが，性能低下したタスクもある ❏ 上8行はプログラムタスク，下4行はクリエイティブタスク MINEDOJO | 結果クリエイティブタスク

Slide 14

Slide 14 text

14/22 ❏ LLMを使用したMinecraftエージェント ❏ ①自動カリキュラム (Automatic Curriculum) ❏ ②スキルライブラリ (Skill Library) ❏ ③反復型プロンプト機構 (Iterative Prompting Mechanism) VOYAGER | 概要

Slide 15

Slide 15 text

15/22 ❏ 環境から次の行動を提案・選択 ❏ ①方向性と制約条件 ❏ ②エージェントの現在の状況 (e.g.)持っているアイテム ❏ ③前に成功/失敗したタスク ❏ ④Wikiのデータベースから追加の補足情報 VOYAGER | Automatic Curriculum

Slide 16

Slide 16 text

16/22 ❏ 既出の行動を再利用する ❏ タスク実行時 (下)：Pop ❏ LLMに，Automatic Curriculamで生成されたタスクから具体的な方法を生成 ❏ タスク終了時 (上)：Push ❏ 生成された行動を実行するためのソースコードをkey-valueの形で記録 VOYAGER | Skill Library

Slide 17

Slide 17 text

17/22 ❏ 3種類のフィードバックを通じて，自己改善 ❏ 環境フィードバック (左) ❏ プログラムの経過を示す (e.g.)棒を作ることができません：2 more planks ❏ 実行エラー (右) ❏ 実行エラーをバグ修正に使う VOYAGER | Iterative Prompting Mechanism

Slide 18

Slide 18 text

18/22 ❏ タスクの成功チェックを行う自己検証 ❏ タスクの成功/失敗を判定 ❏ タスクが失敗した場合，タスクを成功させる方法を提案 VOYAGER | Iterative Prompting Mechanism

Slide 19

Slide 19 text

19/22 ❏ ①Automatic Curriculumを用いてタスクを生成 ❏ ②Iterative Prompting Mechanismに入力 ❏ ③Skill Libraryと照らし合わせコード実行し，Minecraftを操作 ❏ ④フィードバックを通じて自己改善 VOYAGER | 全体の流れ

Slide 20

Slide 20 text

20/22 ❏ 従来手法 (ReAct, Reﬂexion, AutoGPT)と比較 ❏ ablationとしてSkill Libraryを使わない時と比較 ❏ VOYAGERのみが「木->石->鉄->ダイヤモンド」ツールの作成に成功 VOYAGER | 結果 Number of prompting iterations (プロンプトの反復回数)

Slide 21

Slide 21 text

21/22 ❏ VOYAGERは，従来手法と比較して2.3倍長い距離を移動 ❏ 様々な地形を移動することが可能 VOYAGER | 結果

Slide 22

Slide 22 text

まとめ Video PreTraining (VPT)：少ないラベル付け動画と，大量のラベルなし動画により学習 22/22 MINEDOJO： CLIPを改良したMINECLIP，大規模マルチタスクベンチマーク ❏ 傾向と今後 ❏ 強化学習 × LLMの論文の傾向がある ❏ 音声情報などのモダリティが追加されそう VOYAGER： LLMを使用したMinecraftエージェント

Slide 23

Slide 23 text

参考文献 23/22 ❏ HEROZ＿VPT資料 ❏ OpenAI公式_VPT ❏ Zenn＿VPT資料 ❏ MINEDOJO公式 ❏ IT MAGAZINE_MINEDOJO ❏ VOYAGER ❏ 自律型マインクラフター_note