Slide 1

Slide 1 text

Survey on GPT for Games Atari-GPT: Investigating the Capabilities of Multimodal Large Language Models as Low-Level Policies for Atari Games, Nicholas R. Waytowich et al. (DEVCOM Army Research Laboratory et al.) [arXiv'24] (Cited by: - ) 1/30 2024/10/02 MarioGPT: Open-Ended Text2Level Generation through Large Language Models, Shyam Sudhakaran et al. (IT University of Copenhagen et al.) [NeurIPS'23] (Cited by:56) Will GPT-4 Run DOOM?, Adrian de Wynter. (The University of York.) [arXiv'24] (Cited by:3)

Slide 2

Slide 2 text

2/30 GPT for Games | 背景 ❖ ゲーム内コンテンツの自動生成 ➢ GPTを使ってゲームのストーリー,レベル,キャラクターなどを自動生成 ➢ e.g.) MarioGPT ❖ ゲームデザイン・開発のアシスト ➢ ゲームを作るプロセスでGPTがサポート ❖ ゲームプレイ中のサポート ➢ 完成したゲームを遊ぶ際にGPTがサポート ❖ GPTがゲームをプレイ ➢ GPTが自らゲームをプレイしたり,対戦相手になる ➢ e.g.) Atari-GPT, GPT-4 DOOM ❖ ゲームユーザー調査 ➢ ゲームレビューやコメントを分析して,ユーザーの体験を理解 サーベイ論文:GPT for Games: A Scoping Review (2020-2023)

Slide 3

Slide 3 text

3/30 ❖ GPTモデルのトレンド ➢ ChatGPTの登場で,2023年の 関連研究が大幅に増加 ➢ ChatGPTが登場し,ゲーム開 発や新たな活用方法が拡大 GPT for Games | 背景 ❖ GPT活用領域のトレンド ➢ コンテンツの自動生成が最も活発 ➢ GPTモデル活用により,ゲーム開 発が効率化 サーベイ論文:GPT for Games: A Scoping Review (2020-2023)

Slide 4

Slide 4 text

背景:VLMはテキストと画像を扱えるため,ゲームプレイに活用可能 概要:VLMをゲームタスクにおいて方策エージェントとして使用 意義:VLMは従来の強化学習より効率的な方策エージェントの開発に寄与  幅広いタスクへの応用を期待 4/30 Atari-GPT | 概要

Slide 5

Slide 5 text

視覚理解:画面内のオブジェクトなどの特定要素を100語以内で説明 空間的推論:画面内のオブジェクト同士の位置関係を100語以内で説明 戦略:画面の状況に応じて,最適行動を100語以内で提案 識別:画面情報をもとに,ゲームの種類を識別 5/30 Atari-GPT | 手法

Slide 6

Slide 6 text

人間による評価:人間がVLMの出力を評価し,4つの要素を採点 評価基準:VLMの性能を人間や強化学習手法と比較 人間によるプレイ (In-Context Learning) : 人間のプレイデモを与え,ゲーム内の動きをモデルに学習 6/30 Atari-GPT | 手法

Slide 7

Slide 7 text

7/30 ❖ ゲームタスクの種類 (8種類) Atari-GPT | 実験結果

Slide 8

Slide 8 text

❖ VLMの入力プロンプト 8/30 Atari-GPT | 実験結果

Slide 9

Slide 9 text

9/30 ❖ VLMの出力例 ➢ Visual:視覚理解 (オブジェクトの説明) ➢ Spatial:空間的推論 (オブジェクト位置の説明) Atari-GPT | 実験結果

Slide 10

Slide 10 text

10/30 ❖ In-Context Learningの入力プロンプト ➢ 人間に提示するテキスト Atari-GPT | 実験結果

Slide 11

Slide 11 text

11/30 ❖ In-Context Learningの出力例 Atari-GPT | 実験結果 Third frame | ”推論”:現在のフレームでは,ボールは右のパドルとほぼ一直線上にあるが,わ ずかに下に位置している.ボールを打ち返すためには,右パドルは近づいてくるボールと一直線 に並んでいる必要がある.最適な行動は少し下(左)に行くことである. “行動”:3

Slide 12

Slide 12 text

12/30 ❖ In-Context Learningなしでの実験結果 ➢ GPT-4oが全てのゲームタスクで最も高いスコアを示す ➢ ただし,全てのゲームタスクで人間のスコアには負ける Atari-GPT | 実験結果

Slide 13

Slide 13 text

13/30 ❖ In-Context Learningありでの実験結果 ➢ VLMの性能に大きな変化は見られない ➢ 4種類のゲームタスクにおいてGPT-4oが最も高いスコアを示す ❖ 本研究ではランダムな方策よりもスコアが高くなったことを強調 Atari-GPT | 実験結果

Slide 14

Slide 14 text

14/30 ❖ In-Context Learningなしの定性評価 Atari-GPT | 実験結果

Slide 15

Slide 15 text

背景:既存手法は多様なコンテンツ生成ができるものの,特定の意図や制約に 基づく生成が難しく,また十分にプレイできるかどうかが課題 概要:MarioGPTを用いて,マリオステージをテキストから生成 意義:意図や制約に基づいた,多様で再現性のあるコンテンツ生成 15/30 MarioGPT | 概要

Slide 16

Slide 16 text

❖ Prompt ➢ 生成するマリオのレベルに関する条件や特徴を指示するためのテキスト ❖ Frozen Text Encoder ➢ プロンプトをトークン (単語や数字) に分解 ➢ パラメータを固定 (Frozen) することで,一貫性のあるトークン化を実現 16/30 MarioGPT | 手法

Slide 17

Slide 17 text

❖ Initial Tokenized level ➢ タイルやオブジェクトが数値に対応しており,ステージ全体をトークン化 ❖ GPT Layers ➢ 生成されたトークンを参照し,次のトークンを予測 ➢ これにより,タイルやオブジェクトをステージに追加 17/30 MarioGPT | 手法

Slide 18

Slide 18 text

❖ Cross attention ➢ プロンプトのテキスト情報とInitial Tokenized level情報のアテンションを計算 ➢ プロンプトの内容に沿ったステージ生成が可能 ❖ Prediction ➢ Cross Attentionの結果をもとに次のトークンを予測してステージに追加 18/30 MarioGPT | 手法

Slide 19

Slide 19 text

❖ Generated level ➢ 各タイルやオブジェクトを対応する文字に変換し、ステージ全体をテキスト表現 ➢ テキスト表現の各文字を対応するゲームオブジェクトのグラフィックに置換 ➢ この置換により,テキストからカラー画像への変換を実現 19/30 MarioGPT | 手法

Slide 20

Slide 20 text

❖ ステージのクリア率 ➢ 生成されたステージはA*エージェントを使ってクリア可能か検証 ➢ クリア率:生成されたステージの約88.4%がクリア可能 ➢ ベースラインのクリア率31%を大きく上回る結果 20/30 MarioGPT | 実験結果

Slide 21

Slide 21 text

❖ ステージの生成例 21/30 MarioGPT | 実験結果 成功例 失敗例

Slide 22

Slide 22 text

背景:DoomはFPSゲームであり,VLMの性能評価に適した環境 概要:画像からゲーム内の行動をテキストで生成し,プレイする 意義:ゼロショットでゲームプレイを可能にする新しいアプローチを開拓 22/30 Will GPT-4 Run DOOM? | 概要

Slide 23

Slide 23 text

❖ Vision ➢ 使用モデル:GPT-4V ➢ 役割:ゲーム画面のスクリーンショットを解析し,視覚情報をテキスト化 ➢ 詳細:ゲーム内の敵やアイテム,環境などを記述 23/30 Will GPT-4 Run DOOM? | 手法

Slide 24

Slide 24 text

❖ Planner ➢ 使用モデル:GPT-4 ➢ 役割:エージェントに指示を与える戦略プランを立案 ➢ 詳細:30フレームごとにゲーム状態を解析し,自然言語でアクションの計画を立案 24/30 Will GPT-4 Run DOOM? | 手法

Slide 25

Slide 25 text

❖ Agent ➢ 使用モデル:GPT-4 ➢ 役割:Visionからのテキスト情報とPlannerからの戦略指示に基づいて,ゲーム内で の行動を決定 ➢ 詳細:リアルタイムでゲーム環境とやり取りする 25/30 Will GPT-4 Run DOOM? | 手法

Slide 26

Slide 26 text

❖ K-level Experts ➢ 役割:エージェントが行動する際に,追加の専門的なアドバイスを提供 ➢ 詳細:複雑なシナリオで行動の精度を上げるための要素 26/30 Will GPT-4 Run DOOM? | 手法

Slide 27

Slide 27 text

❖ Visionの出力例 (抜粋) ➢ プレイヤーは緑色の床とメタ リックな質感の茶色の壁の部屋 にいるようだ.床には有毒と思 われる緑色の液体が溜まってい る.遠くに悪魔のような赤い敵 がいる. ➢ 左側には現在の武器の弾薬数が 「51」と表示されている. ➢ 中央には「100%」と表示され たヘルスインジケータがある. ➢ 右側にはアーマーのパーセン テージが「4%」と表示されてい る. 27/30 Will GPT-4 Run DOOM? | 実験結果

Slide 28

Slide 28 text

❖ 結論 ➢ GPT-4はDoomタスクで動作し,特に複雑なプロンプトを使用するとより良い結果 を示した ➢ しかし,モデルの行動に対する理由や根拠を見ると,タスクの理解に欠けている部 分がある ❖ 今後の展望 ➢ GPT-4モデルのファインチューニングによって,エージェントの性能向上を期待 28/30 Will GPT-4 Run DOOM? | 結論

Slide 29

Slide 29 text

Atari-GPT: AtariタスクにVLMによる方策エージェントを適用した手法 29/30 MarioGPT: マリオタスクを対象に新たなステージ生成手法を提案 ❖ 傾向と今後 ➢ コンテンツの自動生成による研究が増える予感 ➢ 別のゲーム環境において同様の研究が実施されそう Will GPT-4 Run DOOM?: DoomタスクにVLMによる方策エージェントを適用した手法 まとめ

Slide 30

Slide 30 text

30/30 ❏ Atari-GPT ❏ MarioGPT ❏ GPT4 DOOM 参考文献