Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文サーベイ] Survey on Pokemon AI 3

Avatar for tt1717 tt1717
July 02, 2025

[論文サーベイ] Survey on Pokemon AI 3

[論文サーベイ] Survey on Pokemon AI 3
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
1.Pokémon Battle Agent based on LLMs,
Zihan Lv, Qihang Cen. (Tsinghua University.)
[AML'24] (Cited by: - )
2.Explore Outworld Knowledge in Large Language Models: A Case Study in Pokemon Game,
Hongqiu Wu et al. (Shanghai Jiao Tong University et al.)
[ICLR'24 Reject] (Cited by: - )

Avatar for tt1717

tt1717

July 02, 2025
Tweet

More Decks by tt1717

Other Decks in Research

Transcript

  1. Survey on Pokemon AI 3 タイトル 学会/コース 著者/所属 引用数 Pokémon

    Battle Agent based on LLMs AML'24 (NeurIPS’23?) [OpenReview] Zihan Lv, Qihang Cen. (Tsinghua University.) - Explore Outworld Knowledge in Large Language Models: A Case Study in Pokemon Game ICLR'24 Reject [OpenReview] Hongqiu Wu et al. (Shanghai Jiao Tong University et al.) - 2025/07/02 1/14
  2. 2/14 Overall framework GLM (Generative Language Model) を基盤として4つの手法を適用した論文 1. In-Context

    Reinforcement Learning (ICRL):文脈内強化学習 2. Knowledge-Augmented Generation (KAG):知識拡張生成 3. Consistent Action Generation:一貫性のある行動生成 4. Supervised Fine-Tuning (SFT):教師ありファインチューニング
  3. 3/14 数値的な報酬の代わりにテキストベースのフィードバックを報酬として用いる 1. HPの変化:攻撃技によるダメージ量を反映 2. 技の効果判定:こうかばつぐん/いまひとつ/無効などの情報 3. 技の追加効果:ステータス変化や状態異常の有無 4. 技の優先度情報:行動順から素早さの目安を推定

    In-Context Reinforcement Learning (ICRL) Feedback example of Turn 10: opposing Cramorant started Dynamax. opposing Cramorantused Max Geyser. It damaged Aegislash’s HP by 39% (61% left). Aegislash used Close Combat. It was ineffective to opposing Cramorant. It damaged opposing Cramorant’s HP by 18% (82% left). It decreased Aegislash’s def 1 level. It decreased Aegislash’s spd 1 level. opposing Cramorant outspeeded Aegislash. 10ターン目のフィードバック例:相手CramorantはDynamaxを開始.相手CramorantはMax Geyserを使用.①イージスラッ シュのHPに39%のダメージを与えた(残り61%).イージスラッシュは接近戦を使用.②相手のクレイモラントには効果がな かった.①相手のクラモラントのHPを18%(残り82%)削った. ③イージスラッシュの防御力を1段階下げた.Aegislashのspdを1段階減少させた.④相手のCramorantはAegislashよりも素早 い.
  4. ポケモンに関連する知識を事前に導入する (LLMのハルシネーションを抑制するRAGのイメージ) 1. タイプ相性:こうかばつぐん/いまひとつ/無効など 2. 技・特性の追加効果:技の命中率,状態異常が起こる確率など a. ヘドロこうげき:ダメージに加えて30%の確率でどく状態にする 4/14 Knowledge-Augmented

    Generation (KAG) 現在の状態での余分な注釈: politoedを防御側とした場合,①GRASS,ELECTRICは2倍のダメージを与える; STEEL,ICE,FIREは politoedに0.5倍のダメージを与えるのみ; ①politoedを攻撃側とした場合,WATERはGROUND,FIREのポケモンに2倍のダメージを与える; WATERはGRASSのポケモンに 0.5倍のダメージを与える; ②Move- thunderbolt: タイプ:でんき タイプ:でんき,技:とくこう,威力:92,加速:100%,効果:10%の確率で対象 をマヒ状態にする. Extra annotation in current state: politoed as defender, GRASS,ELECTRIC deal 2x damage; STEEL,ICE,FIRE only deal 0.5x damage to politoed; politoed as attacker, WATER deal 2x damage to GROUND,FIRE pokemon; WATER deal 0.5x damage to GRASS pokemon; Move- thunderbolt: Type: ELECTRIC, Cate: Special, Power: 92, Acc: 100%, Effect: Has a 10% chance to paralyze the target.
  5. 5/14 LLMの推論から一貫性のある行動を出力する 1. Chain-of-Thought (CoT):状況を分析する思考プロセスを明示してから,行動出力 2. Tree-of-Thought (ToT):3の選択肢を生成し,それらを評価して最良の行動を選択 3. Self-Consistency

    (SC):3の行動候補を生成し,多数決で最も一貫性のある行動を選択 Consistent Action Generation Agent generate 3 move options in Self-Consistency, the first one choose "U-Turn" to change pokemon while the other 2 use "Brave Bird" to cast super-effective attack. It is actually more proper to choose attack because there has an advantage both on speed and type. ③エージェントは「Self-Consistency」で3つの技を出すが,最初の 1つは「Uターン」で,残りの2つは「ブレイブバード」で超強力な 攻撃を繰り出す.攻撃技を選んだ方が,スピードとタイプの両方で 有利になるので,実際には攻撃技を選ぶ方が適切である.
  6. 人間プレイヤーや高勝率ボットから取得したバトルデータをモデルに学習 学習データ: - 勝利側が行った決定的行動を教師データとして使用 - 相手を倒す技,適切な交代など - あえてドラゴンタイプを出しておいて,相手にドラゴン技を使わせる. -> ドラゴン技を無効化できる別のポケモンに交代する.

    適切でない行動選択の抑制につながり,信頼性のある判断が可能になる 6/14 Supervised Fine-Tuning (SFT) ドラゴンタイプはドラゴン技が弱点 フェアリータイプはドラゴン技を無効 ・Zygarde:ジガルデ (ドラゴンタイプ) ・Kyurem:キュレム (ドラゴンタイプ) ・Max Wyrmwind:ダイドラグーン (ドラゴン技) ・Tapu Bulu:カプ・ブルル (フェアリー)
  7. ・ICRL + KAG = None ・GLM, GLM-4:清華大学の研究室が作成したLLM ・ICRL + KAG

    + ”CoT or ToT or SC” + SFTの結果 は記述されていない 7/14 GLM vs. ヒューリスティックボット (バフ技や設置技を使用するボット) での勝率 - ICRL + KAGを使用して”CoT, ToT, SC”の各手法をそれぞれ100試合で評価 - GLMには,one-shotプロンプト (一つの例を指示) を適用 - 関連知識 (?) をプロンプトに追加 - 過去のバトル履歴を参照するターン数 = 2 結果 - ICRL + RAG + ”CoT or ToT or SC”で勝率は向上したが,人間レベルには到達しない - GLM-4-Flashをそのまま適用した場合,勝率は2%で低くPokeLLMonと同じ結果 - GLM-4-Flash + SFT の場合,勝率は10%に改善 - ヒューリステックボットのバトルデータでSFT - JSONフォーマットを使わずにデータを出力するようになり,不正な行動 (?) も出力しない Results
  8. 対戦相手 Random Player: - 各ターンで4つの技をそれぞれ25%の確率で選択する - ポケモンの交代は戦闘中のポケモンが倒れた場合に行う - 交代先のポケモンもランダムに選出する MaxDamage

    Player: - 各ターンで4つの技から,威力とタイプ相性を計算し,最もダメージの大きい技を選択 ポケモン選出 - Webから収集された200体の人気ポケモンの詳細設定が定義されている - プレイヤーと対戦相手の両者が,このポケモン群からランダムにポケモンを選択 9/14 POKEMON-PY
  9. 言語モデルプレイヤー - 言語モデルのパラメータ:θ,行動Yを取る確率:pθ - 現在バトルに出ているポケモン:P0 - 名前,HP,タイプ,持ち物,使用可能な技,テラスタイプなどの全ての特徴量を含む - 相手ポケモン:Q0 -

    名前,HPだけ観測できる (それ以外の情報は観測できない) - 待機ポケモン:P1, …, Pk-1 - kは利用可能なポケモンの総数 - バトルログ:L - 自然言語の文の集合 - アクション:Y - move:技を1つ選択して使用 - switch:戦闘中のポケモンを待機中の別のポケモンに交代する - tera & move:テラスタルを行い,タイプ変更し,技を1つ選択して使用 10/14 POKEMON-PY
  10. ポケモンバトルの5つの概念から,事実ベースの質問集を作成し,評価する - PT, MT, ETでは100問ずつ作成し,回答内容をルールベース (プログラム)で自動評価 - AB, IMでは20問ずつ作成し,回答内容を人が読んで評価 プロンプト

    - “In the pokemon world”というワードを最初に入れる - In the pokemon world, what type is Pikachu?(ポケモン世界において,ピカチュウのタイプは何ですか?) - In the pokemon world, what is the effectiveness of Water type against Dragon type?(ポケモン世界にお いて,みずタイプの攻撃はドラゴンタイプに対してどのくらい効果的ですか?) 質問に対する正答率 - ChatGPTはPT, MTにおいて80%以上の正答率 - ポケモンに関するデータに触れていたため,部分的な知識を保有している - Alpaca (小規模モデル) は全ての質問に対して低い正答率で,ほとんどポケモン知識を保有していない 11/14 Results PT ポケモンのタイプ MT 技のタイプ AB 特性 IM 持ち物 ET タイプ相性
  11. 推論が必要な質問セットを作成し,”相手ポケモンに対して繰り出すべき技を提案せよ”という課題を与える - モデルが4つの技から妥当な技を選択しているかを評価 - モデルの思考過程を出力させるため,”Let’s think step by step.”というプロンプトを使用 ChatGPTの解答例

    - 1番目の質問ではタイプ相性を理解している - 2番目の質問ではタイプ相性を誤認識し,1番目の回答と矛盾した回答をしている - 推論プロセスの中で知識が歪んで適用される -> モデルは一定のポケモン知識を保持しているが,その知識を推論にうまく活用できない可能性がある 12/14 Results 質問 応答 【質問】WaterタイプはDragonタイプに対してどれくらい効果的ですか? 【ChatGPTの応答】:Waterタイプの技は,Dragonタイプのポケモンに対 してあまり効果的ではありません.(✓ 正解) 【質問】相手ポケモンがカイリューのとき,どの技を選びますか?Let’s think step by step. 【ChatGPTの応答】:Hydro Pump(水タイプの技)は,Dragonタイプの カイリューに対してタイプ弱点のため効果抜群です.(× 誤り)
  12. 13/14 Pokémon Battle Agent: - PokeLLMon + SFTの手法 (LLMにGLMを使用) Conclusion

    POKEMON-PY: - ポケモンバトルをテキストだけで行うライブラリを提案 ❖ 傾向と今後 ➢ ポケモンバトルに特化したチューニングに力を入れている印象 ➢ SFTを使った勝率向上は使えそう ➢ RLHFによるフィードバックも有効に感じる