AI for タギロン

AI for タギロン tax_free Laboratory Automation 月例勉強会 / 2025.12

1. 自己紹介 • Name: tax_free • Twitter: @taxfree_python • 所属:
‣ 東京科学大学情報理工学院数理・計算科学系 (B4) ‣ RIKEN BDR AI 生物学研究チーム(研究パートタイマー) • 興味: ‣ Mathematical Optimization ‣ AI for なんとか, etc.

2-1. タギロンとは • 2〜4 人対戦の推理ゲーム(今回は 2 人で実装) • 各プレイヤーは 5
枚の数字タイル(相手に見えない) • 質問カードで情報を得て、相手のタイルを当てる終了条件 • 相手の 5 枚を正確に宣言 → 勝ち • 山札・場のカードがなくなる → 引き分け

2-2. タイルとアクションタイル(計 20 枚 → 各プレイヤー 5 枚) •
赤: 0,1,2,3,4,6,7,8,9(各 1 枚) • 青: 0,1,2,3,4,6,7,8,9(各 1 枚) • 黄: 5 のみ(2 枚) ← 5 は黄色だけ！手札は数字の小さい順に並ぶ(位置 1〜5) アクション(毎ターン 1 つ選択) 1. 質問: 場のカードを 1 枚選んで相手に質問 2. 宣言: 相手の 5 枚を予想(正解→勝ち、不正解→手番消費)

3. なぜタギロン？部分観測 + 質問選択 → Agent 性能のちょうどいいベンチマーク • 難しすぎず簡単すぎない
• 推論能力を測れる • 1 ゲーム数分で終わる

4. 実装方法 • 言語: Python 3.14 • LLM SDK: 各社公式を使用
‣ openai, google-genai, anthropic • その他: ‣ pydantic (Structured Output) ‣ tenacity (リトライ処理)

4. Solver(外部推論エンジン) 質問の回答から論理的に導ける情報を計算し、プロンプトに追加: ### 相手手札の候補候補数: 957 位置ごとの数候補: 1:[2,3,4,5,6] /
2:[2,3,4,5,6,7] / ... 位置ごとの色候補: 1:[red,blue,yellow] / ... • ON: モデルに候補情報を渡す(推論の補助) • OFF: 質問と回答の履歴のみ(モデルが自力で推論)

5-1. Experiment Setup Provider Model In $/1M Out $/1M Tier
Google Gemini 3 Flash 0.30 2.50 Low Google Gemini 3 Pro 2.00 12.00 High OpenAI GPT-4.1 mini 0.40 1.60 Low OpenAI GPT-5 1.25 10.00 High Anthropic Claude 4.5 Haiku 0.80 4.00 Low Anthropic Claude 4.5 Opus 5.00 25.00 High 「高いモデルが強い?」

5-1b. 対戦データの生成方法 • 5 インスタンス × 先手後手入れ替え = 10 対戦/組み合わせ
• 各インスタンスで以下を固定(seed 指定): ‣ 両プレイヤーの手札 ‣ 山札の順番 ‣ 場の質問カード → 同じ盤面でモデル間の性能を公平に比較

5-2. Key Result Gemini 3 Flash が最強 • vs GPT-5:
9-1 (90%) • vs Gemini 3 Pro: 5-5 (互角)

5-3. 学び①: Multi-agent benchmark の注意点今回の結果: 先行勝率 58% • 一般的なベンチマーク:
single-agent → 実行順序の影響なし • 対戦型/multi-agent: 実行順序で結果が大きく変わりうる対策 • 先手後手を入れ替えて両方評価 • 複数インスタンスで平均を取る

5-4. 学び②: Context は多ければいいわけではない Model Solver ON Solver OFF 変化
GPT-5 20% 60% +40pt Gemini 3 Pro 75% 60% −15pt • GPT-5: 候補情報がノイズになる？ • Gemini Pro: 候補情報を活用できる • → Context はモデルごとに最適化が必要

5-5. 学び③: 実コストは動かさないと分からない • GPT-5 は Gemini 3 Flash の
20〜30 倍のトークンを消費 • 公式の $/M tokens だけではコスト感が掴めない

6. 実装 Tips • Prompt/Context 設計 ‣「宣言しろ」と書かないと質問ばかりする ‣ 情報を渡しすぎるとノイズになることも ‣
→ モデルごとに最適な情報量が違う • Structured Output の仕様差 ‣ 各社微妙に違って面倒だった • 価格 ≠ 性能 ‣ 最安の Gemini 3 Flash が最強という結果に

7. 今後 • Prompt/モデルの自動最適化 • Vision を使った入力 • 4 人プレイへの拡張
• より Agent っぽいふるまいができるようにする (function calling で適切なタイミングで solver を叩けるようにする、など) • ロボットハンドで実際にプレイ

AI for タギロン

AI for タギロン

taxfree

More Decks by taxfree

Featured

Transcript

AI for タギロン tax_free Laboratory Automation 月例勉強会 / 2025.12

1. 自己紹介 • Name: tax_free • Twitter: @taxfree_python • 所属:

2-1. タギロンとは • 2〜4 人対戦の推理ゲーム(今回は 2 人で実装) • 各プレイヤーは 5

2-2. タイルとアクションタイル(計 20 枚 → 各プレイヤー 5 枚) •

3. なぜタギロン？部分観測 + 質問選択 → Agent 性能のちょうどいいベンチマーク • 難しすぎず簡単すぎない

4. 実装方法 • 言語: Python 3.14 • LLM SDK: 各社公式を使用

4. Solver(外部推論エンジン) 質問の回答から論理的に導ける情報を計算し、プロンプトに追加: ### 相手手札の候補候補数: 957 位置ごとの数候補: 1:[2,3,4,5,6] /

5-1. Experiment Setup Provider Model In $/1M Out $/1M Tier

5-1b. 対戦データの生成方法 • 5 インスタンス × 先手後手入れ替え = 10 対戦/組み合わせ

5-2. Key Result Gemini 3 Flash が最強 • vs GPT-5:

5-3. 学び①: Multi-agent benchmark の注意点今回の結果: 先行勝率 58% • 一般的なベンチマーク:

5-4. 学び②: Context は多ければいいわけではない Model Solver ON Solver OFF 変化

5-5. 学び③: 実コストは動かさないと分からない • GPT-5 は Gemini 3 Flash の

6. 実装 Tips • Prompt/Context 設計 ‣「宣言しろ」と書かないと質問ばかりする ‣ 情報を渡しすぎるとノイズになることも ‣

7. 今後 • Prompt/モデルの自動最適化 • Vision を使った入力 • 4 人プレイへの拡張