Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI for タギロン

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for taxfree taxfree
December 26, 2025
36

AI for タギロン

Avatar for taxfree

taxfree

December 26, 2025
Tweet

Transcript

  1. 1. 自己紹介 • Name: tax_free • Twitter: @taxfree_python • 所属:

    ‣ 東京科学大学 情報理工学院 数理・計算科学系 (B4) ‣ RIKEN BDR AI 生物学研究チーム(研究パートタイマー) • 興味: ‣ Mathematical Optimization ‣ AI for なんとか, etc.
  2. 2-1. タギロンとは • 2〜4 人対戦の推理ゲーム(今回は 2 人で実装) • 各プレイヤーは 5

    枚の数字タイル(相手に見えない) • 質問カードで情報を得て、相手のタイルを当てる 終了条件 • 相手の 5 枚を正確に宣言 → 勝ち • 山札・場のカードがなくなる → 引き分け
  3. 2-2. タイルとアクション タイル(計 20 枚 → 各プレイヤー 5 枚) •

    赤: 0,1,2,3,4,6,7,8,9(各 1 枚) • 青: 0,1,2,3,4,6,7,8,9(各 1 枚) • 黄: 5 のみ(2 枚) ← 5 は黄色だけ! 手札は数字の小さい順に並ぶ(位置 1〜5) アクション(毎ターン 1 つ選択) 1. 質問: 場のカードを 1 枚選んで相手に質問 2. 宣言: 相手の 5 枚を予想(正解→勝ち、不正解→手番消費)
  4. 4. 実装方法 • 言語: Python 3.14 • LLM SDK: 各社公式を使用

    ‣ openai, google-genai, anthropic • その他: ‣ pydantic (Structured Output) ‣ tenacity (リトライ処理)
  5. 4. Solver(外部推論エンジン) 質問の回答から論理的に導ける情報を計算し、プロンプトに追加: ### 相手手札の候補 候補数: 957 位置ごとの数候補: 1:[2,3,4,5,6] /

    2:[2,3,4,5,6,7] / ... 位置ごとの色候補: 1:[red,blue,yellow] / ... • ON: モデルに候補情報を渡す(推論の補助) • OFF: 質問と回答の履歴のみ(モデルが自力で推論)
  6. 5-1. Experiment Setup Provider Model In $/1M Out $/1M Tier

    Google Gemini 3 Flash 0.30 2.50 Low Google Gemini 3 Pro 2.00 12.00 High OpenAI GPT-4.1 mini 0.40 1.60 Low OpenAI GPT-5 1.25 10.00 High Anthropic Claude 4.5 Haiku 0.80 4.00 Low Anthropic Claude 4.5 Opus 5.00 25.00 High 「高いモデルが強い?」
  7. 5-1b. 対戦データの生成方法 • 5 インスタンス × 先手後手入れ替え = 10 対戦/組み合わせ

    • 各インスタンスで以下を固定(seed 指定): ‣ 両プレイヤーの手札 ‣ 山札の順番 ‣ 場の質問カード → 同じ盤面でモデル間の性能を公平に比較
  8. 5-2. Key Result Gemini 3 Flash が最強 • vs GPT-5:

    9-1 (90%) • vs Gemini 3 Pro: 5-5 (互角)
  9. 5-3. 学び①: Multi-agent benchmark の注意点 今回の結果: 先行勝率 58% • 一般的なベンチマーク:

    single-agent → 実行順序の影響なし • 対戦型/multi-agent: 実行順序で結果が大きく変わりうる 対策 • 先手後手を入れ替えて両方評価 • 複数インスタンスで平均を取る
  10. 5-4. 学び②: Context は多ければいいわけではない Model Solver ON Solver OFF 変化

    GPT-5 20% 60% +40pt Gemini 3 Pro 75% 60% −15pt • GPT-5: 候補情報がノイズになる? • Gemini Pro: 候補情報を活用できる • → Context はモデルごとに最適化が必要
  11. 5-5. 学び③: 実コストは動かさないと分からない • GPT-5 は Gemini 3 Flash の

    20〜30 倍 のトークンを消費 • 公式の $/M tokens だけではコスト感が掴めない
  12. 6. 実装 Tips • Prompt/Context 設計 ‣「宣言しろ」と書かないと質問ばかりする ‣ 情報を渡しすぎるとノイズになることも ‣

    → モデルごとに最適な情報量が違う • Structured Output の仕様差 ‣ 各社微妙に違って面倒だった • 価格 ≠ 性能 ‣ 最安の Gemini 3 Flash が最強という結果に
  13. 7. 今後 • Prompt/モデルの自動最適化 • Vision を使った入力 • 4 人プレイへの拡張

    • より Agent っぽいふるまいができるように する (function calling で適切なタイミング で solver を叩けるようにする、など) • ロボットハンドで実際にプレイ