Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AI for タギロン
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
taxfree
December 26, 2025
0
36
AI for タギロン
taxfree
December 26, 2025
Tweet
Share
More Decks by taxfree
See All by taxfree
traP 2024 忘年会
taxfree_python
0
9
traP ユニークビジョン LT 会
taxfree_python
0
12
R.*u.*f.*f.*
taxfree_python
0
14
traP_新入生オリエンテーション_2024
taxfree_python
0
98
A Beginner's Guide to Quantum computing
taxfree_python
0
400
How to create slack Bot with Python?
taxfree_python
1
340
create tweet Word-cloud with python
taxfree_python
1
360
I went to PyCon APAC 2019
taxfree_python
0
30
Featured
See All Featured
Context Engineering - Making Every Token Count
addyosmani
9
620
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.2k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.3k
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
The Cult of Friendly URLs
andyhume
79
6.8k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
0
1.8k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
New Earth Scene 8
popppiees
1
1.4k
Bash Introduction
62gerente
615
210k
Marketing to machines
jonoalderson
1
4.6k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.9k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Transcript
AI for タギロン tax_free Laboratory Automation 月例勉強会 / 2025.12
1. 自己紹介 • Name: tax_free • Twitter: @taxfree_python • 所属:
‣ 東京科学大学 情報理工学院 数理・計算科学系 (B4) ‣ RIKEN BDR AI 生物学研究チーム(研究パートタイマー) • 興味: ‣ Mathematical Optimization ‣ AI for なんとか, etc.
2-1. タギロンとは • 2〜4 人対戦の推理ゲーム(今回は 2 人で実装) • 各プレイヤーは 5
枚の数字タイル(相手に見えない) • 質問カードで情報を得て、相手のタイルを当てる 終了条件 • 相手の 5 枚を正確に宣言 → 勝ち • 山札・場のカードがなくなる → 引き分け
2-2. タイルとアクション タイル(計 20 枚 → 各プレイヤー 5 枚) •
赤: 0,1,2,3,4,6,7,8,9(各 1 枚) • 青: 0,1,2,3,4,6,7,8,9(各 1 枚) • 黄: 5 のみ(2 枚) ← 5 は黄色だけ! 手札は数字の小さい順に並ぶ(位置 1〜5) アクション(毎ターン 1 つ選択) 1. 質問: 場のカードを 1 枚選んで相手に質問 2. 宣言: 相手の 5 枚を予想(正解→勝ち、不正解→手番消費)
3. なぜタギロン? 部分観測 + 質問選択 → Agent 性能のちょうどいいベンチマーク • 難しすぎず簡単すぎない
• 推論能力を測れる • 1 ゲーム数分で終わる
4. 実装方法 • 言語: Python 3.14 • LLM SDK: 各社公式を使用
‣ openai, google-genai, anthropic • その他: ‣ pydantic (Structured Output) ‣ tenacity (リトライ処理)
4. Solver(外部推論エンジン) 質問の回答から論理的に導ける情報を計算し、プロンプトに追加: ### 相手手札の候補 候補数: 957 位置ごとの数候補: 1:[2,3,4,5,6] /
2:[2,3,4,5,6,7] / ... 位置ごとの色候補: 1:[red,blue,yellow] / ... • ON: モデルに候補情報を渡す(推論の補助) • OFF: 質問と回答の履歴のみ(モデルが自力で推論)
5-1. Experiment Setup Provider Model In $/1M Out $/1M Tier
Google Gemini 3 Flash 0.30 2.50 Low Google Gemini 3 Pro 2.00 12.00 High OpenAI GPT-4.1 mini 0.40 1.60 Low OpenAI GPT-5 1.25 10.00 High Anthropic Claude 4.5 Haiku 0.80 4.00 Low Anthropic Claude 4.5 Opus 5.00 25.00 High 「高いモデルが強い?」
5-1b. 対戦データの生成方法 • 5 インスタンス × 先手後手入れ替え = 10 対戦/組み合わせ
• 各インスタンスで以下を固定(seed 指定): ‣ 両プレイヤーの手札 ‣ 山札の順番 ‣ 場の質問カード → 同じ盤面でモデル間の性能を公平に比較
5-2. Key Result Gemini 3 Flash が最強 • vs GPT-5:
9-1 (90%) • vs Gemini 3 Pro: 5-5 (互角)
5-3. 学び①: Multi-agent benchmark の注意点 今回の結果: 先行勝率 58% • 一般的なベンチマーク:
single-agent → 実行順序の影響なし • 対戦型/multi-agent: 実行順序で結果が大きく変わりうる 対策 • 先手後手を入れ替えて両方評価 • 複数インスタンスで平均を取る
5-4. 学び②: Context は多ければいいわけではない Model Solver ON Solver OFF 変化
GPT-5 20% 60% +40pt Gemini 3 Pro 75% 60% −15pt • GPT-5: 候補情報がノイズになる? • Gemini Pro: 候補情報を活用できる • → Context はモデルごとに最適化が必要
5-5. 学び③: 実コストは動かさないと分からない • GPT-5 は Gemini 3 Flash の
20〜30 倍 のトークンを消費 • 公式の $/M tokens だけではコスト感が掴めない
6. 実装 Tips • Prompt/Context 設計 ‣「宣言しろ」と書かないと質問ばかりする ‣ 情報を渡しすぎるとノイズになることも ‣
→ モデルごとに最適な情報量が違う • Structured Output の仕様差 ‣ 各社微妙に違って面倒だった • 価格 ≠ 性能 ‣ 最安の Gemini 3 Flash が最強という結果に
7. 今後 • Prompt/モデルの自動最適化 • Vision を使った入力 • 4 人プレイへの拡張
• より Agent っぽいふるまいができるように する (function calling で適切なタイミング で solver を叩けるようにする、など) • ロボットハンドで実際にプレイ