Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AI for タギロン
Search
taxfree
December 26, 2025
0
7
AI for タギロン
taxfree
December 26, 2025
Tweet
Share
More Decks by taxfree
See All by taxfree
traP 2024 忘年会
taxfree_python
0
9
traP ユニークビジョン LT 会
taxfree_python
0
12
R.*u.*f.*f.*
taxfree_python
0
13
traP_新入生オリエンテーション_2024
taxfree_python
0
95
A Beginner's Guide to Quantum computing
taxfree_python
0
400
How to create slack Bot with Python?
taxfree_python
1
340
create tweet Word-cloud with python
taxfree_python
1
360
I went to PyCon APAC 2019
taxfree_python
0
30
Featured
See All Featured
HDC tutorial
michielstock
0
260
From π to Pie charts
rasagy
0
91
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.8k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.1k
What's in a price? How to price your products and services
michaelherold
246
13k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
88
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Java REST API Framework Comparison - PWX 2021
mraible
34
9k
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
55
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.6k
How to Ace a Technical Interview
jacobian
281
24k
Transcript
AI for タギロン tax_free Laboratory Automation 月例勉強会 / 2025.12
1. 自己紹介 • Name: tax_free • Twitter: @taxfree_python • 所属:
‣ 東京科学大学 情報理工学院 数理・計算科学系 (B4) ‣ RIKEN BDR AI 生物学研究チーム(研究パートタイマー) • 興味: ‣ Mathematical Optimization ‣ AI for なんとか, etc.
2-1. タギロンとは • 2〜4 人対戦の推理ゲーム(今回は 2 人で実装) • 各プレイヤーは 5
枚の数字タイル(相手に見えない) • 質問カードで情報を得て、相手のタイルを当てる 終了条件 • 相手の 5 枚を正確に宣言 → 勝ち • 山札・場のカードがなくなる → 引き分け
2-2. タイルとアクション タイル(計 20 枚 → 各プレイヤー 5 枚) •
赤: 0,1,2,3,4,6,7,8,9(各 1 枚) • 青: 0,1,2,3,4,6,7,8,9(各 1 枚) • 黄: 5 のみ(2 枚) ← 5 は黄色だけ! 手札は数字の小さい順に並ぶ(位置 1〜5) アクション(毎ターン 1 つ選択) 1. 質問: 場のカードを 1 枚選んで相手に質問 2. 宣言: 相手の 5 枚を予想(正解→勝ち、不正解→手番消費)
3. なぜタギロン? 部分観測 + 質問選択 → Agent 性能のちょうどいいベンチマーク • 難しすぎず簡単すぎない
• 推論能力を測れる • 1 ゲーム数分で終わる
4. 実装方法 • 言語: Python 3.14 • LLM SDK: 各社公式を使用
‣ openai, google-genai, anthropic • その他: ‣ pydantic (Structured Output) ‣ tenacity (リトライ処理)
4. Solver(外部推論エンジン) 質問の回答から論理的に導ける情報を計算し、プロンプトに追加: ### 相手手札の候補 候補数: 957 位置ごとの数候補: 1:[2,3,4,5,6] /
2:[2,3,4,5,6,7] / ... 位置ごとの色候補: 1:[red,blue,yellow] / ... • ON: モデルに候補情報を渡す(推論の補助) • OFF: 質問と回答の履歴のみ(モデルが自力で推論)
5-1. Experiment Setup Provider Model In $/1M Out $/1M Tier
Google Gemini 3 Flash 0.30 2.50 Low Google Gemini 3 Pro 2.00 12.00 High OpenAI GPT-4.1 mini 0.40 1.60 Low OpenAI GPT-5 1.25 10.00 High Anthropic Claude 4.5 Haiku 0.80 4.00 Low Anthropic Claude 4.5 Opus 5.00 25.00 High 「高いモデルが強い?」
5-1b. 対戦データの生成方法 • 5 インスタンス × 先手後手入れ替え = 10 対戦/組み合わせ
• 各インスタンスで以下を固定(seed 指定): ‣ 両プレイヤーの手札 ‣ 山札の順番 ‣ 場の質問カード → 同じ盤面でモデル間の性能を公平に比較
5-2. Key Result Gemini 3 Flash が最強 • vs GPT-5:
9-1 (90%) • vs Gemini 3 Pro: 5-5 (互角)
5-3. 学び①: Multi-agent benchmark の注意点 今回の結果: 先行勝率 58% • 一般的なベンチマーク:
single-agent → 実行順序の影響なし • 対戦型/multi-agent: 実行順序で結果が大きく変わりうる 対策 • 先手後手を入れ替えて両方評価 • 複数インスタンスで平均を取る
5-4. 学び②: Context は多ければいいわけではない Model Solver ON Solver OFF 変化
GPT-5 20% 60% +40pt Gemini 3 Pro 75% 60% −15pt • GPT-5: 候補情報がノイズになる? • Gemini Pro: 候補情報を活用できる • → Context はモデルごとに最適化が必要
5-5. 学び③: 実コストは動かさないと分からない • GPT-5 は Gemini 3 Flash の
20〜30 倍 のトークンを消費 • 公式の $/M tokens だけではコスト感が掴めない
6. 実装 Tips • Prompt/Context 設計 ‣「宣言しろ」と書かないと質問ばかりする ‣ 情報を渡しすぎるとノイズになることも ‣
→ モデルごとに最適な情報量が違う • Structured Output の仕様差 ‣ 各社微妙に違って面倒だった • 価格 ≠ 性能 ‣ 最安の Gemini 3 Flash が最強という結果に
7. 今後 • Prompt/モデルの自動最適化 • Vision を使った入力 • 4 人プレイへの拡張
• より Agent っぽいふるまいができるように する (function calling で適切なタイミング で solver を叩けるようにする、など) • ロボットハンドで実際にプレイ