Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AI for タギロン
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
taxfree
December 26, 2025
41
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AI for タギロン
taxfree
December 26, 2025
More Decks by taxfree
See All by taxfree
Evolving collaborative research ideas with multi-agent grounding in lab-specific contexts and literature
taxfree_python
0
5
研究開発のための Coding Agent 活用術
taxfree_python
0
85
R&D_UIのラストワンマイルをLLMで埋める
taxfree_python
0
19
traP 2024 忘年会
taxfree_python
0
11
traP ユニークビジョン LT 会
taxfree_python
0
17
R.*u.*f.*f.*
taxfree_python
0
19
traP_新入生オリエンテーション_2024
taxfree_python
0
110
A Beginner's Guide to Quantum computing
taxfree_python
0
420
How to create slack Bot with Python?
taxfree_python
1
350
Featured
See All Featured
Statistics for Hackers
jakevdp
799
230k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
250
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
360
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
330
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.6k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
300
Chasing Engaging Ingredients in Design
codingconduct
0
210
Ethics towards AI in product and experience design
skipperchong
2
300
Information Architects: The Missing Link in Design Systems
soysaucechin
0
960
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
840
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
330
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
570
Transcript
AI for タギロン tax_free Laboratory Automation 月例勉強会 / 2025.12
1. 自己紹介 • Name: tax_free • Twitter: @taxfree_python • 所属:
‣ 東京科学大学 情報理工学院 数理・計算科学系 (B4) ‣ RIKEN BDR AI 生物学研究チーム(研究パートタイマー) • 興味: ‣ Mathematical Optimization ‣ AI for なんとか, etc.
2-1. タギロンとは • 2〜4 人対戦の推理ゲーム(今回は 2 人で実装) • 各プレイヤーは 5
枚の数字タイル(相手に見えない) • 質問カードで情報を得て、相手のタイルを当てる 終了条件 • 相手の 5 枚を正確に宣言 → 勝ち • 山札・場のカードがなくなる → 引き分け
2-2. タイルとアクション タイル(計 20 枚 → 各プレイヤー 5 枚) •
赤: 0,1,2,3,4,6,7,8,9(各 1 枚) • 青: 0,1,2,3,4,6,7,8,9(各 1 枚) • 黄: 5 のみ(2 枚) ← 5 は黄色だけ! 手札は数字の小さい順に並ぶ(位置 1〜5) アクション(毎ターン 1 つ選択) 1. 質問: 場のカードを 1 枚選んで相手に質問 2. 宣言: 相手の 5 枚を予想(正解→勝ち、不正解→手番消費)
3. なぜタギロン? 部分観測 + 質問選択 → Agent 性能のちょうどいいベンチマーク • 難しすぎず簡単すぎない
• 推論能力を測れる • 1 ゲーム数分で終わる
4. 実装方法 • 言語: Python 3.14 • LLM SDK: 各社公式を使用
‣ openai, google-genai, anthropic • その他: ‣ pydantic (Structured Output) ‣ tenacity (リトライ処理)
4. Solver(外部推論エンジン) 質問の回答から論理的に導ける情報を計算し、プロンプトに追加: ### 相手手札の候補 候補数: 957 位置ごとの数候補: 1:[2,3,4,5,6] /
2:[2,3,4,5,6,7] / ... 位置ごとの色候補: 1:[red,blue,yellow] / ... • ON: モデルに候補情報を渡す(推論の補助) • OFF: 質問と回答の履歴のみ(モデルが自力で推論)
5-1. Experiment Setup Provider Model In $/1M Out $/1M Tier
Google Gemini 3 Flash 0.30 2.50 Low Google Gemini 3 Pro 2.00 12.00 High OpenAI GPT-4.1 mini 0.40 1.60 Low OpenAI GPT-5 1.25 10.00 High Anthropic Claude 4.5 Haiku 0.80 4.00 Low Anthropic Claude 4.5 Opus 5.00 25.00 High 「高いモデルが強い?」
5-1b. 対戦データの生成方法 • 5 インスタンス × 先手後手入れ替え = 10 対戦/組み合わせ
• 各インスタンスで以下を固定(seed 指定): ‣ 両プレイヤーの手札 ‣ 山札の順番 ‣ 場の質問カード → 同じ盤面でモデル間の性能を公平に比較
5-2. Key Result Gemini 3 Flash が最強 • vs GPT-5:
9-1 (90%) • vs Gemini 3 Pro: 5-5 (互角)
5-3. 学び①: Multi-agent benchmark の注意点 今回の結果: 先行勝率 58% • 一般的なベンチマーク:
single-agent → 実行順序の影響なし • 対戦型/multi-agent: 実行順序で結果が大きく変わりうる 対策 • 先手後手を入れ替えて両方評価 • 複数インスタンスで平均を取る
5-4. 学び②: Context は多ければいいわけではない Model Solver ON Solver OFF 変化
GPT-5 20% 60% +40pt Gemini 3 Pro 75% 60% −15pt • GPT-5: 候補情報がノイズになる? • Gemini Pro: 候補情報を活用できる • → Context はモデルごとに最適化が必要
5-5. 学び③: 実コストは動かさないと分からない • GPT-5 は Gemini 3 Flash の
20〜30 倍 のトークンを消費 • 公式の $/M tokens だけではコスト感が掴めない
6. 実装 Tips • Prompt/Context 設計 ‣「宣言しろ」と書かないと質問ばかりする ‣ 情報を渡しすぎるとノイズになることも ‣
→ モデルごとに最適な情報量が違う • Structured Output の仕様差 ‣ 各社微妙に違って面倒だった • 価格 ≠ 性能 ‣ 最安の Gemini 3 Flash が最強という結果に
7. 今後 • Prompt/モデルの自動最適化 • Vision を使った入力 • 4 人プレイへの拡張
• より Agent っぽいふるまいができるように する (function calling で適切なタイミング で solver を叩けるようにする、など) • ロボットハンドで実際にプレイ