Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AI for タギロン
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
taxfree
December 26, 2025
41
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AI for タギロン
taxfree
December 26, 2025
More Decks by taxfree
See All by taxfree
Evolving collaborative research ideas with multi-agent grounding in lab-specific contexts and literature
taxfree_python
0
13
研究開発のための Coding Agent 活用術
taxfree_python
0
85
R&D_UIのラストワンマイルをLLMで埋める
taxfree_python
0
19
traP 2024 忘年会
taxfree_python
0
11
traP ユニークビジョン LT 会
taxfree_python
0
18
R.*u.*f.*f.*
taxfree_python
0
19
traP_新入生オリエンテーション_2024
taxfree_python
0
110
A Beginner's Guide to Quantum computing
taxfree_python
0
420
How to create slack Bot with Python?
taxfree_python
1
350
Featured
See All Featured
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
250
Context Engineering - Making Every Token Count
addyosmani
9
960
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.3k
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
580
A designer walks into a library…
pauljervisheath
211
24k
Designing for Performance
lara
611
70k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
1.4k
Mobile First: as difficult as doing things right
swwweet
225
10k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
570
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
220
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
320
Transcript
AI for タギロン tax_free Laboratory Automation 月例勉強会 / 2025.12
1. 自己紹介 • Name: tax_free • Twitter: @taxfree_python • 所属:
‣ 東京科学大学 情報理工学院 数理・計算科学系 (B4) ‣ RIKEN BDR AI 生物学研究チーム(研究パートタイマー) • 興味: ‣ Mathematical Optimization ‣ AI for なんとか, etc.
2-1. タギロンとは • 2〜4 人対戦の推理ゲーム(今回は 2 人で実装) • 各プレイヤーは 5
枚の数字タイル(相手に見えない) • 質問カードで情報を得て、相手のタイルを当てる 終了条件 • 相手の 5 枚を正確に宣言 → 勝ち • 山札・場のカードがなくなる → 引き分け
2-2. タイルとアクション タイル(計 20 枚 → 各プレイヤー 5 枚) •
赤: 0,1,2,3,4,6,7,8,9(各 1 枚) • 青: 0,1,2,3,4,6,7,8,9(各 1 枚) • 黄: 5 のみ(2 枚) ← 5 は黄色だけ! 手札は数字の小さい順に並ぶ(位置 1〜5) アクション(毎ターン 1 つ選択) 1. 質問: 場のカードを 1 枚選んで相手に質問 2. 宣言: 相手の 5 枚を予想(正解→勝ち、不正解→手番消費)
3. なぜタギロン? 部分観測 + 質問選択 → Agent 性能のちょうどいいベンチマーク • 難しすぎず簡単すぎない
• 推論能力を測れる • 1 ゲーム数分で終わる
4. 実装方法 • 言語: Python 3.14 • LLM SDK: 各社公式を使用
‣ openai, google-genai, anthropic • その他: ‣ pydantic (Structured Output) ‣ tenacity (リトライ処理)
4. Solver(外部推論エンジン) 質問の回答から論理的に導ける情報を計算し、プロンプトに追加: ### 相手手札の候補 候補数: 957 位置ごとの数候補: 1:[2,3,4,5,6] /
2:[2,3,4,5,6,7] / ... 位置ごとの色候補: 1:[red,blue,yellow] / ... • ON: モデルに候補情報を渡す(推論の補助) • OFF: 質問と回答の履歴のみ(モデルが自力で推論)
5-1. Experiment Setup Provider Model In $/1M Out $/1M Tier
Google Gemini 3 Flash 0.30 2.50 Low Google Gemini 3 Pro 2.00 12.00 High OpenAI GPT-4.1 mini 0.40 1.60 Low OpenAI GPT-5 1.25 10.00 High Anthropic Claude 4.5 Haiku 0.80 4.00 Low Anthropic Claude 4.5 Opus 5.00 25.00 High 「高いモデルが強い?」
5-1b. 対戦データの生成方法 • 5 インスタンス × 先手後手入れ替え = 10 対戦/組み合わせ
• 各インスタンスで以下を固定(seed 指定): ‣ 両プレイヤーの手札 ‣ 山札の順番 ‣ 場の質問カード → 同じ盤面でモデル間の性能を公平に比較
5-2. Key Result Gemini 3 Flash が最強 • vs GPT-5:
9-1 (90%) • vs Gemini 3 Pro: 5-5 (互角)
5-3. 学び①: Multi-agent benchmark の注意点 今回の結果: 先行勝率 58% • 一般的なベンチマーク:
single-agent → 実行順序の影響なし • 対戦型/multi-agent: 実行順序で結果が大きく変わりうる 対策 • 先手後手を入れ替えて両方評価 • 複数インスタンスで平均を取る
5-4. 学び②: Context は多ければいいわけではない Model Solver ON Solver OFF 変化
GPT-5 20% 60% +40pt Gemini 3 Pro 75% 60% −15pt • GPT-5: 候補情報がノイズになる? • Gemini Pro: 候補情報を活用できる • → Context はモデルごとに最適化が必要
5-5. 学び③: 実コストは動かさないと分からない • GPT-5 は Gemini 3 Flash の
20〜30 倍 のトークンを消費 • 公式の $/M tokens だけではコスト感が掴めない
6. 実装 Tips • Prompt/Context 設計 ‣「宣言しろ」と書かないと質問ばかりする ‣ 情報を渡しすぎるとノイズになることも ‣
→ モデルごとに最適な情報量が違う • Structured Output の仕様差 ‣ 各社微妙に違って面倒だった • 価格 ≠ 性能 ‣ 最安の Gemini 3 Flash が最強という結果に
7. 今後 • Prompt/モデルの自動最適化 • Vision を使った入力 • 4 人プレイへの拡張
• より Agent っぽいふるまいができるように する (function calling で適切なタイミング で solver を叩けるようにする、など) • ロボットハンドで実際にプレイ