Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
評価が大事
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
tsumiki
November 08, 2025
Programming
8
0
Share
評価が大事
AIエージェント開発における評価の重要性について話したLT
tsumiki
November 08, 2025
More Decks by tsumiki
See All by tsumiki
リーダブルコードLT
tsumiki
0
11
メディアリニューアルした話
tsumiki
0
7
Svelte触ってみた
tsumiki
0
8
スピーダ事業 Product Teamの1週間を考察してみた。
tsumiki
0
10
New Joinerの時に感じていたことを振り返る
tsumiki
0
5
F# AsyncとTask
tsumiki
0
10
F#でちょっとずつ返す
tsumiki
0
8
Other Decks in Programming
See All in Programming
2026-03-27 #terminalnight 変数展開とコマンド展開でターミナル作業をスマートにする方法
masasuzu
0
270
RSAが破られる前に知っておきたい 耐量子計算機暗号(PQC)入門 / Intro to PQC: Preparing for the Post-RSA Era
mackey0225
3
110
The Past, Present, and Future of Enterprise Java
ivargrimstad
0
1.3k
安いハードウェアでVulkan
fadis
1
870
Java 21/25 Virtual Threads 소개
debop
0
320
AI Assistants for YourAngular Solutions @Angular Graz, March 2026
manfredsteyer
PRO
0
140
Everything Claude Code OSS詳細 — 5層構造の中身と導入方法
targe
0
160
AI-DLC 入門 〜AIコーディングの本質は「コード」ではなく「構造」〜 / Introduction to AI-DLC: The Essence of AI Coding Is Not “Code” but “Structure”
seike460
PRO
0
170
Mastering Event Sourcing: Your Parents Holidayed in Yugoslavia
super_marek
0
130
今年もTECHSCOREブログを書き続けます!
hiraoku101
0
220
AIコードレビューの導入・運用と AI駆動開発における「AI4QA」の取り組みについて
hagevvashi
0
590
PHP 7.4でもOpenTelemetryゼロコード計装がしたい! / PHPerKaigi 2026
arthur1
1
460
Featured
See All Featured
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.2k
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
140
Bash Introduction
62gerente
615
210k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.5k
Agile that works and the tools we love
rasmusluckow
331
21k
The Curse of the Amulet
leimatthew05
1
11k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
We Have a Design System, Now What?
morganepeng
55
8.1k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.4k
Mind Mapping
helmedeiros
PRO
1
140
Side Projects
sachag
455
43k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
220
Transcript
評価が大事
1. Speeda Agent チームでやっていたこと 2. 学び① 評価が大事 3. 学び② 正解データが大事
目次
Speeda Agent チームでやっていたこと
学び① 評価が大事 GitHub Copilotは、間違いなくLLMを使った最初の産業規模のアプリケーションで す。先手を打つことの呪いは、(今では)誰もが知っていることを笑えるほどに無視 してしまい、後から考えると、自分が下した選択の一部が愚かに見えてしまうことで す。 しかし、私たちが絶対的に正しかったことの 1つは、どのように始めたか
でした。 GitHub Copilotのコードベースの最も古い部分は、プロキシやプロンプト、 UI、アプ リケーションをIDE拡張機能として設定するボイラープレートではありません。 私た ちが最初に書いたコードは「評価」 であり、そのおかげで、他のコードとともに非常 に早く、成功裏に進むことができました。 なぜなら、私たちが行ったすべての変更について、その変更が正しい方向への一 歩、間違い、あるいは、あまり影響を与えなかった、よい試みだったのかを直接確 認できたからです。
Agent 開発初期の状況 • テスト書いてない • 確認コストが大きい • リグレッションに気付けない •
安心感がない(個人的に)
LLM を使ったアプリケーションのテスト • LLM の出力は確率 • 評価項目の例 ◦ 構造の正しさ、ソースとの整合性、意味的な一致
(E2Eテスト, ユニットテスト的なものを作っていきたい)
評価手法 • オフライン評価(デプロイ前) ◦ 人間による評価 ◦ 自動評価 ▪ ROUGE, BERTScore,
LLM-as-a-Judgeなど • オンライン評価(デプロイ後) ◦ ABテスト、Good/Bad など
評価を始めてどうだったか • ROUGE, BERTScore, LLM-as-a-Judge • まず始めるのが大事 • 確認コスト減った
• 安心感があった(個人的に) • とはいえ、課題はたくさんある
学び② 正解データが大事 • 正解データがないと評価できない(当たり前) • ゴールデンデータセットを用意せよ ◦ プロンプトとそれに対応する正解回答
道のり • 正解データを作る ↓ • 正解データに出力を近づける ↓ • 出力を安定させる
正解データを作ることを後手に回さない • 正解データは動く前提で、意識的に作りにいく • 作って貰える状況なら、早めに依頼する • 無理なら、Biz側も巻き込んで早めに一緒に作る?