Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
評価が大事
Search
tsumiki
November 08, 2025
Programming
8
0
Share
評価が大事
AIエージェント開発における評価の重要性について話したLT
tsumiki
November 08, 2025
More Decks by tsumiki
See All by tsumiki
リーダブルコードLT
tsumiki
0
11
メディアリニューアルした話
tsumiki
0
7
Svelte触ってみた
tsumiki
0
8
スピーダ事業 Product Teamの1週間を考察してみた。
tsumiki
0
10
New Joinerの時に感じていたことを振り返る
tsumiki
0
5
F# AsyncとTask
tsumiki
0
10
F#でちょっとずつ返す
tsumiki
0
8
Other Decks in Programming
See All in Programming
AI時代の脳疲弊と向き合う ~言語学としてのPHP~
sakuraikotone
1
1.8k
forteeの改修から振り返るPHPerKaigi 2026
muno92
PRO
3
120
GC言語のWasm化とComponent Modelサポートの実践と課題 - Scalaの場合
tanishiking
0
140
今こそ押さえておきたい アマゾンウェブサービス(AWS)の データベースの基礎 おもクラ #6版
satoshi256kbyte
1
220
PHP でエミュレータを自作して Ubuntu を動かそう
m3m0r7
PRO
2
160
20260320登壇資料
pharct
0
150
[PHPerKaigi 2026]PHPerKaigi2025の企画CodeGolfが最高すぎて社内で内製して半年運営して得た内製と運営の知見
ikezoemakoto
0
320
仕様漏れ実装漏れをなくすトレーサビリティAI基盤のご紹介
orgachem
PRO
8
4.1k
S3ストレージクラスの「見える」「ある」「使える」は全部違う ─ 体験から見た、仕様の深淵を覗く
ya_ma23
0
1.2k
20260315 AWSなんもわからん🥲
chiilog
2
180
Codex CLIのSubagentsによる並列API実装 / Parallel API Implementation with Codex CLI Subagents
takatty
2
770
AI活用のコスパを最大化する方法
ochtum
0
360
Featured
See All Featured
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
0
260
Bash Introduction
62gerente
615
210k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.2k
Tell your own story through comics
letsgokoyo
1
880
Code Review Best Practice
trishagee
74
20k
Odyssey Design
rkendrick25
PRO
2
560
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
230
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.3k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
WCS-LA-2024
lcolladotor
0
510
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
92
Transcript
評価が大事
1. Speeda Agent チームでやっていたこと 2. 学び① 評価が大事 3. 学び② 正解データが大事
目次
Speeda Agent チームでやっていたこと
学び① 評価が大事 GitHub Copilotは、間違いなくLLMを使った最初の産業規模のアプリケーションで す。先手を打つことの呪いは、(今では)誰もが知っていることを笑えるほどに無視 してしまい、後から考えると、自分が下した選択の一部が愚かに見えてしまうことで す。 しかし、私たちが絶対的に正しかったことの 1つは、どのように始めたか
でした。 GitHub Copilotのコードベースの最も古い部分は、プロキシやプロンプト、 UI、アプ リケーションをIDE拡張機能として設定するボイラープレートではありません。 私た ちが最初に書いたコードは「評価」 であり、そのおかげで、他のコードとともに非常 に早く、成功裏に進むことができました。 なぜなら、私たちが行ったすべての変更について、その変更が正しい方向への一 歩、間違い、あるいは、あまり影響を与えなかった、よい試みだったのかを直接確 認できたからです。
Agent 開発初期の状況 • テスト書いてない • 確認コストが大きい • リグレッションに気付けない •
安心感がない(個人的に)
LLM を使ったアプリケーションのテスト • LLM の出力は確率 • 評価項目の例 ◦ 構造の正しさ、ソースとの整合性、意味的な一致
(E2Eテスト, ユニットテスト的なものを作っていきたい)
評価手法 • オフライン評価(デプロイ前) ◦ 人間による評価 ◦ 自動評価 ▪ ROUGE, BERTScore,
LLM-as-a-Judgeなど • オンライン評価(デプロイ後) ◦ ABテスト、Good/Bad など
評価を始めてどうだったか • ROUGE, BERTScore, LLM-as-a-Judge • まず始めるのが大事 • 確認コスト減った
• 安心感があった(個人的に) • とはいえ、課題はたくさんある
学び② 正解データが大事 • 正解データがないと評価できない(当たり前) • ゴールデンデータセットを用意せよ ◦ プロンプトとそれに対応する正解回答
道のり • 正解データを作る ↓ • 正解データに出力を近づける ↓ • 出力を安定させる
正解データを作ることを後手に回さない • 正解データは動く前提で、意識的に作りにいく • 作って貰える状況なら、早めに依頼する • 無理なら、Biz側も巻き込んで早めに一緒に作る?