Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
評価が大事
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tsumiki
November 08, 2025
Programming
0
4
評価が大事
AIエージェント開発における評価の重要性について話したLT
tsumiki
November 08, 2025
Tweet
Share
More Decks by tsumiki
See All by tsumiki
リーダブルコードLT
tsumiki
0
4
メディアリニューアルした話
tsumiki
0
3
Svelte触ってみた
tsumiki
0
3
スピーダ事業 Product Teamの1週間を考察してみた。
tsumiki
0
3
New Joinerの時に感じていたことを振り返る
tsumiki
0
3
F# AsyncとTask
tsumiki
0
3
F#でちょっとずつ返す
tsumiki
0
2
Other Decks in Programming
See All in Programming
AI時代のキャリアプラン「技術の引力」からの脱出と「問い」へのいざない / tech-gravity
minodriven
14
4.6k
例外処理とどう使い分ける?Result型を使ったエラー設計 #burikaigi
kajitack
16
5.9k
【卒業研究】会話ログ分析によるユーザーごとの関心に応じた話題提案手法
momok47
0
190
Automatic Grammar Agreementと Markdown Extended Attributes について
kishikawakatsumi
0
180
2026年 エンジニアリング自己学習法
yumechi
0
120
副作用をどこに置くか問題:オブジェクト指向で整理する設計判断ツリー
koxya
1
570
re:Invent 2025 トレンドからみる製品開発への AI Agent 活用
yoskoh
0
720
TerraformとStrands AgentsでAmazon Bedrock AgentCoreのSSO認証付きエージェントを量産しよう!
neruneruo
4
2.7k
Denoのセキュリティに関する仕組みの紹介 (toranoana.deno #23)
uki00a
0
280
今から始めるClaude Code超入門
448jp
7
8k
Oxlintはいいぞ
yug1224
5
1.2k
Pythonではじめるオープンデータ分析〜書籍の紹介と書籍で紹介しきれなかった事例の紹介〜
welliving
3
870
Featured
See All Featured
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.5k
How Software Deployment tools have changed in the past 20 years
geshan
0
32k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
61
52k
Side Projects
sachag
455
43k
The #1 spot is gone: here's how to win anyway
tamaranovitovic
2
920
A Tale of Four Properties
chriscoyier
162
24k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
910
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
110
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
110
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
53
Six Lessons from altMBA
skipperchong
29
4.1k
Transcript
評価が大事
1. Speeda Agent チームでやっていたこと 2. 学び① 評価が大事 3. 学び② 正解データが大事
目次
Speeda Agent チームでやっていたこと
学び① 評価が大事 GitHub Copilotは、間違いなくLLMを使った最初の産業規模のアプリケーションで す。先手を打つことの呪いは、(今では)誰もが知っていることを笑えるほどに無視 してしまい、後から考えると、自分が下した選択の一部が愚かに見えてしまうことで す。 しかし、私たちが絶対的に正しかったことの 1つは、どのように始めたか
でした。 GitHub Copilotのコードベースの最も古い部分は、プロキシやプロンプト、 UI、アプ リケーションをIDE拡張機能として設定するボイラープレートではありません。 私た ちが最初に書いたコードは「評価」 であり、そのおかげで、他のコードとともに非常 に早く、成功裏に進むことができました。 なぜなら、私たちが行ったすべての変更について、その変更が正しい方向への一 歩、間違い、あるいは、あまり影響を与えなかった、よい試みだったのかを直接確 認できたからです。
Agent 開発初期の状況 • テスト書いてない • 確認コストが大きい • リグレッションに気付けない •
安心感がない(個人的に)
LLM を使ったアプリケーションのテスト • LLM の出力は確率 • 評価項目の例 ◦ 構造の正しさ、ソースとの整合性、意味的な一致
(E2Eテスト, ユニットテスト的なものを作っていきたい)
評価手法 • オフライン評価(デプロイ前) ◦ 人間による評価 ◦ 自動評価 ▪ ROUGE, BERTScore,
LLM-as-a-Judgeなど • オンライン評価(デプロイ後) ◦ ABテスト、Good/Bad など
評価を始めてどうだったか • ROUGE, BERTScore, LLM-as-a-Judge • まず始めるのが大事 • 確認コスト減った
• 安心感があった(個人的に) • とはいえ、課題はたくさんある
学び② 正解データが大事 • 正解データがないと評価できない(当たり前) • ゴールデンデータセットを用意せよ ◦ プロンプトとそれに対応する正解回答
道のり • 正解データを作る ↓ • 正解データに出力を近づける ↓ • 出力を安定させる
正解データを作ることを後手に回さない • 正解データは動く前提で、意識的に作りにいく • 作って貰える状況なら、早めに依頼する • 無理なら、Biz側も巻き込んで早めに一緒に作る?