Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
評価が大事
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
tsumiki
November 08, 2025
Programming
15
0
Share
評価が大事
AIエージェント開発における評価の重要性について話したLT
tsumiki
November 08, 2025
More Decks by tsumiki
See All by tsumiki
おもしろい組織図の世界
tsumiki
0
25
リーダブルコードLT
tsumiki
0
18
メディアリニューアルした話
tsumiki
0
14
Svelte触ってみた
tsumiki
0
14
スピーダ事業 Product Teamの1週間を考察してみた。
tsumiki
0
17
New Joinerの時に感じていたことを振り返る
tsumiki
0
11
F# AsyncとTask
tsumiki
0
16
F#でちょっとずつ返す
tsumiki
0
15
Other Decks in Programming
See All in Programming
開発体験を左右するライブラリの API 設計 - GraphQL スキーマ構築ライブラリから考える #tskaigi
izumin5210
2
1.4k
RailsTokyo 2026#4: AI様があれば、 Hotwireの弱点は消えるか?
naofumi
5
1k
Stage 3 Decorators でできること / できないこと / TSKaigi 2026
susisu
1
1.3k
Agentic UI beyond Chats Architecture Patterns & Open Standards @ngMunich 05/2026
manfredsteyer
PRO
0
180
Oxlintはいかにしてtsgolintのlint ruleを呼び出しているのか
syumai
2
1k
AI 時代のソフトウェア設計の学び方
masuda220
PRO
29
11k
自動レビューエンジンの実装と運用 ~レビューのない世界へ~
kurukuru1999
2
300
AIエージェントと協働するCLI開発 — BunとOpenClawで学んだこと
yoshikouki
1
230
ビジネスモデルから紐解く、AI+型駆動開発
hirokiomote
2
4.4k
不変条件と整合性境界—ビジネスが決める設計判断と実現パターン / Invariants and Consistency Boundaries
nrslib
11
3.1k
ふつうのFeature Flag実践入門
irof
7
3.4k
生成AI時代にこそ効くGo | Why Go Works in the Age of Generative AI
mom0tomo
8
3k
Featured
See All Featured
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
1.5k
Crafting Experiences
bethany
1
160
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
130
How to train your dragon (web standard)
notwaldorf
97
6.6k
Why Our Code Smells
bkeepers
PRO
340
58k
A Modern Web Designer's Workflow
chriscoyier
698
190k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
180
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
Making the Leap to Tech Lead
cromwellryan
135
9.9k
Navigating Weather and Climate Data
rabernat
0
200
Prompt Engineering for Job Search
mfonobong
0
320
Transcript
評価が大事
1. Speeda Agent チームでやっていたこと 2. 学び① 評価が大事 3. 学び② 正解データが大事
目次
Speeda Agent チームでやっていたこと
学び① 評価が大事 GitHub Copilotは、間違いなくLLMを使った最初の産業規模のアプリケーションで す。先手を打つことの呪いは、(今では)誰もが知っていることを笑えるほどに無視 してしまい、後から考えると、自分が下した選択の一部が愚かに見えてしまうことで す。 しかし、私たちが絶対的に正しかったことの 1つは、どのように始めたか
でした。 GitHub Copilotのコードベースの最も古い部分は、プロキシやプロンプト、 UI、アプ リケーションをIDE拡張機能として設定するボイラープレートではありません。 私た ちが最初に書いたコードは「評価」 であり、そのおかげで、他のコードとともに非常 に早く、成功裏に進むことができました。 なぜなら、私たちが行ったすべての変更について、その変更が正しい方向への一 歩、間違い、あるいは、あまり影響を与えなかった、よい試みだったのかを直接確 認できたからです。
Agent 開発初期の状況 • テスト書いてない • 確認コストが大きい • リグレッションに気付けない •
安心感がない(個人的に)
LLM を使ったアプリケーションのテスト • LLM の出力は確率 • 評価項目の例 ◦ 構造の正しさ、ソースとの整合性、意味的な一致
(E2Eテスト, ユニットテスト的なものを作っていきたい)
評価手法 • オフライン評価(デプロイ前) ◦ 人間による評価 ◦ 自動評価 ▪ ROUGE, BERTScore,
LLM-as-a-Judgeなど • オンライン評価(デプロイ後) ◦ ABテスト、Good/Bad など
評価を始めてどうだったか • ROUGE, BERTScore, LLM-as-a-Judge • まず始めるのが大事 • 確認コスト減った
• 安心感があった(個人的に) • とはいえ、課題はたくさんある
学び② 正解データが大事 • 正解データがないと評価できない(当たり前) • ゴールデンデータセットを用意せよ ◦ プロンプトとそれに対応する正解回答
道のり • 正解データを作る ↓ • 正解データに出力を近づける ↓ • 出力を安定させる
正解データを作ることを後手に回さない • 正解データは動く前提で、意識的に作りにいく • 作って貰える状況なら、早めに依頼する • 無理なら、Biz側も巻き込んで早めに一緒に作る?