Upgrade to Pro — share decks privately, control downloads, hide ads and more …

評価が大事

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.
Avatar for tsumiki tsumiki
November 08, 2025

 評価が大事

AIエージェント開発における評価の重要性について話したLT

Avatar for tsumiki

tsumiki

November 08, 2025
Tweet

More Decks by tsumiki

Other Decks in Programming

Transcript

  1. 学び① 評価が大事 
 GitHub Copilotは、間違いなくLLMを使った最初の産業規模のアプリケーションで す。先手を打つことの呪いは、(今では)誰もが知っていることを笑えるほどに無視 してしまい、後から考えると、自分が下した選択の一部が愚かに見えてしまうことで す。 しかし、私たちが絶対的に正しかったことの 1つは、どのように始めたか

    でした。 GitHub Copilotのコードベースの最も古い部分は、プロキシやプロンプト、 UI、アプ リケーションをIDE拡張機能として設定するボイラープレートではありません。 私た ちが最初に書いたコードは「評価」 であり、そのおかげで、他のコードとともに非常 に早く、成功裏に進むことができました。 なぜなら、私たちが行ったすべての変更について、その変更が正しい方向への一 歩、間違い、あるいは、あまり影響を与えなかった、よい試みだったのかを直接確 認できたからです。
  2. 評価手法
 • オフライン評価(デプロイ前) ◦ 人間による評価 ◦ 自動評価 ▪ ROUGE, BERTScore,

    LLM-as-a-Judgeなど • オンライン評価(デプロイ後) ◦ ABテスト、Good/Bad など
  3. 評価を始めてどうだったか 
 • ROUGE, BERTScore, LLM-as-a-Judge • まず始めるのが大事 • 確認コスト減った

    • 安心感があった(個人的に) • とはいえ、課題はたくさんある