Upgrade to Pro — share decks privately, control downloads, hide ads and more …

評価が大事

Avatar for tsumiki tsumiki
November 08, 2025

 評価が大事

AIエージェント開発における評価の重要性について話したLT

Avatar for tsumiki

tsumiki

November 08, 2025
Tweet

More Decks by tsumiki

Other Decks in Programming

Transcript

  1. 学び① 評価が大事 
 GitHub Copilotは、間違いなくLLMを使った最初の産業規模のアプリケーションで す。先手を打つことの呪いは、(今では)誰もが知っていることを笑えるほどに無視 してしまい、後から考えると、自分が下した選択の一部が愚かに見えてしまうことで す。 しかし、私たちが絶対的に正しかったことの 1つは、どのように始めたか

    でした。 GitHub Copilotのコードベースの最も古い部分は、プロキシやプロンプト、 UI、アプ リケーションをIDE拡張機能として設定するボイラープレートではありません。 私た ちが最初に書いたコードは「評価」 であり、そのおかげで、他のコードとともに非常 に早く、成功裏に進むことができました。 なぜなら、私たちが行ったすべての変更について、その変更が正しい方向への一 歩、間違い、あるいは、あまり影響を与えなかった、よい試みだったのかを直接確 認できたからです。
  2. 評価手法
 • オフライン評価(デプロイ前) ◦ 人間による評価 ◦ 自動評価 ▪ ROUGE, BERTScore,

    LLM-as-a-Judgeなど • オンライン評価(デプロイ後) ◦ ABテスト、Good/Bad など
  3. 評価を始めてどうだったか 
 • ROUGE, BERTScore, LLM-as-a-Judge • まず始めるのが大事 • 確認コスト減った

    • 安心感があった(個人的に) • とはいえ、課題はたくさんある