Slide 1

Slide 1 text

継続的な評価基準と評価の実行の仕方を アップデートするワークフロー 2024/11/27

Slide 2

Slide 2 text

©️ Gaudiy Inc. seya 株式会社Gaudiy LLMアプリエンジニア @sekikazu01 @seya kazuyaseki 最近ポッドキャスト始めたので聞いてみてね

Slide 3

Slide 3 text

なぜ継続的に評価基準と評価の実行方法を アップデートする必要があるのか

Slide 4

Slide 4 text

©️ Gaudiy Inc. LLMシステムは⁨ ⁩ 大体ガッカリされる w 実験室の中でのテストは現実のインプット空間を反映できていなP w 想定する評価基準がユーザの評価基準とズレてE w そもそもちゃんと評価してない 何これ使えな... 最強のAIアプリが
 できた!!

Slide 5

Slide 5 text

©️ Gaudiy Inc. 実際の使われ方をモニタリングして継続的に改善する必要性

Slide 6

Slide 6 text

©️ Gaudiy Inc.

Slide 7

Slide 7 text

©️ Gaudiy Inc. なぜ評価をLLMにして欲しいのか v 改善のための変更を入れた時にデグレを検知したI v 人手の評価は時間がかかる、人が動くリードタイムもあb v 普通のプログラミングでは判定できない LLMなら抽象的な評価基準もうまいこと判定

Slide 8

Slide 8 text

©️ Gaudiy Inc. LLMが向いてない評価もある y 「会話を面白いと思うか」など主観的要素が強いもの。ちゃんと対象ユーザに評価してもらった
 方が道を間違えづら‰ y なんだかんだお金はかかるので普通のプログラミングで評価できるのであればそうした方がいい うまい? 速い! 安い!

Slide 9

Slide 9 text

©️ Gaudiy Inc. LLM-as-a-JudgeもLLMシステムである つまり、

Slide 10

Slide 10 text

©️ Gaudiy Inc. LLM-as-a-JudgeもLLMシステムである つまり、 なのでこちらも継続的に改善していこう!

Slide 11

Slide 11 text

©️ Gaudiy Inc. 本当にそこまでする必要があるの? 長く育てていくAIプロダクトなら、このような仕組みがないと闇雲な改善()に終始してしまう ただ、LLMの精度以前に機能が要らない場合も...(LLM-as-a-Judge作ったけど、機能が全然使 われなくてその後のアップデートをやめたりしたことも) 「そもそも期待する精度の回答が常に出せた時にユーザは使ってくれるのか」を検証したい ソフトウェア開発していて数週間、数ヶ月、なんなら普通に数年かけた機能がユーザ目線では
 全然無価値なので使われない。というのはよくある話 なので、LLMに限らずプロダクトデザインプロセスの話な気はする

Slide 12

Slide 12 text

©️ Gaudiy Inc. データセット & 自動評価の作成は小さく始められる 「評価データセットを作る」とか「自動評価を作る」は大仰に聞こえがち 動作確認のために5件くらいインプットがまとまっていて一気に実行できるだけでも便利 生産性アップのための「単体テスト」のような感覚で漸進的に足していく

Slide 13

Slide 13 text

LLM-as-a-Judgeの
 アップデートワークフロー

Slide 14

Slide 14 text

©️ Gaudiy Inc. 基本方針 いっぱい走らせて評価して人間とのズレを修正していく!

Slide 15

Slide 15 text

©️ Gaudiy Inc. LangSmithによるワークフロー① 自動評価をたくさん実行すP ` Experiment時に実行すP ` 実際のユーザへのLLM実行に対しても実行 データセットに対して実行した評価 ルールを定義して条件に合致した
 ログに自動で評価を実行

Slide 16

Slide 16 text

©️ Gaudiy Inc. LangSmithによるワークフロー② 目検査でチェックして行って、スコアが間 違ってるなと感じるところがあれば修正 Correctionのデータセットに追加されるの で、評価の評価データセットに追加したり、 few-shotsやfine-tuningに流用したりする

Slide 17

Slide 17 text

©️ Gaudiy Inc. まとめ 6 地道に評価を重ねて改善しよ5 6 LLM-as-a-Judgeはファジーな評価基準もそれっぽい評価をしてくれて便F 6 LLM-as-a-Judgeも地道に評価を重ねて改善しよう

Slide 18

Slide 18 text

©️ Gaudiy Inc. 関連資料 Who Validates the Validators? Aligning LLM-Assisted Evalu... Due to the cumbersome nature of human evaluation and limitations of c... arxiv.org Who validates the validators? 正に継続的に評価をアップデートする仕組みを
 検証した結果作ったフレームワークである EvalGenを紹介している論文。読むべし。 Creating a LLM-as-a-Judge That Drives Business... A step-by-step guide with my learnings from 30+ AI implementations. hamel.dev Creating a LLM-as-a-Judge That Drives Business Results LLM-as-a-Judgeの作成手順や勘所をかなり 具体的に解説している記事 Evaluating the Effectiveness of LLM-Evaluators (aka LLM-... Use cases, techniques, alignment, finetuning, and critiques against LLM... eugeneyan.com Evaluating the Effectiveness of LLM-Evaluators LLM-as-a-Judgeの有効性を評価した記事。 LLM-as-a-Judgeに関連した論文が大集合し ているのでぜひ読んでみてください。 表示 自動化するLLMシステム... こんにちは。ファンと共に時代... Hatena Blog 自動化するLLMシステムの品質管理: LLM-as-a-judge の作り方 私のLLM-as-a-Judgeの作成手順を解説して いる記事

Slide 19

Slide 19 text

©️ Gaudiy Inc. ご清聴ありがとうございました