継続的な評価基準と評価の実行の仕方をアップデートするワークフロー

by seya

Slide 1

Slide 1 text

継続的な評価基準と評価の実行の仕方をアップデートするワークフロー 2024/11/27

Slide 2

Slide 2 text

©️ Gaudiy Inc. seya 株式会社Gaudiy LLMアプリエンジニア @sekikazu01 @seya kazuyaseki 最近ポッドキャスト始めたので聞いてみてね

Slide 3

Slide 3 text

なぜ継続的に評価基準と評価の実行方法をアップデートする必要があるのか

Slide 4

Slide 4 text

©️ Gaudiy Inc. LLMシステムは⁨ ⁩ 大体ガッカリされる w 実験室の中でのテストは現実のインプット空間を反映できていなP w 想定する評価基準がユーザの評価基準とズレてE w そもそもちゃんと評価してない何これ使えな... 最強のAIアプリが  できた！！

Slide 5

Slide 5 text

©️ Gaudiy Inc. 実際の使われ方をモニタリングして継続的に改善する必要性

Slide 6

Slide 6 text

©️ Gaudiy Inc.

Slide 7

Slide 7 text

©️ Gaudiy Inc. なぜ評価をLLMにして欲しいのか v 改善のための変更を入れた時にデグレを検知したI v 人手の評価は時間がかかる、人が動くリードタイムもあb v 普通のプログラミングでは判定できない LLMなら抽象的な評価基準もうまいこと判定

Slide 8

Slide 8 text

©️ Gaudiy Inc. LLMが向いてない評価もある y 「会話を面白いと思うか」など主観的要素が強いもの。ちゃんと対象ユーザに評価してもらった  方が道を間違えづら y なんだかんだお金はかかるので普通のプログラミングで評価できるのであればそうした方がいいうまい？速い！安い！

Slide 9

Slide 9 text

©️ Gaudiy Inc. LLM-as-a-JudgeもLLMシステムであるつまり、

Slide 10

Slide 10 text

©️ Gaudiy Inc. LLM-as-a-JudgeもLLMシステムであるつまり、なのでこちらも継続的に改善していこう！

Slide 11

Slide 11 text

©️ Gaudiy Inc. 本当にそこまでする必要があるの？長く育てていくAIプロダクトなら、このような仕組みがないと闇雲な改善()に終始してしまうただ、LLMの精度以前に機能が要らない場合も...(LLM-as-a-Judge作ったけど、機能が全然使われなくてその後のアップデートをやめたりしたことも) 「そもそも期待する精度の回答が常に出せた時にユーザは使ってくれるのか」を検証したいソフトウェア開発していて数週間、数ヶ月、なんなら普通に数年かけた機能がユーザ目線では  全然無価値なので使われない。というのはよくある話なので、LLMに限らずプロダクトデザインプロセスの話な気はする

Slide 12

Slide 12 text

©️ Gaudiy Inc. データセット & 自動評価の作成は小さく始められる「評価データセットを作る」とか「自動評価を作る」は大仰に聞こえがち動作確認のために5件くらいインプットがまとまっていて一気に実行できるだけでも便利生産性アップのための「単体テスト」のような感覚で漸進的に足していく

Slide 13

Slide 13 text

LLM-as-a-Judgeの  アップデートワークフロー

Slide 14

Slide 14 text

Slide 15

Slide 15 text

©️ Gaudiy Inc. LangSmithによるワークフロー① 自動評価をたくさん実行すP ` Experiment時に実行すP ` 実際のユーザへのLLM実行に対しても実行データセットに対して実行した評価ルールを定義して条件に合致した  ログに自動で評価を実行

Slide 16

Slide 16 text

©️ Gaudiy Inc. LangSmithによるワークフロー② 目検査でチェックして行って、スコアが間違ってるなと感じるところがあれば修正 Correctionのデータセットに追加されるので、評価の評価データセットに追加したり、 few-shotsやfine-tuningに流用したりする

Slide 17

Slide 17 text

Slide 18

Slide 18 text

©️ Gaudiy Inc. 関連資料 Who Validates the Validators? Aligning LLM-Assisted Evalu... Due to the cumbersome nature of human evaluation and limitations of c... arxiv.org Who validates the validators? 正に継続的に評価をアップデートする仕組みを  検証した結果作ったフレームワークである EvalGenを紹介している論文。読むべし。 Creating a LLM-as-a-Judge That Drives Business... A step-by-step guide with my learnings from 30+ AI implementations. hamel.dev Creating a LLM-as-a-Judge That Drives Business Results LLM-as-a-Judgeの作成手順や勘所をかなり具体的に解説している記事 Evaluating the Effectiveness of LLM-Evaluators (aka LLM-... Use cases, techniques, alignment, finetuning, and critiques against LLM... eugeneyan.com Evaluating the Effectiveness of LLM-Evaluators LLM-as-a-Judgeの有効性を評価した記事。 LLM-as-a-Judgeに関連した論文が大集合しているのでぜひ読んでみてください。表示自動化するLLMシステム... こんにちは。ファンと共に時代... Hatena Blog 自動化するLLMシステムの品質管理: LLM-as-a-judge の作り方私のLLM-as-a-Judgeの作成手順を解説している記事