継続的な評価基準と評価の実行の仕方をアップデートするワークフロー

継続的な評価基準と評価の実行の仕方をアップデートするワークフロー 2024/11/27

©️ Gaudiy Inc. seya 株式会社Gaudiy LLMアプリエンジニア @sekikazu01 @seya kazuyaseki 最近ポッドキャスト始めたので聞いてみてね

なぜ継続的に評価基準と評価の実行方法をアップデートする必要があるのか

©️ Gaudiy Inc. LLMシステムは⁨ ⁩ 大体ガッカリされる w 実験室の中でのテストは現実のインプット空間を反映できていなP w 想定する評価基準がユーザの評価基準とズレてE
w そもそもちゃんと評価してない何これ使えな... 最強のAIアプリが  できた！！

©️ Gaudiy Inc. 実際の使われ方をモニタリングして継続的に改善する必要性

©️ Gaudiy Inc.

©️ Gaudiy Inc. なぜ評価をLLMにして欲しいのか v 改善のための変更を入れた時にデグレを検知したI v 人手の評価は時間がかかる、人が動くリードタイムもあb v 普通のプログラミングでは判定できない
LLMなら抽象的な評価基準もうまいこと判定

©️ Gaudiy Inc. LLMが向いてない評価もある y 「会話を面白いと思うか」など主観的要素が強いもの。ちゃんと対象ユーザに評価してもらった  方が道を間違えづら y なんだかんだお金はかかるので普通のプログラミングで評価できるのであればそうした方がいいうまい？
速い！安い！

©️ Gaudiy Inc. LLM-as-a-JudgeもLLMシステムであるつまり、

©️ Gaudiy Inc. LLM-as-a-JudgeもLLMシステムであるつまり、なのでこちらも継続的に改善していこう！

©️ Gaudiy Inc. 本当にそこまでする必要があるの？長く育てていくAIプロダクトなら、このような仕組みがないと闇雲な改善()に終始してしまうただ、LLMの精度以前に機能が要らない場合も...(LLM-as-a-Judge作ったけど、機能が全然使われなくてその後のアップデートをやめたりしたことも) 「そもそも期待する精度の回答が常に出せた時にユーザは使ってくれるのか」を検証したいソフトウェア開発していて数週間、数ヶ月、なんなら普通に数年かけた機能がユーザ目線では  全然無価値なので使われない。というのはよくある話
なので、LLMに限らずプロダクトデザインプロセスの話な気はする

©️ Gaudiy Inc. データセット & 自動評価の作成は小さく始められる「評価データセットを作る」とか「自動評価を作る」は大仰に聞こえがち動作確認のために5件くらいインプットがまとまっていて一気に実行できるだけでも便利生産性アップのための「単体テスト」のような感覚で漸進的に足していく

LLM-as-a-Judgeの  アップデートワークフロー

©️ Gaudiy Inc. LangSmithによるワークフロー① 自動評価をたくさん実行すP ` Experiment時に実行すP ` 実際のユーザへのLLM実行に対しても実行データセットに対して実行した評価
ルールを定義して条件に合致した  ログに自動で評価を実行

©️ Gaudiy Inc. LangSmithによるワークフロー② 目検査でチェックして行って、スコアが間違ってるなと感じるところがあれば修正 Correctionのデータセットに追加されるので、評価の評価データセットに追加したり、 few-shotsやfine-tuningに流用したりする

©️ Gaudiy Inc. 関連資料 Who Validates the Validators? Aligning LLM-Assisted
Evalu... Due to the cumbersome nature of human evaluation and limitations of c... arxiv.org Who validates the validators? 正に継続的に評価をアップデートする仕組みを  検証した結果作ったフレームワークである EvalGenを紹介している論文。読むべし。 Creating a LLM-as-a-Judge That Drives Business... A step-by-step guide with my learnings from 30+ AI implementations. hamel.dev Creating a LLM-as-a-Judge That Drives Business Results LLM-as-a-Judgeの作成手順や勘所をかなり具体的に解説している記事 Evaluating the Effectiveness of LLM-Evaluators (aka LLM-... Use cases, techniques, alignment, finetuning, and critiques against LLM... eugeneyan.com Evaluating the Effectiveness of LLM-Evaluators LLM-as-a-Judgeの有効性を評価した記事。 LLM-as-a-Judgeに関連した論文が大集合しているのでぜひ読んでみてください。表示自動化するLLMシステム... こんにちは。ファンと共に時代... Hatena Blog 自動化するLLMシステムの品質管理: LLM-as-a-judge の作り方私のLLM-as-a-Judgeの作成手順を解説している記事

継続的な評価基準と評価の実行の仕方をアップデートするワークフロー

継続的な評価基準と評価の実行の仕方をアップデートするワークフロー

seya

More Decks by seya

Other Decks in Technology

Featured

Transcript