LLM を現場で評価する

LLMを現場で評価する Asei Sugiyama

自己紹介杉山阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google
Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑共著事例でわかる MLOps 共著決闘者 @ マスターデュエル

TOC LLM と評価 <- LLM の現場での使われ方ログに基づく品質評価

LLM と評価生成 AI の弱点 RAG 精度勝負への疑問 LLM 時代の対話の品質評価評価の
3つの方法

生成 AI の弱点常識には強い特定分野の専門知識が求められると弱い左折するときに信号を確認することもできない

RAG 検索と LLM の合せ技現実解になっている検索を効率良く行うことが実用上重要 Gekhman, Zorik, et
al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

精度勝負への疑問機械学習モデルを訓練して精度を上げるのは大変 LLM の多様な能力で、精度勝負からの脱却ができたはず RAG で精度勝負に回帰していないか
Open LLM Leaderboard 2 - a Hugging Face Space by open-llm-leaderboard https://huggingface.co/spaces/open-llm- leaderboard/open_llm_leaderboard

LLM 時代の対話の品質評価タスクが多様なため正答率以外の指標が必要に Q&A, 要約 , 翻訳 , コード生成 ,
etc... ユーザーからのフィードバックで「良さ」を測ることはできる「良さ」とは何かが問題になる

評価の 3つの方法ベンチマークを用いた事前評価 : QA4AI ガイドライン仮想シナリオを用いた事前評価 : デジタル庁レポート対話ログを用いた事後評価
: 筆者の取り組み手法事前評価可能カスタマイズ性品質特性の網羅性ベンチマーク ✓ 仮想シナリオ ✓ ✓ 対話ログ ✓ ✓

TOC LLM と評価 LLM の現場での使われ方 <- ログに基づく品質評価

LLM の現場での使われ方今回はデジタル庁のレポートと筆者の経験から、 LLM の実際の使われ方について共有使い始める切っ掛け用途利用頻度導入効果
結論

使い始める切っ掛け同僚からの口コミがとても大事同僚がどのように使っているのか広めることが大事

用途文章案の作成や要約、校正知りたい情報の検索、調査アイデア出し、案出しパソコンの操作法やコードの生成 (Excel、関数、 VBAなど ) 仕事のやり方の相談、アドバ
イスをもらう他組織でもほぼ同様、翻訳も人気

利用頻度一部のユーザーが使い込んでいる適切でない回答を返していても使い込んでいる先進的なユーザーがプロンプトでアプリケーションを作成する例は散見される

導入効果使い込んでいる人ほど効果を感じている適切でない回答を返していることは、効果を上げるためにさほど重要ではない可能性

結論利用者の分布はパレート則に従う広めるためには口コミが大事絶対的な品質評価は困難ユースケース単位で品質評価

TOC LLM と評価 LLM の現場での使われ方ログに基づく品質評価 <-

ログに基づく品質評価品質評価のための具体的なワークフロー評価の自動化

過去ログを用いた評価のワークフロー

評価の自動化 : LLM as a Judge は非常に有効ユースケースの整理を行うためには、ユースケースの定義が必要一度定義を書き下せば、それをプロンプトとして用いることで分類器が作成できる
正確な分類ができなくとも、継続的に評価できることは重要

評価の自動化 : ユースケースの整理を LLM に行わせるユースケースの整理を行うためには、 100 - 1000 件程度のログの目
視確認が必要目視確認を行って分類するためには労力もかかるし、経験も必要分類を LLM を用いて行うことも可能

まとめ LLM の評価には大まかに 3つの方法がある現場での使われ方を踏まえると、適切でない回答を返したとしても業務上有用である可能性があり、回答精度のみで評価することは労力の浪費となる可能性があるログに基づく品質評価においては LLM as
a Judge は非常に有効で、自動化の可能性もある

LLM を現場で評価する

LLM を現場で評価する

Asei Sugiyama

More Decks by Asei Sugiyama

Other Decks in Technology

Featured

Transcript