LLM を現場で評価する

Slide 1

Slide 1 text

LLMを現場で評価する Asei Sugiyama

Slide 2

Slide 2 text

自己紹介杉山阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑共著事例でわかる MLOps 共著決闘者 @ マスターデュエル

Slide 3

Slide 3 text

TOC LLM と評価 <- LLM の現場での使われ方ログに基づく品質評価

Slide 4

Slide 4 text

LLM と評価生成 AI の弱点 RAG 精度勝負への疑問 LLM 時代の対話の品質評価評価の 3つの方法

Slide 5

Slide 5 text

生成 AI の弱点常識には強い特定分野の専門知識が求められると弱い左折するときに信号を確認することもできない

Slide 6

Slide 6 text

No content

Slide 7

Slide 7 text

RAG 検索と LLM の合せ技現実解になっている検索を効率良く行うことが実用上重要 Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

Slide 8

Slide 8 text

精度勝負への疑問機械学習モデルを訓練して精度を上げるのは大変 LLM の多様な能力で、精度勝負からの脱却ができたはず RAG で精度勝負に回帰していないか Open LLM Leaderboard 2 - a Hugging Face Space by open-llm-leaderboard https://huggingface.co/spaces/open-llm- leaderboard/open_llm_leaderboard

Slide 9

Slide 9 text

LLM 時代の対話の品質評価タスクが多様なため正答率以外の指標が必要に Q&A, 要約 , 翻訳 , コード生成 , etc... ユーザーからのフィードバックで「良さ」を測ることはできる「良さ」とは何かが問題になる

Slide 10

Slide 10 text

評価の 3つの方法ベンチマークを用いた事前評価 : QA4AI ガイドライン仮想シナリオを用いた事前評価 : デジタル庁レポート対話ログを用いた事後評価 : 筆者の取り組み手法事前評価可能カスタマイズ性品質特性の網羅性ベンチマーク ✓ 仮想シナリオ ✓ ✓ 対話ログ ✓ ✓

Slide 11

Slide 11 text

TOC LLM と評価 LLM の現場での使われ方 <- ログに基づく品質評価

Slide 12

Slide 12 text

LLM の現場での使われ方今回はデジタル庁のレポートと筆者の経験から、 LLM の実際の使われ方について共有使い始める切っ掛け用途利用頻度導入効果結論

Slide 13

Slide 13 text

使い始める切っ掛け同僚からの口コミがとても大事同僚がどのように使っているのか広めることが大事

Slide 14

Slide 14 text

用途文章案の作成や要約、校正知りたい情報の検索、調査アイデア出し、案出しパソコンの操作法やコードの生成 (Excel、関数、 VBAなど ) 仕事のやり方の相談、アドバイスをもらう他組織でもほぼ同様、翻訳も人気

Slide 15

Slide 15 text

利用頻度一部のユーザーが使い込んでいる適切でない回答を返していても使い込んでいる先進的なユーザーがプロンプトでアプリケーションを作成する例は散見される

Slide 16

Slide 16 text

導入効果使い込んでいる人ほど効果を感じている適切でない回答を返していることは、効果を上げるためにさほど重要ではない可能性

Slide 17

Slide 17 text

結論利用者の分布はパレート則に従う広めるためには口コミが大事絶対的な品質評価は困難ユースケース単位で品質評価

Slide 18

Slide 18 text

TOC LLM と評価 LLM の現場での使われ方ログに基づく品質評価 <-

Slide 19

Slide 19 text

ログに基づく品質評価品質評価のための具体的なワークフロー評価の自動化

Slide 20

Slide 20 text

過去ログを用いた評価のワークフロー

Slide 21

Slide 21 text

評価の自動化 : LLM as a Judge は非常に有効ユースケースの整理を行うためには、ユースケースの定義が必要一度定義を書き下せば、それをプロンプトとして用いることで分類器が作成できる正確な分類ができなくとも、継続的に評価できることは重要

Slide 22

Slide 22 text

評価の自動化 : ユースケースの整理を LLM に行わせるユースケースの整理を行うためには、 100 - 1000 件程度のログの目視確認が必要目視確認を行って分類するためには労力もかかるし、経験も必要分類を LLM を用いて行うことも可能

Slide 23

Slide 23 text

まとめ LLM の評価には大まかに 3つの方法がある現場での使われ方を踏まえると、適切でない回答を返したとしても業務上有用である可能性があり、回答精度のみで評価することは労力の浪費となる可能性があるログに基づく品質評価においては LLM as a Judge は非常に有効で、自動化の可能性もある