Slide 1

Slide 1 text

LLMを現場で評価する Asei Sugiyama

Slide 2

Slide 2 text

自己紹介 杉山 阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑 共著 事例でわかる MLOps 共著 決闘者 @ マスターデュエル

Slide 3

Slide 3 text

TOC LLM と評価 <- LLM の現場での使われ方 ログに基づく品質評価

Slide 4

Slide 4 text

LLM と評価 生成 AI の弱点 RAG 精度勝負への疑問 LLM 時代の対話の品質評価 評価の 3つの方法

Slide 5

Slide 5 text

生成 AI の弱点 常識には強い 特定分野の専門知識が求 められると弱い 左折するときに信号を確 認することもできない

Slide 6

Slide 6 text

No content

Slide 7

Slide 7 text

RAG 検索と LLM の合せ技 現実解になっている 検索を効率良く行うこと が実用上重要 Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

Slide 8

Slide 8 text

精度勝負への疑問 機械学習モデルを訓練し て精度を上げるのは大変 LLM の多様な能力で、精 度勝負からの脱却ができ たはず RAG で精度勝負に回帰し ていないか Open LLM Leaderboard 2 - a Hugging Face Space by open-llm-leaderboard https://huggingface.co/spaces/open-llm- leaderboard/open_llm_leaderboard

Slide 9

Slide 9 text

LLM 時代の対話の品質評価 タスクが多様なため正答率以外の指標が必要に Q&A, 要約 , 翻訳 , コード生成 , etc... ユーザーからのフィードバックで「良さ」を測ることはできる 「良さ」とは何かが問題になる

Slide 10

Slide 10 text

評価の 3つの方法 ベンチマークを用いた事前評価 : QA4AI ガイドライン 仮想シナリオを用いた事前評価 : デジタル庁レポート 対話ログを用いた事後評価 : 筆者の取り組み 手法 事前評価可能 カスタマイズ性 品質特性の網羅性 ベンチマーク ✓ 仮想シナリオ ✓ ✓ 対話ログ ✓ ✓

Slide 11

Slide 11 text

TOC LLM と評価 LLM の現場での使われ方 <- ログに基づく品質評価

Slide 12

Slide 12 text

LLM の現場での使われ方 今回はデジタル庁のレポートと筆者の経験から、 LLM の実際の使わ れ方について共有 使い始める切っ掛け 用途 利用頻度 導入効果 結論

Slide 13

Slide 13 text

使い始める切っ掛け 同僚からの口コミがとて も大事 同僚がどのように使って いるのか広めることが大 事

Slide 14

Slide 14 text

用途 文章案の作成や要約、校正 知りたい情報の検索、調査 アイデア出し、案出し パソコンの操作法やコードの 生成 (Excel、関数、 VBAなど ) 仕事のやり方の相談、アドバ イスをもらう 他組織でもほぼ同様、翻訳も 人気

Slide 15

Slide 15 text

利用頻度 一部のユーザーが使い込 んでいる 適切でない回答を返して いても使い込んでいる 先進的なユーザーがプロ ンプトでアプリケーショ ンを作成する例は散見さ れる

Slide 16

Slide 16 text

導入効果 使い込んでいる人ほど効 果を感じている 適切でない回答を返して いることは、効果を上げ るためにさほど重要では ない可能性

Slide 17

Slide 17 text

結論 利用者の分布はパレート 則に従う 広めるためには口コミが 大事 絶対的な品質評価は困難 ユースケース単位で品質評 価

Slide 18

Slide 18 text

TOC LLM と評価 LLM の現場での使われ方 ログに基づく品質評価 <-

Slide 19

Slide 19 text

ログに基づく品質評価 品質評価のための具体的なワークフロー 評価の自動化

Slide 20

Slide 20 text

過去ログを用いた評価のワークフロー

Slide 21

Slide 21 text

評価の自動化 : LLM as a Judge は非常に有効 ユースケースの整理を行うためには、ユースケースの定義が必要 一度定義を書き下せば、それをプロンプトとして用いることで分類 器が作成できる 正確な分類ができなくとも、継続的に評価できることは重要

Slide 22

Slide 22 text

評価の自動化 : ユースケースの整理を LLM に行わせる ユースケースの整理を行うためには、 100 - 1000 件程度のログの目 視確認が必要 目視確認を行って分類するためには労力もかかるし、経験も必要 分類を LLM を用いて行うことも可能

Slide 23

Slide 23 text

まとめ LLM の評価には大まかに 3つの方法がある 現場での使われ方を踏まえると、適切でない回答を返したとしても 業務上有用である可能性があり、回答精度のみで評価することは労 力の浪費となる可能性がある ログに基づく品質評価においては LLM as a Judge は非常に有効 で、自動化の可能性もある