Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM を現場で評価する

LLM を現場で評価する

ML@Loft ~LLM運用の現実~ での登壇資料です
https://aws-startup-lofts.com/apj/loft/tokyo/event/d50d37d1-819e-4a0f-b319-c8f7fb3b512a

対話ログの品質評価の方法について述べました

Asei Sugiyama

August 30, 2024
Tweet

More Decks by Asei Sugiyama

Other Decks in Technology

Transcript

  1. 自己紹介 杉山 阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google

    Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑 共著 事例でわかる MLOps 共著 決闘者 @ マスターデュエル
  2. RAG 検索と LLM の合せ技 現実解になっている 検索を効率良く行うこと が実用上重要 Gekhman, Zorik, et

    al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904
  3. 精度勝負への疑問 機械学習モデルを訓練し て精度を上げるのは大変 LLM の多様な能力で、精 度勝負からの脱却ができ たはず RAG で精度勝負に回帰し ていないか

    Open LLM Leaderboard 2 - a Hugging Face Space by open-llm-leaderboard https://huggingface.co/spaces/open-llm- leaderboard/open_llm_leaderboard
  4. LLM 時代の対話の品質評価 タスクが多様なため正答率以外の指標が必要に Q&A, 要約 , 翻訳 , コード生成 ,

    etc... ユーザーからのフィードバックで「良さ」を測ることはできる 「良さ」とは何かが問題になる
  5. 評価の 3つの方法 ベンチマークを用いた事前評価 : QA4AI ガイドライン 仮想シナリオを用いた事前評価 : デジタル庁レポート 対話ログを用いた事後評価

    : 筆者の取り組み 手法 事前評価可能 カスタマイズ性 品質特性の網羅性 ベンチマーク ✓ 仮想シナリオ ✓ ✓ 対話ログ ✓ ✓
  6. 評価の自動化 : ユースケースの整理を LLM に行わせる ユースケースの整理を行うためには、 100 - 1000 件程度のログの目

    視確認が必要 目視確認を行って分類するためには労力もかかるし、経験も必要 分類を LLM を用いて行うことも可能