Upgrade to Pro — share decks privately, control downloads, hide ads and more …

改善できないのは評価していないから? 〜LLM出力評価のススメ〜 / generative-a...

改善できないのは評価していないから? 〜LLM出力評価のススメ〜 / generative-ai-x-meetup-vol1-link-and-motivation

リンクアンドモチベーション登壇資料(2025/07/25)

改善できないのは評価していないから?
〜LLM出力評価のススメ〜

#リンモチ

===========================================
【イベント情報】
■イベントページ
https://linedevelopercommunity.connpass.com/event/361757/

【株式会社リンクアンドモチベーション】
■お問合せ先
 [email protected]
■テックブログ
 https://link-and-motivation.hatenablog.com/
■開発組織の公式X
 https://x.com/LinkandM_dev
=============================================

More Decks by リンクアンドモチベーション

Transcript

  1. 2
 © Link and Motivation Group 代慶 真(よけい まこと) 


    
 株式会社リンクアンドモチベーション 
 
 • 2020年新卒入社 
 • 既存プロダクトへのLLM機能の導入 
 自己紹介
  2. 3
 © Link and Motivation Group 創業年月日|2000 年4月7日 
 


    上場市場 |東京証券取引所 プライム市場 
 
 従業員数 |約1,500名 (グループ全体)
 
 売上   |374 億 (グループ全体) ※2024年12月期 
 
 事業内容 |組織改善を支援する『モチベーションクラウド』を提供 
 株式会社リンクアンドモチベーション 会社紹介
  3. 6
 © Link and Motivation Group 過去の失敗:定量評価なしの LLMの出力改善では不安 一週間後 LLMの機能開発にて、プロンプトチューニングに没頭

    これって、良くなって るのかな? たくさん修正必要 で、大変だな 結果、顧客が満足する品質に届かず 開発も断念
  4. 8
 © Link and Motivation Group 新たなPJT:過去のLLMの出力改善の取り組みで見えた課題を解決 1 2 改善できたかの判断が主観的で、改善の方向性が定まらない

    一時的な確認のみで、全体的な品質が把握できていない  評価項目を細かく定義して、客観的な評価で解決!  評価するコストを下げて、継続的な評価で解決!
  5. 9
 © Link and Motivation Group AIプロダクト品質保証ガイドライン を参考に品質特性を設定 主特性 副特性

    詳細観点 優先度 基準 1.回答品質 自然言語処理における回答性能 タイトルのわかりやすさ WANT 3段階で平均2以上 1.回答品質 自然言語処理における回答性能 トーン適合度 WANT 3段階で平均2以上 1.回答品質 自然言語処理における回答性能 JSON形式の妥当性 MUST TRUE率 99% 1.回答品質 自然言語処理における回答性能 件数適正 MUST TRUE率 99% 2.事実性・誠実性 一般的な知識に対する事実性‧誠実性 一般知識整合性 MUST TRUE率 99% 2.事実性・誠実性 与えた知識に対する事実性 入力データ整合性 MUST TRUE率 99% 2.事実性・誠実性 根拠の説明性‧妥当性 インプット情報の活用度 WANT 3段階で平均2以上 3.頑健性 頑健性 頑健性 MUST TRUE率 99% 4.セキュリティ セキュリティ セキュリティ MUST TRUE率 99% 5.倫理性‧アラインメント 公平性 公平性・倫理性 MUST TRUE率 99% 5.倫理性‧アラインメント 安全性 安全性・リスク回避 MUST TRUE率 99% 整理した品質特性の一覧表(※一部、例示のために内容を変更) LLMの出力品質を客観的に評価
  6. 10
 © Link and Motivation Group AIプロダクト品質保証ガイドライン を参考に品質特性を設定 主特性 副特性

    詳細観点 優先度 基準 1.回答品質 自然言語処理における回答性能 タイトルのわかりやすさ WANT 3段階で平均2以上 1.回答品質 自然言語処理における回答性能 トーン適合度 WANT 3段階で平均2以上 1.回答品質 自然言語処理における回答性能 JSON形式の妥当性 MUST TRUE率 99% 1.回答品質 自然言語処理における回答性能 件数適正 MUST TRUE率 99% 2.事実性・誠実性 一般的な知識に対する事実性‧誠実性 一般知識整合性 MUST TRUE率 99% 2.事実性・誠実性 与えた知識に対する事実性 入力データ整合性 MUST TRUE率 99% 2.事実性・誠実性 根拠の説明性‧妥当性 インプット情報の活用度 WANT 3段階で平均2以上 3.頑健性 頑健性 頑健性 MUST TRUE率 99% 4.セキュリティ セキュリティ セキュリティ MUST TRUE率 99% 5.倫理性‧アラインメント 公平性 公平性・倫理性 MUST TRUE率 99% 5.倫理性‧アラインメント 安全性 安全性・リスク回避 MUST TRUE率 99% 整理した品質特性の一覧表(※一部、例示のために内容を変更) LLMの出力品質を客観的に評価 プロダクト固有の 品質特性 プロダクトに依存しない 一般的な品質特性
  7. 11
 © Link and Motivation Group AIプロダクト品質保証ガイドライン を参考に品質特性を設定 主特性 副特性

    詳細観点 優先度 基準 1.回答品質 自然言語処理における回答性能 タイトルのわかりやすさ WANT 3段階で平均2以上 1.回答品質 自然言語処理における回答性能 トーン適合度 WANT 3段階で平均2以上 1.回答品質 自然言語処理における回答性能 JSON形式の妥当性 MUST TRUE率 99% 1.回答品質 自然言語処理における回答性能 件数適正 MUST TRUE率 99% 2.事実性・誠実性 一般的な知識に対する事実性‧誠実性 一般知識整合性 MUST TRUE率 99% 2.事実性・誠実性 与えた知識に対する事実性 入力データ整合性 MUST TRUE率 99% 2.事実性・誠実性 根拠の説明性‧妥当性 インプット情報の活用度 WANT 3段階で平均2以上 3.頑健性 頑健性 頑健性 MUST TRUE率 99% 4.セキュリティ セキュリティ セキュリティ MUST TRUE率 99% 5.倫理性‧アラインメント 公平性 公平性・倫理性 MUST TRUE率 99% 5.倫理性‧アラインメント 安全性 安全性・リスク回避 MUST TRUE率 99% 整理した品質特性の一覧表(※一部、例示のために内容を変更) LLMの出力品質を客観的に評価 優先度を定義
  8. 12
 © Link and Motivation Group AIプロダクト品質保証ガイドライン を参考に品質特性を設定 主特性 副特性

    詳細観点 優先度 基準 1.回答品質 自然言語処理における回答性能 タイトルのわかりやすさ WANT 3段階で平均 2以上 1.回答品質 自然言語処理における回答性能 トーン適合度 WANT 3段階で平均 2以上 1.回答品質 自然言語処理における回答性能 JSON形式の妥当性 MUST TRUE率 99% 1.回答品質 自然言語処理における回答性能 件数適正 MUST TRUE率 99% 2.事実性・誠実性 一般的な知識に対する事実性‧誠実性 一般知識整合性 MUST TRUE率 99% 2.事実性・誠実性 与えた知識に対する事実性 入力データ整合性 MUST TRUE率 99% 2.事実性・誠実性 根拠の説明性‧妥当性 インプット情報の活用度 WANT 3段階で平均 2以上 3.頑健性 頑健性 頑健性 MUST TRUE率 99% 4.セキュリティ セキュリティ セキュリティ MUST TRUE率 99% 5.倫理性‧アラインメント 公平性 公平性・倫理性 MUST TRUE率 99% 5.倫理性‧アラインメント 安全性 安全性・リスク回避 MUST TRUE率 99% 整理した品質特性の一覧表(※一部、例示のために内容を変更) LLMの出力品質を客観的に評価 合格基準を設定
  9. 13
 © Link and Motivation Group 主特性 副特性 詳細観点 優先度

    基準 1.回答品質 自然言語処理における回答性能 タイトルのわかりやすさ WANT 3段階で平均2以上 1.回答品質 自然言語処理における回答性能 トーン適合度 WANT 3段階で平均2以上 1.回答品質 自然言語処理における回答性能 JSON形式の妥当性 MUST TRUE率 99% 1.回答品質 自然言語処理における回答性能 件数適正 MUST TRUE率 99% 2.事実性・誠実性 一般的な知識に対する事実性‧誠実性 一般知識整合性 MUST TRUE率 99% 2.事実性・誠実性 与えた知識に対する事実性 入力データ整合性 MUST TRUE率 99% 2.事実性・誠実性 根拠の説明性‧妥当性 インプット情報の活用度 WANT 3段階で平均2以上 3.頑健性 頑健性 頑健性 MUST TRUE率 99% 4.セキュリティ セキュリティ セキュリティ MUST TRUE率 99% 5.倫理性‧アラインメント 公平性 公平性・倫理性 MUST TRUE率 99% 5.倫理性‧アラインメント 安全性 安全性・リスク回避 MUST TRUE率 99% AIプロダクト品質保証ガイドライン を参考に品質特性を設定 整理した品質特性の一覧表(※一部、例示のために内容を変更) LLMの出力品質を客観的に評価 評価項目を細かく定義することで、客観的に評価可能に!
  10. 14
 © Link and Motivation Group LLMの出力品質を継続的に評価 LLM出力評価の3つのアプローチ:プログラム・人・ LLM プログラム

    クオリティ コスト 評価できる 観点の種類 人 LLM LLMの出力の評価者ごとのトレードオフの関係
  11. 15
 © Link and Motivation Group LLMの出力品質を継続的に評価 LLM出力評価の3つのアプローチ:プログラム・人・ LLM プログラム

    クオリティ コスト 評価できる 観点の種類 人 LLM LLMの出力の評価者ごとのトレードオフの関係 評価可能なケースは限定的
  12. 16
 © Link and Motivation Group LLMの出力品質を継続的に評価 LLM出力評価の3つのアプローチ:プログラム・人・ LLM プログラム

    クオリティ コスト 評価できる 観点の種類 人 LLM LLMの出力の評価者ごとのトレードオフの関係
  13. 17
 © Link and Motivation Group LLMの出力品質を継続的に評価 LLM出力評価の3つのアプローチ:プログラム・人・ LLM プログラム

    クオリティ コスト 評価できる 観点の種類 人 LLM LLMの出力の評価者ごとのトレードオフの関係 二つの手法の組み合わせで、 クオリティとコストを両取り
  14. 18
 © Link and Motivation Group LLMの出力品質を継続的に評価 生成物 system prompt

    user prompt user prompt user prompt 評価対象 複数のデータパターンで、 出力結果を生成
  15. 19
 © Link and Motivation Group LLMの出力品質を継続的に評価 生成物 system prompt

    user prompt user prompt user prompt 評価対象 複数のデータパターンで、 出力結果を生成 評価用 prompt 評価者 評価対象のpromptと 生成物をインプット
  16. 20
 © Link and Motivation Group LLMの出力品質を継続的に評価 生成物 system prompt

    user prompt user prompt user prompt 評価対象 複数のデータパターンで、 出力結果を生成 評価用 prompt 評価は3 評価は2 評価者 評価対象のpromptと 生成物をインプット
  17. 21
 © Link and Motivation Group LLMの出力品質を継続的に評価 生成物 system prompt

    user prompt user prompt user prompt 評価対象 複数のデータパターンで、 出力結果を生成 評価用 prompt 評価は3 評価は2 評価者 評価対象のpromptと 生成物をインプット 評価結果の違いを言語化 し、ブラッシュアップ
  18. 22
 © Link and Motivation Group LLMの出力品質を継続的に評価 生成物 system prompt

    user prompt user prompt user prompt 評価対象 複数のデータパターンで、 出力結果を生成 評価用 prompt 評価は3 評価は2 評価者 評価対象のpromptと 生成物をインプット 評価結果の違いを言語化 し、ブラッシュアップ コストの低いLLM評価の精度を向上させ、継続的に品質可能に!
  19. 23
 © Link and Motivation Group その結果 品質劣化の予防 と着実な改善 が進んだ

    あれも、これも直さな いと。きっと、全部大 事だよな Before After さっき改善した箇所 がおかしくなってる 重要度の高い評価観 点をまず対応してい こう あ、ここの修正でデ グレしてる。 すぐに修正しよう
  20. 24
 © Link and Motivation Group その結果 品質劣化の予防 と着実な改善 が進んだ

    あれも、これも直さな いと。きっと、全部大 事だよな Before After さっき改善した箇所 がおかしくなってる 重要度の高い評価観 点をまず対応してい こう あ、ここの修正でデ グレしてる。 すぐに修正しよう 自信を持って 、改善を進められるようになった
  21. 26
 © Link and Motivation Group まとめ 1 評価項目を細かく定義して、客観的な評価をした 2

    評価するコストを下げて、継続的な評価をした 改善できないのは、客観的・継続的に評価できていないから
  22. 27
 © Link and Motivation Group まとめ 1 評価項目を細かく定義して、客観的な評価をした 2

    評価するコストを下げて、継続的な評価をした 改善できないのは、客観的・継続的に評価できていないから LLM出力の改善は、評価することから