Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMアプリの品質保証

Avatar for Cybozu Cybozu PRO
February 15, 2026
17

 LLMアプリの品質保証

Avatar for Cybozu

Cybozu PRO

February 15, 2026
Tweet

More Decks by Cybozu

Transcript

  1. 3 01 02 03 04 COMPASからのケーススタディ LLMアプリ独自の品質特性 リスク分析 LLMアプリ全体の品質保証 流

    れ 背 景 産総研主催の「AI品質マネジメント講座」を受講した際の知見を基に、 社内展開用として本勉強会を企画しました。 URL https://www.digiarc.aist.go.jp/event/aiqm-course/
  2. 4 C O M PA S か ら の ケ

    ー ス ス タ デ ィ
  3. 再犯リスク判定の偏り 6 2016年ProPublica調査:7,214人を分析 人種による偽陽性の偏り (再犯しないのに「高リスク」と判定) 黒人の誤判定率 44.9% 白人 23.5% 実例:

    軽犯罪歴ありの18歳黒人女性が自転車盗難未遂で「高リスク」判定 (実際は再犯なし) 41歳白人男性が武装強盗歴ありで窃盗「低リスク」判定 (実際は7700ドル窃盗で再犯) 出典: ProPublica “How We Analyzed the COMPAS Recidivism Algorithm” (2016) https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm 事例: ProPublica "Machine Bias" (2016) https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
  4. 1. AIの非決定的な振る舞い • AIの出力する結果は非決定的で、何が応答として返ってくるかわからない(すべてのパターンをテスト することは不可能) • 同じ入力でも異なる出力が生成される可能性がある 2. 変わらない責任 •

    出力結果に問題がある場合は説明責任や法的責任を問われる可能性がある • AIの特性を理由に責任が免除されることはない AIの品質保証をしていくためには • 開発時点からAIに求められる品質特性を理解する必要がある • LLMの特性を踏まえた仕様レビュー、テスト設計が重要 AI独自の品質保証が必要な理由 9
  5. 機能要求満足性とは • 明示的な機能要求を満たしているかどうか 仕様書や要求定義書に明記された具体的な要件の実現 • 暗黙的な機能要求が満たせているか 社会的・倫理的な期待、常識的な振る舞いへの対応 • ソフトウェアの要求を満たすように設計されているか システムアーキテクチャレベルでの要求実現の考慮

    • エンドツーエンドでの定性的評価に問題がないか 部分的な評価ではなく、システム全体としての品質確認 機能要求満足性 13 システムが、システムへの要求を満たしているか AIの応答品質の精度という観点が当てはまるのはここ
  6. インタクラクション性とは ユーザーが思った通りに使えるかどうか • 適切度認識性 ユーザーが自身の期待する用途にLLMアプリが適切かを判断できること システムの能力と限界を明確に伝え、できることできないことを明確にする必要がある 例: 「このAIは一般的な質問には答えられますが、専門的な医療診断はできません」などの注釈 • 可制御性

    ユーザーによる動作制御ができること LLMが過剰に何かをしようとしたときに、ユーザーがLLMを制御できるか 例:エージェントシステムで、操作前にユーザーに確認 回答生成中に、回答の出力を停止できるUIがある、などの制御の動線 インタラクション性(1/2) 16
  7. 安全性 • 入力制限性 危険な入力が適切にフィルタリングされているか • フェイルセーフ性 故障時であっても安全性が毀損されないこと エラー発生時に適切に処理とフィードバックが行われること • 否認防止性(AI透明性)

    AI生成コンテンツであることが明示されているか 例: 電子透かしやメタ情報による、なりすまし防止がされているか 出力がAIによるものであることを外部にわかる形で提示しているか 安全性(1/2) 20
  8. プライバシー • 想定外の情報プライバシーの漏洩が発生しないこと 利用者のデータ 学習時に利用したデータ(プライバシー、著作権を含むものを学習していた場合) 公平性 • これまでになかったリスクにも気を配る 要配慮属性を含むデータの取り扱いに関して想定外の偏りが起きないこと 要配慮属性:社会的に配慮が必要とされる属性のこと

    要配慮属性の違いによって、出力コンテンツに影響が起きないこと データが明示的に要配慮属性を持つ場合もあるし、データ処理の過程で要配慮属性 に相当する情報が付与されることもある 何が要配慮属性になるかは作る製品によって違う プライバシー・公平性 22
  9. プライバシー • 想定外の情報プライバシーの漏洩が発生しないこと 利用者のデータ 学習時に利用したデータ(プライバシー、著作権を含むものを学習していた場合) 公平性 • これまでになかったリスクにも気を配る 要配慮属性を含むデータの取り扱いに関して想定外の偏りが起きないこと 要配慮属性:社会的に配慮が必要とされる属性のこと

    要配慮属性の違いによって、出力コンテンツに影響が起きないこと データが明示的に要配慮属性を持つ場合もあるし、データ処理の過程で要配慮属性 に相当する情報が付与されることもある 何が要配慮属性になるかは作る製品によって違う プライバシー・公平性 23
  10. 実際のテスト戦略をどうやって考えていくか? • 品質特性だけを理解していても、それを実際のプロダクトのテスト戦略に落とし込むには別のやり方が必 要 • この勉強会では、一つのやり方としてリスク分析を紹介します • リスク分析の何がLLMアプリのテスト戦略を考えるのに向いているの? • 製品にあるリスクと優先度を整理

    • 整理したリスクに対応したテストと、テストの優先度が決めやすい • 予測できない要素が大きいLLMアプリだからこそ、リスクを同定することが効率的なテストにつなが る・・・かも リスク分析~LLMアプリのテスト戦略策定の一助に~ 25
  11. 基本の流れ 1. リスクをリストアップ(考えられるリスクを洗い出す) 2. 各リスクの発生確率、影響度を評価 3. マトリクス上にプロット リスクマトリクスとは? • 横軸:発生可能性(低・中・高)

    • 縦軸:影響度(軽微・中程度・重大) • 9つのセルで優先度を可視化 ※解説しているものによってマトリクスの取り方は違う AI品質での適用例 過度に利用され、想定以上にコストがかかるリスク⇨Rate Limitの導入、テストが必要 リスク分析の基本 26 発生可能性 → 影響度 → 低 中 高 軽微 中程度 重大
  12. ここまでの振り返り AI特有の品質特性について見てきました 実際のプロダクトの形 • サイボウズでは、LLMをUIでラップして提供 • ユーザーが触るのはWebアプリやモバイルアプリ • LLMの機能はシステム全体の中の一部にすぎない 製品全体で必要な品質とは?

    • LLMだけをみた品質保証では不十分⇨システム全体の品質も考えるがある • 従来のソフトウェア品質+LLM部分の品質で製品はできている LLMアプリの品質保証は、LLMだけを見ればいいとは限らない 28 AI品質とシステム品質、両方の視点が必要
  13. LLMアプリの開発のパターン 29 パターン1:自社でAI基盤を開発 • モデルの学習から推論まで自社で実施 • フルコントロール可能 • OpenAI、Anthropic、Google等 特徴

    ✓ データの完全管理/品質が自社で全て完結 パターン2:他社のAI基盤を利用 • OpenAI、Anthropic、Google等のAPI利用 • 基盤モデルをそのまま/プロンプトで調整 特徴 ✓ 品質保証でできることが限られる ✓ プロンプト/ファインチューニング RAGの重みづけetc ✓ 手が出せる範囲は狭い サイボウズはこっち
  14. AIの応答品質のテストには多様な観点がある • LLMアプリの品質保証というと、AIの応答品質のテストが真っ先に考えられがち • だが、応答の精度以外にも多様な観点がある(信頼性、公平性、安全性etc) • 応答品質のテストには精度だけでなく多様な観点を組み込む必要がある LLMの品質は、応答品質だけじゃない • 応答品質はLLMの数ある品質のうちの一つでしかない

    • LLMの品質全体を見た時に、他にもたくさんの品質が求められている(性能効率性、セキュリティetc) LLMの品質とは別に、システム全体の品質が存在する • LLMの品質保証は、LLMアプリの品質保証とイコールではない • 既存のソフトウェアに求められる品質は保証し続ける必要がある 今日一番お伝えしたいこと 33
  15. 今日見てきたこと • LLM独自の品質特性 • LLMアプリの構造の全体感 これまでのテストと違うところ • AIの振る舞いは非決定的 • LLMアプリにはこれまでなかったリスク、品質特性がある

    伝えたいこと • AI独自の品質特性と同じくらい、従来のシステム品質も重要 まとめ 35 応答品質だけに目を向けずに、システム全体をみる視点が大切