LLMアプリの品質保証

LLMアプリの品質保証～LLMの特性から全体像まで～ 2025.12 1 水谷太一（くつしたいぬ） @dog_dog_3dog

勉強会のスコープ 2 この講演の対象者 LLMアプリの品質保証に興味がある方 LLMアプリの開発に関わる方 AIの品質保証の領域を学びたい方得られる知識 AI独自の品質特性
AIを使った製品の全体的な品質保証のイメージを掴めるリスク分析の手法

3 01 02 03 04 COMPASからのケーススタディ LLMアプリ独自の品質特性リスク分析 LLMアプリ全体の品質保証流
れ背景産総研主催の「AI品質マネジメント講座」を受講した際の知見を基に、社内展開用として本勉強会を企画しました。 URL https://www.digiarc.aist.go.jp/event/aiqm-course/

4 C O M PA S からのケ
ーススタディ

• アメリカで広く使われた再犯予測システム • 機械学習を使って137の質問から1-10のリスクスコアを算出 • 保釈金・量刑・仮釈放の判断に影響出典: https://edu.isc.chubu.ac.jp/hsuzuki/iip/DataScience/ethics/ethics2.html Wikipedia "COMPAS
(software)" https://en.wikipedia.org/wiki/COMPAS_(software) COMPASとは？ 5

再犯リスク判定の偏り 6 2016年ProPublica調査：7,214人を分析人種による偽陽性の偏り（再犯しないのに「高リスク」と判定）黒人の誤判定率 44.9% 白人 23.5% 実例：
軽犯罪歴ありの18歳黒人女性が自転車盗難未遂で「高リスク」判定（実際は再犯なし） 41歳白人男性が武装強盗歴ありで窃盗「低リスク」判定（実際は7700ドル窃盗で再犯）出典: ProPublica “How We Analyzed the COMPAS Recidivism Algorithm” (2016) https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm 事例: ProPublica "Machine Bias" (2016) https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

偏りが生じた理由 7 137の質問：人種は聞かないが... 評価する項目貧困・失業・居住地域・家族の犯罪歴 → これらは構造的に人種と相関アルゴリズムでの中立性 ≠
社会的にみたときの公平性

問題の核心：社会的文脈の見落とし • 再犯予測システムCOMPASが黒人被告に対して不公平と取られかねない判定を出していた • 社会的な差別を再生産していると取られる結果となった • 技術的な精度だけでなく、社会的影響を考慮する必要があったもし適切なテストをしていたら • 公平性の観点を含めたテスト設計により問題を早期発見できた可能性
ex:人種間での結果の差異の検証など問題に発展したAI関連の事例は他にも多数存在する人事評価、画像判定etc… COMPASの事例が示す教訓 8

1. AIの非決定的な振る舞い • AIの出力する結果は非決定的で、何が応答として返ってくるかわからない（すべてのパターンをテストすることは不可能） • 同じ入力でも異なる出力が生成される可能性がある 2. 変わらない責任 •
出力結果に問題がある場合は説明責任や法的責任を問われる可能性がある • AIの特性を理由に責任が免除されることはない AIの品質保証をしていくためには • 開発時点からAIに求められる品質特性を理解する必要がある • LLMの特性を踏まえた仕様レビュー、テスト設計が重要 AI独自の品質保証が必要な理由 9

10 L L M アプリ独自の
品質特性

• この章の内容は生成AI品質マネジメントガイドラインを引用、参考に作成弊社では生成AIの他社基盤を利用しての開発がメインのためこのガイドラインを利用日本語のガイドラインはだいたい読んだが、個人的にはこれが一番体系的にまとまっている印象 • 今回の内容はとっつきやすくなるようにわかりやすさを重視ガイドラインそのものを読むより簡略化されている箇所があります生成AIに特化したところを抽出しているため省略した項目がありますガイドラインによって、内容に差異があるので、詳しく知りたい場合は色々なガイドラインを読んで自分の好みのものを見つけるのが吉
引用、参考文献:産総研. 生成AI品質マネジメントガイドライン.2025. https://www.digiarc.aist.go.jp/publication/aiqm/ おことわり 11

これから、10個の品質特性と、そのサブ特性を紹介します（生成AI品質マネジメントガイドラインより） • 機能要求満足性 • 信頼性 • インタラクション性 • セキュリティ •
安全性 • プライバシー • 公平性 • 性能効率性 • 移植性 • 保守性品質特性の一覧 12

機能要求満足性とは • 明示的な機能要求を満たしているかどうか仕様書や要求定義書に明記された具体的な要件の実現 • 暗黙的な機能要求が満たせているか社会的・倫理的な期待、常識的な振る舞いへの対応 • ソフトウェアの要求を満たすように設計されているかシステムアーキテクチャレベルでの要求実現の考慮
• エンドツーエンドでの定性的評価に問題がないか部分的な評価ではなく、システム全体としての品質確認機能要求満足性 13 システムが、システムへの要求を満たしているか AIの応答品質の精度という観点が当てはまるのはここ

信頼性とは • ロバスト性（堅牢性）想定外の入力への耐性基準となるデータから外れた入力に対して応答の一貫性を保てるか外れ値が入力されたとき、システム全体の安定性が保てるか • 出力一貫性同一入力に対する出力の整合性ユーザー体験の一貫性
信頼性（1/2） 14

信頼性とは（つづき） • 可用性、耐故障性、回復性継続的な運用可能性障害時の適切な振る舞い信頼性（2/2） 15 補足）一般的なシステムでも求められる要素だが、AIの場合は計算資源やRate Limitなど、特有の事情もあるためその点の考慮が必要となる場合もある
AIには不確実性を含みながらも信頼できる動作が必要

インタラクション性とはユーザーが思った通りに使えるかどうか • 適切度認識性ユーザーが自身の期待する用途にLLMアプリが適切かを判断できることシステムの能力と限界を明確に伝え、できることできないことを明確にする必要がある例: 「このAIは一般的な質問には答えられますが、専門的な医療診断はできません」などの注釈 • 可制御性
ユーザーによる動作制御ができること LLMが過剰に何かをしようとしたときに、ユーザーがLLMを制御できるか例:エージェントシステムで、操作前にユーザーに確認回答生成中に、回答の出力を停止できるUIがある、などの制御の動線インタラクション性（1/2） 16

• 説明性生成されたコンテンツの生成理由についての提示が行われているかユーザーがLLMの判断根拠を理解できるか RAGシステムの例 - 生成元となった情報源の提示 - 使用した情報の関連度や信頼性の表示もし仮に説明が何もない場合、ユーザーはLLMの判断の根拠がわからない
• 習得容易性使い方が容易に習得できるかインタラクション性（2/2） 17 制御、説明性などこれまでと違った導線や情報提供が必要になる場合がある

セキュリティ • アクセス制御性システムプロンプト、LLMモデルなどへのアクセス権が適切に設定されていることユーザーデータが適切に管理されていること • 真正性と責任追跡性入力元の確認（プロンプトインジェクション対策） LLMが過剰に何かをしようとしたときに、ユーザーがLLMを制御できるか出力の生成理由の追跡可能性
監査ログの適切な記録セキュリティ（1/2） 18

• 介入性稼働中のアプリに介入できるようになっていること例:システムを監視して、不正な挙動をするドメインがあったら止められる必要に応じて、システムを意図的に停止できる、など • LLMアプリ独自で必要なセキュリティ対策は様々プロンプトインジェクション攻撃への対策生成コンテンツの悪用防止データ漏洩とプライバシー保護の両立
などなどセキュリティ（2/2） 19

安全性 • 入力制限性危険な入力が適切にフィルタリングされているか • フェイルセーフ性故障時であっても安全性が毀損されないことエラー発生時に適切に処理とフィードバックが行われること • 否認防止性（AI透明性）
AI生成コンテンツであることが明示されているか例: 電子透かしやメタ情報による、なりすまし防止がされているか出力がAIによるものであることを外部にわかる形で提示しているか安全性（1/2） 20

安全性を考えるポイント製品の文脈に応じて安全性を設計する • 安全性は状況次第・状況に応じて求められる安全性の度合いは異なる例:ガードレールの設定を子供向けは厳格に、大人向けは柔軟にする • これまでになかったリスクにも気を配る出力によっては、権利侵害が起きるリスクもある例:著作権やプライバシーなどを意図せず侵害するリスク
安全性（2/2） 21

プライバシー • 想定外の情報プライバシーの漏洩が発生しないこと利用者のデータ学習時に利用したデータ（プライバシー、著作権を含むものを学習していた場合）公平性 • これまでになかったリスクにも気を配る要配慮属性を含むデータの取り扱いに関して想定外の偏りが起きないこと要配慮属性:社会的に配慮が必要とされる属性のこと
要配慮属性の違いによって、出力コンテンツに影響が起きないことデータが明示的に要配慮属性を持つ場合もあるし、データ処理の過程で要配慮属性に相当する情報が付与されることもある何が要配慮属性になるかは作る製品によって違うプライバシー・公平性 22

性能効率性時間効率性 • 期待通りの応答時間、処理時間、スループットを示すこと資源効率性 • 計算資源の量を期待通りに使用し、過剰な計算資源を使用しないこと移植性 • 他の環境に移すのが容易かどうか
保守性 • システムが保守しやすいこと（改良したり、不具合修正したりといった変更を加えやすいこと）性能効率性・移植性・保守性 23

24 リスク分析

実際のテスト戦略をどうやって考えていくか？ • 品質特性だけを理解していても、それを実際のプロダクトのテスト戦略に落とし込むには別のやり方が必要 • この勉強会では、一つのやり方としてリスク分析を紹介します • リスク分析の何がLLMアプリのテスト戦略を考えるのに向いているの？ • 製品にあるリスクと優先度を整理
• 整理したリスクに対応したテストと、テストの優先度が決めやすい • 予測できない要素が大きいLLMアプリだからこそ、リスクを同定することが効率的なテストにつながる・・・かもリスク分析～LLMアプリのテスト戦略策定の一助に～ 25

基本の流れ 1. リスクをリストアップ（考えられるリスクを洗い出す） 2. 各リスクの発生確率、影響度を評価 3. マトリクス上にプロットリスクマトリクスとは？ • 横軸：発生可能性（低・中・高）
• 縦軸：影響度（軽微・中程度・重大） • 9つのセルで優先度を可視化 ※解説しているものによってマトリクスの取り方は違う AI品質での適用例過度に利用され、想定以上にコストがかかるリスク⇨Rate Limitの導入、テストが必要リスク分析の基本 26 発生可能性 → 影響度 → 低中高軽微中程度重大

27 L L M アプリ全体の
品質保証

ここまでの振り返り AI特有の品質特性について見てきました実際のプロダクトの形 • サイボウズでは、LLMをUIでラップして提供 • ユーザーが触るのはWebアプリやモバイルアプリ • LLMの機能はシステム全体の中の一部にすぎない製品全体で必要な品質とは？
• LLMだけをみた品質保証では不十分⇨システム全体の品質も考えるがある • 従来のソフトウェア品質＋LLM部分の品質で製品はできている LLMアプリの品質保証は、LLMだけを見ればいいとは限らない 28 AI品質とシステム品質、両方の視点が必要

LLMアプリの開発のパターン 29 パターン1：自社でAI基盤を開発 • モデルの学習から推論まで自社で実施 • フルコントロール可能 • OpenAI、Anthropic、Google等特徴
✓ データの完全管理/品質が自社で全て完結パターン2：他社のAI基盤を利用 • OpenAI、Anthropic、Google等のAPI利用 • 基盤モデルをそのまま/プロンプトで調整特徴 ✓ 品質保証でできることが限られる ✓ プロンプト/ファインチューニング RAGの重みづけetc ✓ 手が出せる範囲は狭いサイボウズはこっち

システム全体を見た時のLLMの品質ってどこでしょうか？ 30 既存のアプリケーションから、新機能のLLMアプリを呼び出す場合の一般的な構成

LLMの品質として語られる部分は、システム全体からすると小さい範囲 31 赤い丸で囲んだ範囲が、LLMの品質として前半で述べたところです丸で囲んでいない範囲は、LLMのテストをするだけでは確認できません

AI独自の品質は全体の一部でしかない • APIの品質、UIの品質などLLMから独立した各コンポーネントの品質は依然として求められる • コンポーネントの品質だけでなく、互換性、性能など、従来の品質特性は保証し続けないといけない ※参考として見てもらうといいかも JIS25010だとたくさんの品質特性が列挙されていますが、LLMアプリであってもそれらの品質特性は依然重要です。 LLM独自の品質は製品全体の一部でしかない 32

AIの応答品質のテストには多様な観点がある • LLMアプリの品質保証というと、AIの応答品質のテストが真っ先に考えられがち • だが、応答の精度以外にも多様な観点がある（信頼性、公平性、安全性etc） • 応答品質のテストには精度だけでなく多様な観点を組み込む必要がある LLMの品質は、応答品質だけじゃない • 応答品質はLLMの数ある品質のうちの一つでしかない
• LLMの品質全体を見た時に、他にもたくさんの品質が求められている（性能効率性、セキュリティetc） LLMの品質とは別に、システム全体の品質が存在する • LLMの品質保証は、LLMアプリの品質保証とイコールではない • 既存のソフトウェアに求められる品質は保証し続ける必要がある今日一番お伝えしたいこと 33

図でまとめてみると。。。 34 システム全体の品質をAIの部分と従来の品質保証の部分両方で作っている

今日見てきたこと • LLM独自の品質特性 • LLMアプリの構造の全体感これまでのテストと違うところ • AIの振る舞いは非決定的 • LLMアプリにはこれまでなかったリスク、品質特性がある
伝えたいこと • AI独自の品質特性と同じくらい、従来のシステム品質も重要まとめ 35 応答品質だけに目を向けずに、システム全体をみる視点が大切

LLMアプリの品質保証

LLMアプリの品質保証

Cybozu PRO

More Decks by Cybozu

Featured

Transcript

LLMアプリの品質保証～LLMの特性から全体像まで～ 2025.12 1 水谷太一（くつしたいぬ） @dog_dog_3dog

勉強会のスコープ 2 この講演の対象者 LLMアプリの品質保証に興味がある方 LLMアプリの開発に関わる方 AIの品質保証の領域を学びたい方得られる知識 AI独自の品質特性

3 01 02 03 04 COMPASからのケーススタディ LLMアプリ独自の品質特性リスク分析 LLMアプリ全体の品質保証流

4 C O M PA S からのケ

• アメリカで広く使われた再犯予測システム • 機械学習を使って137の質問から1-10のリスクスコアを算出 • 保釈金・量刑・仮釈放の判断に影響出典: https://edu.isc.chubu.ac.jp/hsuzuki/iip/DataScience/ethics/ethics2.html Wikipedia "COMPAS

再犯リスク判定の偏り 6 2016年ProPublica調査：7,214人を分析人種による偽陽性の偏り（再犯しないのに「高リスク」と判定）黒人の誤判定率 44.9% 白人 23.5% 実例：

偏りが生じた理由 7 137の質問：人種は聞かないが... 評価する項目貧困・失業・居住地域・家族の犯罪歴 → これらは構造的に人種と相関アルゴリズムでの中立性 ≠

10 L L M アプリ独自の

これから、10個の品質特性と、そのサブ特性を紹介します（生成AI品質マネジメントガイドラインより） • 機能要求満足性 • 信頼性 • インタラクション性 • セキュリティ •

性能効率性時間効率性 • 期待通りの応答時間、処理時間、スループットを示すこと資源効率性 • 計算資源の量を期待通りに使用し、過剰な計算資源を使用しないこと移植性 • 他の環境に移すのが容易かどうか

24 リスク分析

基本の流れ 1. リスクをリストアップ（考えられるリスクを洗い出す） 2. 各リスクの発生確率、影響度を評価 3. マトリクス上にプロットリスクマトリクスとは？ • 横軸：発生可能性（低・中・高）

27 L L M アプリ全体の

LLMアプリの開発のパターン 29 パターン1：自社でAI基盤を開発 • モデルの学習から推論まで自社で実施 • フルコントロール可能 • OpenAI、Anthropic、Google等特徴

システム全体を見た時のLLMの品質ってどこでしょうか？ 30 既存のアプリケーションから、新機能のLLMアプリを呼び出す場合の一般的な構成

LLMの品質として語られる部分は、システム全体からすると小さい範囲 31 赤い丸で囲んだ範囲が、LLMの品質として前半で述べたところです丸で囲んでいない範囲は、LLMのテストをするだけでは確認できません

図でまとめてみると。。。 34 システム全体の品質をAIの部分と従来の品質保証の部分両方で作っている

今日見てきたこと • LLM独自の品質特性 • LLMアプリの構造の全体感これまでのテストと違うところ • AIの振る舞いは非決定的 • LLMアプリにはこれまでなかったリスク、品質特性がある

©️ Cybozu, Inc. 36