AI時代の品質はテストプロセスの作り直し #scrumniigata

AI時代の品質はテストプロセスの作り直し第四次産業革命はテスト技法の変化におさまらない kyon_mm/naco_mm/ito jumpei < Confidential >

1. AI時代のQAの難しさ 2. AIプロダクトに対するテスト技法：QA4AI 3. テストやQAにおけるAIの活用方法：AI4QA 4. 2030年にあるべきテストプロセスとはなにか 1.前提：NIST AI
RMF、ISO42001、ISO23894 2.QA、PdM、SREからみたこれらの実装例と現場のギャップ 3.チームでの会議体と改善プロセスイメージ 5. 社内会議での導入イメージ 1.アジェンダ例 2. 一言目、二言目、そして質問 3. QA中心でのエクストリームスモールパターン 6. まとめ =>4で代替アブストラクト AI時代の品質はテストプロセスの作り直し -第四次産業革命はテスト技法の変化におさまらない-

自己紹介 3 AI時代の品質はテストプロセスの作り直し

4 • 所属：合同会社デロイトトーマツ OI&DS 47機関執行役員 • 大規模システム開発、新規事業開発、アジャイル組織変革のご支援 •
新卒、大学生へのアジャイル教育：筑波大学 enPiT2 • 防災DX : SmartBosaiConnect Product Manager AI時代の品質はテストプロセスの作り直し自己紹介 kyon_mm/きょん

キャディ株式会社 QAエンジニアカンファレンスの運営をしたり、参加したりするのが好きで、スクフェス新潟のスタッフもやってるよ！好きな飲み物はクラフトビール、最近日本酒にも目覚めつつあります好きな絵文字はです！よろみ！！！
5 AI時代の品質はテストプロセスの作り直し自己紹介 naco_mm / X(Twitter) : 750_naco

伊藤潤平(@jp_110) 6 • ウイングアーク１ｓｔ株式会社 ソフトウェアプロセス＆品質改善部マネージャー • 社外活動 Scrum
Fest Niigata 実行委員会代表 JaSST Niigata アドバイザー SigSQAメンバー YouTube翻訳活動 • プロフィール AgileTD Zone Keynotes in Japanese AgileTD Zone Keynotes in Japanese テキスト , 新聞 , 記号が含まれている画像自動的に生成された説明 https://niigatabase.shabellbase.com/engineer_01/ 6 AI時代の品質はテストプロセスの作り直し

AI時代のQAの難しさ 7 AI時代の品質はテストプロセスの作り直し

8 仕様とテストケースに基づき、「どれだけテストしたか」「どれだけバグが残っていそうか」暗黙の前提 • 仕様が比較的安定している。 • 入力データの分布がある程度予測できる。
• 実装の振る舞いは決定的である（同じ入力→同じ出力）。品質説明の典型パターン • テストケース数・網羅率 • 発見バグ数と重大度 • 性能・可用性などのSLA達成度 AI時代の品質はテストプロセスの作り直し第３次産業革命までの品質説明第４次産業革命からの品質説明 AIやデータ中心のシステムが増える中で、従来のテスト指標だけでは品質に関する意思決定に必要な情報を経営に十分に伝えにくくなっている「データ」「運用状況」「モデル更新」が品質を左右する。特徴１非構造データ・多様な入力画像・音声・テキスト・センサーデータなど、人間の解釈が必要なデータが多い。特徴２データ中心構造モデルの振る舞いが、訓練データ・評価データ・運用データの性質に強く依存する。特徴３不確実性と変化入力分布の変化・モデルの更新・外部APIや生成AIの挙動変化が前提になる。この変化に対して、説明の型が追いついていないのではないか？

AI時代の品質はテストプロセスの作り直し 9 構造の変化品質を説明する際の材料が「仕様とテスト結果」から「仕様・データ分布・モデル・運用シナリオ」に広がった結果として、経営が見ている軸との間に構造的なギャップが生じている使用できる説明材料が変化従来: 仕様・テストケース・コード現在: 仕様＋データ分布＋モデル構造＋運用シナリオ
説明相手の視界とのギャップ経営層は、売上・コスト・リスク・責任範囲を軸に意思決定する。QA側が持っている情報は、テスト指標や技術的リスクに偏りがち。結果として、「同じ品質」を見ているのに見えているものがずれる。説明が難しいのは“スキル不足”ではなく“構造の変化”への対応不足。意思決定のタイミングごとに増える“わからない” 企画時点:AIの適用余地・データ入手性・初期投資規模が不明瞭。開発・PoC時点:どの程度の精度／誤判定率であればビジネス的に許容かが曖昧。本番・運用時点:データドリフト・モデル劣化・サイバーリスクの発生確率が読みにくい。構造データから非構造データへ業務中心からデータ中心へビジネスの不確実性とシステムの確率論的挙動の増加現在の事象構造的変化

AI時代の品質はテストプロセスの作り直し 10 判断の再現性を支える要素 AI時代のQAでは、評価結果だけでなく評価判断を再現するための条件群の設計の重要性が高くなっている品質判断評価基準評価データ評価者評価手順
判断ログ合意形成

AIプロダクトに対するテスト技法 QA4AI 11 AI時代の品質はテストプロセスの作り直し

AIを含むプロダクトそのものの品質をいかに保証するかの基準・手法 QA4AIとは何か AIを組み込んだプロダクトの例：ウイングアーク１ｓｔ製品のAIスタック利用者アプリ
AI スタックデータ基盤一般ユーザー製品連携（SaaS）製品連携（オンプレ）テナント管理者システム管理者管理コンソール AI API AI OCR テナント管理システム管理 Azure OpenAI OpenAI API Anthropic API Local LLM （将来的に）他AIモデル Aurora PostgreSQL OpenSearch S3 CloudTrail / Watch WingArc1stが提供するマルチLLM対応のAIプラットフォーム。単一モデルに依存せず、OpenAIやローカルLLMを組み合わせて、AIを安全に業務へ組み込める。ウイングアーク１ｓｔ製品のAIスタック

AI時代の品質はテストプロセスの作り直し 13 QA4AIガイドラインを自社プロダクトで適応してみる QA4AIガイドラインの5軸に合わせてみるとデータ整合性・モデル頑健性は現時点では対象外（独自モデル訓練・学習データ管理を行わないため）となる。また5軸では適応できない箇所もあるため独自に軸を追加してみる。データ整合性 Data Integrity
データがきちんとしているか 0% 対象外モデル頑健性 Model Robustness 精度が高く頑健性が確保されたモデルであるか 0% 対象外システム品質 System Quality システム全体として品質が確保できているか 80% 決定論的プロセス俊敏性 Process Agility 開発プロセスは機動的か 55% ←決定論的／確率論的→ 顧客期待 Customer Expectation 顧客の期待は高いか 70% 確率論的その他（横断補完）説明可能性・透明性／ Human Oversight ／機能的正確性／公平性・バイアス 65% データ整合性モデル頑健性システム品質プロセス俊敏性顧客期待その他（横断補完）

AI時代の品質はテストプロセスの作り直し 14 システム品質（System Quality）連携製品が増えても壊れないシステムとしての安定稼働検証領域検証項目具体的な確認内容セキュリティ・耐攻撃性プロンプトインジェクション耐性
悪意ある入力によってシステムプロンプトや他ユーザーのデータが露出しないか確認するユーザー・テナント間のデータ分離複数ユーザー・組織が利用する際に他者のデータが混入・出力されないか機密データのプロンプト混入防止 LLMへ送信するプロンプトに個人情報・機密データが不必要に含まれていないか信頼性・可用性 AI応答失敗時のフォールバック動作 LLM応答失敗・タイムアウト発生時にユーザーへ適切なエラーメッセージが返るか大量データ入力時の安定性大規模データセット（複数テーブル・長期データ・高次元データ等）を入力した際に出力精度・安定性が落ちないか AI出力品質の継続的モニタリング本番運用中にAI出力品質が継続的に低下した場合にアラートが出る仕組みがあるか監査ログ・追跡可能性 AI出力の記録保持いつ・どのプロンプトで・何が出力されたかが記録・参照できるかユーザーの最終判断の記録 AIの出力に対してユーザーが何を採用・修正・棄却したか記録・追跡できるかデータフロー・プライバシー入力データの伝送経路・保存先の検証ユーザーが入力したデータおよびLLMに渡したデータが、どのサービス・サーバーを経由し、どこに保存されるかをアーキテクチャ設計通りに動作していることを確認する

AI時代の品質はテストプロセスの作り直し 15 プロセス俊敏性（Process Agility） LLMが変わってもデグレードさせない回帰テストを中心としたプロセス設計検証領域検証項目具体的な確認内容自動化・デプロイ CI/CDパイプラインへの品質ゲート組み込み
コード変更・プロンプト変更時に自動で品質チェックが実行される仕組みがあるか迅速なロールバック体制 AI出力品質が急激に低下した場合に前バージョンへ迅速に切り戻せるか専門性・体制チームへのドメイン専門家の関与ツールが扱う業務領域のドメイン知識を持つ専門家がAI出力の妥当性評価に関与しているか変化対応（応用） LLMバージョンアップ時の回帰テスト基盤LLMが更新された際にゴールデンデータセットで出力品質が劣化しないか検証できるかデータ定義・業務要件変更への追従プロセスデータ構造・業務定義・指標定義の変更時にプロンプト・評価基準を更新できる体制があるか

AI時代の品質はテストプロセスの作り直し 16 顧客期待（Customer Expectation）信頼して使い続けてもらうためにAIの透明性と顧客期待の品質検証領域検証項目具体的な確認内容 AIの限界・特性共有 AIであることの明示
出力がAI生成であることがUI上で明確に表示されているか確率的動作・出力ブレの説明同一データを入力しても出力が変わりうることをユーザーが理解しているか免責・限界事項の提示 AI出力はあくまで参考情報であり最終判断は人間が行う旨がUI・ドキュメントに明記されているか期待値管理・フィードバックユーザーとの品質基準合意ユーザーとAI出力の許容精度・品質水準についてユースケースごとに事前合意があるかユーザーフィードバック収集の仕組み AI出力の良否をユーザーが評価・報告できる仕組み（フィードバックボタン等）があるか誤出力の事後分析プロセス誤った出力が報告された場合の調査・原因分析・改善プロセスが定義されているかデータ取扱い・合意形成入力データの学習利用禁止の説明、入力データの保存可否と保存場所の説明ユーザーが入力したデータおよびLLMに渡したデータが基盤モデルの学習に使用されないこと、入力したデータが保存されるのか、保存される場合はどこに保存されるかをユーザーに説明されているか

AI時代の品質はテストプロセスの作り直し 17 横断補完 5軸では賄えないが、外せないシステムとして必須の品質観点検証領域検証項目具体的な確認内容説明可能性・透明性分析根拠・参照データの明示 AIがどのデータソース・どのレコード・どの条件をもとに出力したか明示されているか
不確実性・推定値の明示予測・推定・外挿を含む出力に対して「推計値」「確信度が低い」等の旨が表現されているか分析前提条件の明示分析期間・集計単位・フィルタ条件・データ更新日時等の前提がユーザーに表示されているか Human Oversight AI出力の修正・棄却機能ユーザーがAIの出力結果を修正・上書き・棄却できるUIが存在するか確信度・信頼度の可視化 AIが自信の低い出力に対してユーザーが気づける表示（警告・スコア・注記等）があるか機能的正確性出力値・指標計算の正確性 AIが提示する集計値・指標・分析結果がデータソースから正しく導出されているかハルシネーション検出実在しない指標・架空のデータ・存在しない分析結果等をAIが生成していないか公平性・バイアスデータ偏りによる分析バイアスの確認特定の条件・属性・期間に偏った分析傾向がAI出力に生じていないか

AIシステムをミドルウェアとして提供するプラットフォームビジネスだからこそ、「AIだけ」ではなくシステム全体の品質に焦点を当てるシステム品質（System Quality）顧客期待（Customer Expectation） 1. 連携製品が増えても壊れないシステム品質 2. ミドルウェアとして複数製品が接続される構造では「AIの精度」よ
り先に問うべき品質がある 3. 問い：新しい製品がAIスタックと連携したとき、別テナントのデータが混ざらないか？ログは追えるか？ 4. 観点：テナント間データ分離・AI出力の記録保持・データフロー/ 伝送経路検証 5. 結論：プラットフォームとしての品質保証＝連携製品すべてへの信頼の確保 1. お客様がAIを信頼して使い続けられるか 2. エンドユーザーはAIスタックの存在を意識しない。ただ「使えるか」「信頼できるか」だけを見ている 3. 問い：AIが何か変な答えを返したとき誰がどう責任を取れるか？ 4. 観点：AIであることの明示・入力データの学習利用禁止説明・誤出力の事後分析プロセス 5. 結論：顧客期待の品質＝エンドユーザーとの「信頼契約」

19 AI時代の品質はテストプロセスの作り直し優先度：高（リリース前に必須）優先度：中（今後対応・仕組み化） QA4AIガイドラインの活用法 ― 優先度別アクションマップ現時点で最低限検証したい項目（高）と今後対応したい項目（中）に分類した
システム品質プロセス俊敏性顧客期待横断補完プロンプトインジェクション耐性ドメイン専門家の関与 AIであることの明示分析根拠・参照データの明示テナント間データ分離データ定義・業務要件変更への追従確率的動作の説明分析前提条件の明示機密データのプロンプト混入防止免責・限界事項の提示出力値・指標計算の正確性フォールバック動作入力データの学習利用禁止説明ハルシネーション検出システム品質プロセス俊敏性顧客期待横断補完大量データ安定性 CI/CD品質ゲート品質基準合意不確実性の明示 AI品質継続モニタリングロールバック体制フィードバック収集 AI出力の修正・棄却機能ユーザー判断の記録 LLMバージョンアップ回帰テスト誤出力の事後分析確信度の可視化バイアス確認

テストやQAにおけるAIの活用方法 AI4QA 20 AI時代の品質はテストプロセスの作り直し

21 QAプロセスそのものにAIを取り込み、テスト活動を高度化・効率化する今回事例として参考にするプロダクト「CADDi Quote」は、製造業の見積業務を起点に、サプライヤー選定・見積依頼・比較などの調達プロセスをAIとデータで効率化・標準化するクラウドアプリケーションです。 AI時代の品質はテストプロセスの作り直し AI4QAとは何か
参考とする弊社プロダクト概要プロダクトの品質保証におけるAI活用でテスト活動を高度化・効率化する

テスト計画・戦略テスト分析テスト設計テスト実装テスト実行テスト評価・報告・完了概要テストの目的、範囲、進め方、体制、優先順位を定める。何
をどの方針で、どこまで検証するかを明確にする要求仕様や設計書を確認し、何をテストすべきかを洗い出す。テスト観点やテスト条件を整理する分析で整理した観点をもとに、具体的なテストケースや期待結果を作る。どの入力で何を確認するかを定義するテストケースを実行可能な形に落とし込む。テスト手順書、テストデータ、環境、必要に応じて自動化スクリプトを準備する設計した内容に沿ってテストを実施し、結果を記録する。期待結果との差異や不具合を検出する実行結果を集計・評価し、品質状況や残課題を関係者へ報告する。終了可否を判断し、成果物を整理してテストを完了する AI活用によって変わる部分過去の不具合履歴・変更履歴・テスト実行履歴・テストオラクルの収集により、テストの選択や優先順選択や優先順位付けをデータ駆動で行いやすくなる。要求仕様の書き換え・正規化・品質診断を支援による、分析工程での「観点抽出」と「条件候補の洗い出し」自然言語要求を入力として複数 LLM のテストケース生成能力を比較する研究も現れており、設計工程は「人がゼロから書く」より「AI が候補を出し、人がレビュー・補正」する。テストケースを実行可能な形へ落とし込む速度は大きく上がる。既存の人手によるテストを土台に追加テストを生成・改善する。バグを「見つける → 原因を当てる → 場所を絞る → 対応方針を決める」という流れを部分的に補助する。実行結果の集計、障害票の要約、類似不具合の分類、報告書ドラフト作成 AI活用によって変わらない部分テスト目的、対象範囲、優先順位の最終決定、終了基準、残余リスク受容、go/no-go 判断要求の曖昧さ解消、業務文脈の解釈、利害関係者との意味合わせ期待結果の妥当性、境界値・例外系・業務上重要な組合せの十分性、カバレッジの妥当性確認実装済みテストが「ビルドできるか」「安定して通るか」「本当にカバレッジや検出力を改善するか」は検証が必要実行支援には有効だが、テスト実行のエビデンス確認は必要。品質状況の最終評価、未解決課題の受容可否、リリース可否判断、完了宣言弊チームでの AI活用 × 〇〇 △ △ △ AI時代の品質はテストプロセスの作り直し 22 出典：ISTQB, Certified Tester Foundation Level Syllabus, Version 4.0.1. ISO/IEC/IEEE 29119-2:2021, Software testing — Part 2: Test processes. より筆者作成 AI活用によって変わる部分と変わらない部分 AI活用によりテスト工程の効率と網羅性は向上するが、品質判断と最終責任は人が担う必要がある本日は上記赤枠を説明

23 • QAが担当していたACレビューで特に重かった作業は「情報収集」と「収集した情報の理解」であり、ボトルネックはレビュー前の準備だった。 • QA業務には、判断そのものと、その前段の準備作業がある。 •
その結果、レビューが追いつかず、着手遅れや認識ズレの後ろ倒しが起きていた。 • このときの狙いは、QAを「情報を探す人」から「判断する人へ寄せること」だった。 AI時代の品質はテストプロセスの作り直し受け入れ基準(AC)のレビューの当時の課題既存業務フローイメージ要求仕様や設計書を確認し、何をテストすべきかを洗い出し、テスト観点やテスト条件を整理する作業をAIによって効率化できるのではないか

24 ① QAの考えを型にする • レビュー観点をMarkdownやPlantUMLで構造化 • QAの頭の中をAIが再利用可能な形にする。 • 効果：判断の一貫性、属人化の低減
② 正しいデータと文脈を渡す • 設計、仕様、実装などにAIが当たりに行ける状態を作る。 • 前提がズレると、もっともらしいが外れたレビューになる。 • 効果：レビューの前提安定、手戻り削減 ③ 人とAIの役割分担を明確にする • AIは一次レビュー・下書き • 人は妥当性判断・採否判断・最終責任 • 効果：過信も軽視も避けられる。 AI時代の品質はテストプロセスの作り直し受け入れ基準(AC)のレビュー半自動化の成立条件 AIを使用してACレビューを回すには「観点の型化」「文脈・データの接続」「人とAIの役割分担」が必要である

25 Before：QAが情報収集・理解・レビュー・テスト化まで広く抱える After：AIが情報収集と理解の下準備を担い、人はレビュー判断に集中変化 • ACレビューの追いつかなさの緩和 • レビュー品質のばらつき縮小
• QAが改善活動へ再投資しやすくなる。今後 • 中長期では、浮いた時間をプロセス定義などの次の施策に再投資できる。 AI時代の品質はテストプロセスの作り直し Before / After 業務範囲の変化 AIによる下準備の自動化により、QAはレビュー判断に集中できるようになった。

AI時代の品質はテストプロセスの作り直し 26 AIとQAの役割テスト分析におけるAI4QAの要点は、要件定義の時点から「誰が見ても、同じ根拠で、同じように品質判断できる状態」を作ることである AIの役割：一次レビュー・リスク候補を出す QAの役割：採否判断・優先順位・最終責任を持つ観点 AC・要件をレビュー可能な構造に整理観点・基準の妥当性を決める
文脈仕様・設計・過去バグを参照して下準備情報・解釈・条件が、文脈と合っているかを確認する本取り組みの詳細は、こちらのスライドをご覧ください https://speakerdeck.com/naco/faster-development-but-slower-releases-qa-uses-gemini-to-automate-acceptance-criteria- reviews

2030年にあるべきテストプロセスとはなにか 27 AI時代の品質はテストプロセスの作り直し

AI時代の品質はテストプロセスの作り直し 28 AIに関するQA活動の規格抜粋国際標準を中心に関連する論文やツールを見ていると「プロダクト周り」のQA活動（品質特性やテスト技法）の解像度と比較して、プロセスとしてどうすべきは現時点では粗いガバナンス・ライフサイクル・リスクのQA AIをどう開発・提供・利用するか、どのリスクを管理するか、どの工程で品質保証を入れるかを定義する ISO/IEC 42001
AIマネジメントシステム ISO/IEC 23894 AIリスク管理 ISO/IEC 5338 AIシステムライフサイクルプロセス ISO/IEC/IEEE 29119-2/3 テストプロセス/テスト文書テストマネジメント・品質ゲート・監視のQA 計画したQAプロセスを、テスト実行、判定、報告、再評価、運用監視として回す ISO 29119-2 動的テストを含むテストプロセス ISO 29119-3 テスト文書化 ISO 29119-4 テスト設計技法 ISO 42119-2 AIシステムに対する29119シリーズの適用をリスクベースで示す品質要求・受入基準・設計レビューのQA プロダクトに求める品質特性、AI固有の品質特性、受入基準、説明可能性・バイアス・非決定性などの観点を定義する ISO/IEC TR 29119-11 AIシステムに対するテスト技法や品質特性 ISO/IEC 25059 AIシステムもふくめた品質特性 ISO/IEC 25010 品質特性 ISO/IEC TS 42119-2 AIシステムに対する29119シリーズの適用をリスクベースで示す実行結果・ふるまい・性能のQA AIシステムを実際に動かして、性能、公平性、説明性、非決定性、ドリフト、環境変化への適応などを評価する ISO/IEC TR 29119-11 AIシステムに対するテスト技法や品質特性 ISO/IEC TS 42119-2 AIシステムに対する29119シリーズの適用をリスクベースで示す ISO/IEC/IEEE 29119-4 AIシステムに対するテスト技法や品質特性 ISO/IEC 25059 AIシステムもふくめた品質特性 ISO/IEC 25010品質特性静的な QA 活動動的な QA 活動プロダクトプロセス

29 1. テストプロセスにおける変化点がほぼ言及されていない 1. どのような基準が必要になるのか 2. どのような設計行為がどの時点で必要になるのか 3. どのような意思決定がどの時点で必要になるのか 2.
テストプロセスの変化が何に影響するのかがほぼ言及されていない 1. どのような情報をもらうべきか 2. どのような情報を発信するべきか 3. どのようKPIを追うべきか 1. 柔軟性／適用性 Flexibility and adaptability 2. 自律性 Autonomy 3. 進化 Evolution 4. バイアス Bias 5. 複雑性 Complexity 6. 透明性／解釈性／説明性 Transparency, interpretability and explainability 7. 非決定性 Non-determinism 出典：ISO 29119 Part11 より筆者作成 AI時代の品質はテストプロセスの作り直しテストプロセスの解像度の低さ ISO 29119 Part11の品質特性より抜粋静的かつプロダクトのなかでもAI製品に特徴的なものとして７つの品質特性が上がっており、これらに対応するテストプロセスを想定した事業推進が必要ではないか 1. ブラックボックステスト 1. 組み合わせテスト、Back2Backテスト、A/Bテスト、メタモルフィックテスト、探索的テスト 2. ホワイトボックステスト 1. ニューラルネットワーク構造化とカバレッジ 1. ニューロンカバレッジ、閾値カバレッジ、符号変化カバレッジ、値変化カバレッジ、符号間カバレッジ、レイヤーカバレッジ 3. AIシステムのためのテスト環境 ISO 29119 Part11のテスト技法より抜粋

AI時代の品質はテストプロセスの作り直し 30 テストプロセスによる開発全体の再定義：進化への対応案 AIシステムではデータの意味が変化することに対応する必要があり、QAの基準も時間変化する例：１つのシステムで「エモい/やばい」という言葉の意味の変化に対応する必要性がある PdM活動 QA活動 SRE活動企画・要件開発・評価
運用・改善データの意味づけの変化への対応をどの範囲でテストするのか基準作りデータの意味づけの変化の見える化の仕組みづくりデータの意味を予測できないことに対するリスクマネジメント意味のスコアリング意味の継続的な判定リリース後に変わることへの対応案開発意味の再判定からシステムへの新しいユースケースの提案意味の変化に対応したピボットもしくは全体調整意味の変化のアラート

AI時代の品質はテストプロセスの作り直し 31 QA4AIを中心としたプロセス変化イメージ 2030年のテストプロセスは継続的判断の運用であり、QA4AIがベースでありつつ、QAが使うAI ツールの信頼性がテストプロセス設計に大きな影響を及ぼす PdM活動 QA活動 SRE活動 AS-IS GAPと改善案
TO-BE 始める前世の中にTrustDataの仕組みがほぼないので、コンサルとしての論理的な整理（勘と経験）で妥当性を評価している信用できるデータの選別と活用における高品質を保ち続ける事業戦略策定 AIで追加された品質特性を踏まえたテストプロセス設計（プロダクトデータ）だけではなく、 AIが扱うデータまでを含めた信頼性向上の仕組みづくり 29119-11を参考にしつつ、AIが関連している/していないのグラデーション作りが難しい検討し始めている（Open Data SpacesによるTrust Data含めたアーキテクチャ再設計） AS-ISの効率化世の中でTrust Dataが普及したらそれらに対応する事例をたくさん集めて類型化チェックリストからプロセステンプレートを生成 Open Data Spacesアーキテクチャの実装 2022年までに出版された書籍を元にした行動基準（決定論的 & 意味の変化なし）決定論的テスト設計最低限のDevSecOps

AI時代の品質はテストプロセスの作り直し 32 QA4AIを中心としたプロセス変化イメージ 2030年のテストプロセスはモデルとプロンプトの組み合わせテスト設計が肝であり、マルチLLM・プロンプト／アウトプットのバージョニングによりユーザーの選択肢を広げ、「意味の変化」に追従する PdM活動 QA活動 SRE活動 AS-IS
GAPと改善案 TO-BE 始める前マルチLLM構想・ローカルLLMでモデル固定対応を検討中ユーザーがモデルを選べる設計へ。プロンプト・アウトプットのバージョニングをロードマップに組むユーザーの選択肢拡大により「進化」に追従するプロダクト設計モデルごとの品質検証が個別対応。品質基準は都度担当者が判断プロンプトバージョン単位でテスト設計。差分検知を仕組み化。品質基準自体をバージョン管理し意味の変化に合わせて更新するプロセスを設ける意味の変化を検知・再判定できるQAプロセス。品質基準が時間軸を持って進化するマルチLLM切替時の挙動・流量記録の整合性確認アウトプットのバージョニングによる変化検知アラート設計意味の変化に自動対応できる運用基盤モデル選定は単一LLM固定が前提テストケースは固定仕様に対して書く。品質基準は不変が前提単一モデルの可用性・レイテンシ監視

AI時代の品質はテストプロセスの作り直し 33 AI4QAを中心としたプロセス変化イメージ AI活用しやすい基盤を整えつつ、QAが意思決定をもち、同じ根拠でシステムの品質を保っていくことが求められる PdM活動 QA活動 SRE活動 AS-IS GAPと改善案
TO-BE 始める前 AIを使って、要求整理、リスク候補、顧客影響の洗い出しができる。短期的には作業は高速化したが、AIがどの情報に依存して判断したか、プロンプトや参照データが変わったときに出力がどう変化するかは管理できていない要求の背景や顧客価値、業務ルール、制約条件、優先順位、成功指標、過去の判断内容を、AIが参照しやすく整理し、出力結果と妥当性もデータ化する。 AIがどの情報に依存して判断したか、プロンプトや参照データが変わったときに出力がどう変化したかが明確になった上で、プロダクト文脈に基づいた要求改善案、リスク候補案、顧客影響案をAIが出す。このデータを精度の高いテスト要求として使ったり、リリース可否・スコープ調整・優先順位変更・リスク説明の材料として使える AIがテスト観点、テストケース候補、リスク候補を出せる。ただし、モデル・プロンプト・参照データが変わると結果も変わるテスト要求・テストオラクル・テスト観点・評価ルーブリック・メタモルフィック関係・過去バグを活用し、AI出力を評価する基盤を整備する。最終的な判断は人がする人・モデル・時期が変わっても、同じ根拠で品質判断できるインシデントの再発防止観点を、次の要求・レビュー・テスト分析へ組み込む仕組みが弱いインシデント、アラート、問い合わせ、暫定対応、恒久対応を参照しやすい形で整理し、再発防止観点としてレビュー観点や、テスト分析に反映する障害から得た知見がAI4QAを通じて次のレビュー観点やテスト観点に反映され、同種障害の再発リスクを下げられる要求、ユーザー課題、顧客価値、優先順位などは管理しているものの、それらはチケット、議事録、Figma、Slack、過去の判断ログに分散しており、AIが同じ文脈を再利用しにくい QAの観点・経験・レビュー基準が個人に閉じている。AI利用も個人の使い方に依存しやすい障害対応やポストモーテムは行うが、得られた学びがテスト観点やレビューに十分反映されない

AI時代の品質はテストプロセスの作り直し #scrumniigata

AI時代の品質はテストプロセスの作り直し #scrumniigata

kyonmm PRO

More Decks by kyonmm

Other Decks in Technology

Featured

Transcript

AI時代の品質はテストプロセスの作り直し第四次産業革命はテスト技法の変化におさまらない kyon_mm/naco_mm/ito jumpei < Confidential >

1. AI時代のQAの難しさ 2. AIプロダクトに対するテスト技法：QA4AI 3. テストやQAにおけるAIの活用方法：AI4QA 4. 2030年にあるべきテストプロセスとはなにか 1.前提：NIST AI

自己紹介 3 AI時代の品質はテストプロセスの作り直し

4 • 所属：合同会社デロイトトーマツ OI&DS 47機関執行役員 • 大規模システム開発、新規事業開発、アジャイル組織変革のご支援 •

伊藤潤平(@jp_110) 6 • ウイングアーク１ｓｔ株式会社 ソフトウェアプロセス＆品質改善部マネージャー • 社外活動 Scrum

AI時代のQAの難しさ 7 AI時代の品質はテストプロセスの作り直し

8 仕様とテストケースに基づき、「どれだけテストしたか」「どれだけバグが残っていそうか」暗黙の前提 • 仕様が比較的安定している。 • 入力データの分布がある程度予測できる。

AI時代の品質はテストプロセスの作り直し 10 判断の再現性を支える要素 AI時代のQAでは、評価結果だけでなく評価判断を再現するための条件群の設計の重要性が高くなっている品質判断評価基準評価データ評価者評価手順

AIプロダクトに対するテスト技法 QA4AI 11 AI時代の品質はテストプロセスの作り直し

AIを含むプロダクトそのものの品質をいかに保証するかの基準・手法 QA4AIとは何か AIを組み込んだプロダクトの例：ウイングアーク１ｓｔ製品のAIスタック利用者アプリ

AI時代の品質はテストプロセスの作り直し 14 システム品質（System Quality）連携製品が増えても壊れないシステムとしての安定稼働検証領域検証項目具体的な確認内容セキュリティ・耐攻撃性プロンプトインジェクション耐性

AI時代の品質はテストプロセスの作り直し 16 顧客期待（Customer Expectation）信頼して使い続けてもらうためにAIの透明性と顧客期待の品質検証領域検証項目具体的な確認内容 AIの限界・特性共有 AIであることの明示

テストやQAにおけるAIの活用方法 AI4QA 20 AI時代の品質はテストプロセスの作り直し

テスト計画・戦略テスト分析テスト設計テスト実装テスト実行テスト評価・報告・完了概要テストの目的、範囲、進め方、体制、優先順位を定める。何

23 • QAが担当していたACレビューで特に重かった作業は「情報収集」と「収集した情報の理解」であり、ボトルネックはレビュー前の準備だった。 • QA業務には、判断そのものと、その前段の準備作業がある。 •

24 ① QAの考えを型にする • レビュー観点をMarkdownやPlantUMLで構造化 • QAの頭の中をAIが再利用可能な形にする。 • 効果：判断の一貫性、属人化の低減

25 Before：QAが情報収集・理解・レビュー・テスト化まで広く抱える After：AIが情報収集と理解の下準備を担い、人はレビュー判断に集中変化 • ACレビューの追いつかなさの緩和 • レビュー品質のばらつき縮小

2030年にあるべきテストプロセスとはなにか 27 AI時代の品質はテストプロセスの作り直し

29 1. テストプロセスにおける変化点がほぼ言及されていない 1. どのような基準が必要になるのか 2. どのような設計行為がどの時点で必要になるのか 3. どのような意思決定がどの時点で必要になるのか 2.