Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI に特化した品質特性のテスト

ymgc
December 23, 2024

AI に特化した品質特性のテスト

ISTQB Foundation Level シラバス - AI Testing (CT-AI) 「08. AI に特化した品質特性のテスト」をもとに作成したもの。

https://jstqb.jp/dl/JSTQB-Syllabus.Foundation_CT-AI_v1.0.J01.pdf

ymgc

December 23, 2024
Tweet

More Decks by ymgc

Other Decks in Technology

Transcript

  1. 目次 1. 自己学習型システムのテストへの挑戦 2. AI ベースの自律的なシステムのテスト 3. バイアスのテスト 4. 確率論的・非決定論的システムのテスト課題

    5. 複雑なAI システムのテスト課題 6. 透明性・解釈可能性・説明可能性のテスト 7. テストオラクル 8. テスト目的と受け入れ基準 2
  2. 想定読者 AI システムのテストに関わるテストエンジニア ▶ AI システムの品質保証に携わる開発者 ▶ AI プロジェクトのステークホルダー ▶

    学習目標: ▶ AI システムの特有の課題を理解する - テスト設計・実装における考慮点を把握する - 品質特性の評価方法を習得する - 3
  3. 8.1 自己学習型システムのテストへの挑戦 (2/2) テストの実行制約 運用環境の課題 システムの学習・適応速度に応じたテストタイミングの設定 ▶ 手動テスト実行の時間的制約 ▶ 自動化された継続的テストの必要性

    ▶ 環境変化の完全な予測が困難 ▶ データポイズニング等の攻撃への対応 ▶ フォールトインジェクションツール等を用いた複雑なテスト環境の管理 ▶ 5
  4. 8.2 AI ベースの自律的なシステムのテスト 自律性の判断基準検証 制御放棄判断の適切性評価 ▶ 運用環境の変化への対応 - 自律性の限界超過時の判断 -

    特定期間経過後の制御放棄 - 人間介入の要求判断 ▶ 不要な介入要求の防止 - 境界値分析による動作環境条件の生成と検証 - 6
  5. 8.4 確率論的・非決定論的システムのテスト課題 テスト結果の多様性への対応 期待結果の定義方法 同一条件下での複数有効結果の存在 ▶ 確認テスト・リグレッションテストへの影響 ▶ テスト再現性の確保 ▶

    自動化テストの判定基準設定 ▶ システム動作の深い理解の必要性 ▶ 許容範囲を含む期待値定義 ▶ 統計的有効性確保のための複数回テスト実行 ▶ 9
  6. 8.7 テストオラクル テストオラクル構築の課題 効果的なテストオラクル確立 グランドトゥルース(実際の結果)の把握困難性 ▶ システム進化に伴う期待値の継続的更新 ▶ 動作の正しさの主観性 ▶

    制限値・許容値による期待結果定義 ▶ 専門家知見活用での考慮点 ▶ テスト手法の活用 ▶ A/B テスト - バックツーバックテスト - メタモルフィックテスト - 13
  7. 8.8 テスト目的と受け入れ基準 (1/2) 品質特性に基づく評価基準 適応性 ▶ 環境変化への対応速度 - リソース使用量の測定 -

    柔軟性 ▶ 新状況への対処能力 - 変更に要する時間とリソース - 進化 ▶ 学習効果の測定 - コンセプトドリフトへの対応 - 14
  8. 8.8 テスト目的と受け入れ基準 (2/2) 自律性 ▶ 動作範囲外での反応検証 - 人間介入の適切性評価 - 透明性と解釈可能性

    ▶ アルゴリズム・データセットへのアクセス性 - ステークホルダーの理解度確認 - その他の特性 ▶ バイアス: 独立テストスイートによる検証 - 倫理: ガイドライン準拠の確認 - 確率論的特性: 許容範囲の定義 - 安全性: 仮想環境での検証 - 15
  9. まとめ AI システムテストの主要な課題 ▶ 自己学習による予期せぬ変更への対応 - 複雑な受け入れ基準の設定 - バイアス検出と対策 -

    確率論的・非決定論的性質への対応 - テストオラクル問題の解決 - 重要な考慮点 ▶ 継続的なモニタリングと適応 - 多面的な品質評価アプローチ - ステークホルダー視点の考慮 - 自動化テストの活用 - 16
  10. Appendix: 用語辞書 グランドトゥルース: AI システムが予測しようとしている現実世界での実際の結果 ▶ LIME(Local Interpretable Model-agnostic Explanations):

    モデルに依存しない説明可能性を提供するための手法 ▶ コンセプトドリフト: 時間経過とともに学習データの統計的性質が変化する現象 ▶ データポイズニング: 訓練データを意図的に汚染する攻撃手法 ▶ メタモルフィックテスト: 入力の変換と出力の関係性を利用したテスト手法 ▶ バックツーバックテスト: 複数のシステムバージョン間での出力比較テスト ▶ フォールトインジェクション: システムの耐障害性を検証するために意図的に障害を注入するテスト手法 ▶ 17