Slide 1

Slide 1 text

AI に特化した品質特性のテスト Foundation Level シラバス AI テスティング 1

Slide 2

Slide 2 text

目次 1. 自己学習型システムのテストへの挑戦 2. AI ベースの自律的なシステムのテスト 3. バイアスのテスト 4. 確率論的・非決定論的システムのテスト課題 5. 複雑なAI システムのテスト課題 6. 透明性・解釈可能性・説明可能性のテスト 7. テストオラクル 8. テスト目的と受け入れ基準 2

Slide 3

Slide 3 text

想定読者 AI システムのテストに関わるテストエンジニア ▶ AI システムの品質保証に携わる開発者 ▶ AI プロジェクトのステークホルダー ▶ 学習目標: ▶ AI システムの特有の課題を理解する - テスト設計・実装における考慮点を把握する - 品質特性の評価方法を習得する - 3

Slide 4

Slide 4 text

8.1 自己学習型システムのテストへの挑戦 (1/2) 予期せぬ変更への対応 受け入れ基準の複雑さ システムが自律的に行った変更に関する情報が不足または皆無 ▶ 元の要件や設計に対するテストは可能だが、革新的な実装の場合のテスト設計が困難 ▶ リグレッションテストへの影響と再設計の必要性 ▶ システムの自己学習による改善期待値の定義が必要 ▶ 最低限の改善点や環境要因との関連を含む複雑な受け入れ基準 ▶ ベースラインの機能パフォーマンスの継続的な記録維持が必要 ▶ 4

Slide 5

Slide 5 text

8.1 自己学習型システムのテストへの挑戦 (2/2) テストの実行制約 運用環境の課題 システムの学習・適応速度に応じたテストタイミングの設定 ▶ 手動テスト実行の時間的制約 ▶ 自動化された継続的テストの必要性 ▶ 環境変化の完全な予測が困難 ▶ データポイズニング等の攻撃への対応 ▶ フォールトインジェクションツール等を用いた複雑なテスト環境の管理 ▶ 5

Slide 6

Slide 6 text

8.2 AI ベースの自律的なシステムのテスト 自律性の判断基準検証 制御放棄判断の適切性評価 ▶ 運用環境の変化への対応 - 自律性の限界超過時の判断 - 特定期間経過後の制御放棄 - 人間介入の要求判断 ▶ 不要な介入要求の防止 - 境界値分析による動作環境条件の生成と検証 - 6

Slide 7

Slide 7 text

8.3 バイアスのテスト (1/2) アルゴリズムバイアスの検証 サンプリングバイアスの評価 モデルの訓練・評価・チューニング過程での分析 ▶ 無関係な特徴の組み合わせによる不要なバイアス発生の検出 ▶ 訓練データのソースと取得プロセスの詳細レビュー ▶ ML ワークフロー内のデータ前処理における影響分析 ▶ 7

Slide 8

Slide 8 text

8.3 バイアスのテスト (2/2) 不適切なバイアスの特定 入力変化がシステム出力に与える影響の多面的測定 ▶ 特定グループへの偏りの検証 ▶ 隠れた変数に基づくバイアスの検出 ▶ 入力データに明示されていない特徴の影響 - 人口統計学的データとの関連分析 - 8

Slide 9

Slide 9 text

8.4 確率論的・非決定論的システムのテスト課題 テスト結果の多様性への対応 期待結果の定義方法 同一条件下での複数有効結果の存在 ▶ 確認テスト・リグレッションテストへの影響 ▶ テスト再現性の確保 ▶ 自動化テストの判定基準設定 ▶ システム動作の深い理解の必要性 ▶ 許容範囲を含む期待値定義 ▶ 統計的有効性確保のための複数回テスト実行 ▶ 9

Slide 10

Slide 10 text

8.5 複雑なAI システムのテスト課題 システムの複雑性による影響 複雑性増大要因 人間実行困難タスクの実装による期待結果判断の困難さ ▶ システム内部構造の理解困難性 ▶ ブラックボックステストの必要性 ▶ 確率的結果の提供 ▶ 非決定論的な性質 ▶ 複数AI コンポーネント間の相互作用 ▶ リスク特定と検証テスト設計の困難さ ▶ 10

Slide 11

Slide 11 text

8.6 透明性・解釈可能性・説明可能性のテスト (1/2) 透明性検証の手法 説明可能性の評価手法 訓練データソース、ラベリング方法、システム設計情報の確認 ▶ データやアルゴリズムの実装との整合性検証 ▶ テストデータへの摂動付加による動的テスト ▶ LIME 法による入出力関係の分析 ▶ モデル依存・非依存手法の選択 ▶ 11

Slide 12

Slide 12 text

8.6 透明性・解釈可能性・説明可能性のテスト (2/2) 解釈可能性の評価 ステークホルダー別の技術理解度要求レベルの考慮 ▶ 理解度レベルの測定方法確立 ▶ ユーザー調査やアンケートによる検証 ▶ 専門家レビューの活用 ▶ 12

Slide 13

Slide 13 text

8.7 テストオラクル テストオラクル構築の課題 効果的なテストオラクル確立 グランドトゥルース(実際の結果)の把握困難性 ▶ システム進化に伴う期待値の継続的更新 ▶ 動作の正しさの主観性 ▶ 制限値・許容値による期待結果定義 ▶ 専門家知見活用での考慮点 ▶ テスト手法の活用 ▶ A/B テスト - バックツーバックテスト - メタモルフィックテスト - 13

Slide 14

Slide 14 text

8.8 テスト目的と受け入れ基準 (1/2) 品質特性に基づく評価基準 適応性 ▶ 環境変化への対応速度 - リソース使用量の測定 - 柔軟性 ▶ 新状況への対処能力 - 変更に要する時間とリソース - 進化 ▶ 学習効果の測定 - コンセプトドリフトへの対応 - 14

Slide 15

Slide 15 text

8.8 テスト目的と受け入れ基準 (2/2) 自律性 ▶ 動作範囲外での反応検証 - 人間介入の適切性評価 - 透明性と解釈可能性 ▶ アルゴリズム・データセットへのアクセス性 - ステークホルダーの理解度確認 - その他の特性 ▶ バイアス: 独立テストスイートによる検証 - 倫理: ガイドライン準拠の確認 - 確率論的特性: 許容範囲の定義 - 安全性: 仮想環境での検証 - 15

Slide 16

Slide 16 text

まとめ AI システムテストの主要な課題 ▶ 自己学習による予期せぬ変更への対応 - 複雑な受け入れ基準の設定 - バイアス検出と対策 - 確率論的・非決定論的性質への対応 - テストオラクル問題の解決 - 重要な考慮点 ▶ 継続的なモニタリングと適応 - 多面的な品質評価アプローチ - ステークホルダー視点の考慮 - 自動化テストの活用 - 16

Slide 17

Slide 17 text

Appendix: 用語辞書 グランドトゥルース: AI システムが予測しようとしている現実世界での実際の結果 ▶ LIME(Local Interpretable Model-agnostic Explanations): モデルに依存しない説明可能性を提供するための手法 ▶ コンセプトドリフト: 時間経過とともに学習データの統計的性質が変化する現象 ▶ データポイズニング: 訓練データを意図的に汚染する攻撃手法 ▶ メタモルフィックテスト: 入力の変換と出力の関係性を利用したテスト手法 ▶ バックツーバックテスト: 複数のシステムバージョン間での出力比較テスト ▶ フォールトインジェクション: システムの耐障害性を検証するために意図的に障害を注入するテスト手法 ▶ 17