Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 : Beyond trivial counterfactual explanations with diverse valuable explanations

yusumi
February 06, 2023

論文紹介 : Beyond trivial counterfactual explanations with diverse valuable explanations

P. Rodriguez, et al., "Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations," in 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada, 2021 pp. 1036-1045.
doi: 10.1109/ICCV48922.2021.00109
keywords: {computer vision;codes;computational modeling;perturbation methods;decision making;machine learning;predictive models}
Abstract: Explainability for machine learning models has gained considerable attention within the research community given the importance of deploying more reliable machine-learning systems. In computer vision applications, generative counterfactual methods indicate how to perturb a model’s input to change its prediction, providing details about the model’s decision-making. Current methods tend to generate trivial counterfactuals about a model’s decisions, as they often suggest to exaggerate or remove the presence of the attribute being classified. For the machine learning practitioner, these types of counterfactuals offer little value, since they provide no new information about undesired model or data biases. In this work, we identify the problem of trivial counterfactual generation and we propose DiVE to alleviate it. DiVE learns a perturbation in a disentangled latent space that is constrained using a diversity-enforcing loss to uncover multiple valuable explanations about the model’s prediction. Further, we introduce a mechanism to prevent the model from producing trivial explanations. Experiments on CelebA and Synbols demonstrate that our model improves the success rate of producing high-quality valuable explanations when compared to previous state-of-the-art methods. Code is available at https://github.com/ElementAI/beyond-trivial-explanations.
url: https://doi.ieeecomputersociety.org/10.1109/ICCV48922.2021.00109

yusumi

February 06, 2023
Tweet

More Decks by yusumi

Other Decks in Research

Transcript

  1. Abstract 2 Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

    機械学習における反実仮想説明 ◼ 反実仮想説明 モデルの予測値を変更する際に入力の摂動方法を説明する ML Model ML Model Input Output Input Counterfactual Output Perturb
  2. Abstract 3 Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

    本論文の提案 ◼ 反実仮想説明を Computer Vision の世界に適用 モデルの予測値と入力画像の摂動に着目 ◼ Diverse Valuable Explanations (DiVE) の提案 モデルの予測値を変更した際に多様的な反実仮想説明を出力
  3. Introduction Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations 4

    反実仮想説明が満たすべき制約 1. Validity : 予測値が変化するような摂動 2. Proximity : 元画像となるべく近い摂動 3. Sparsity : 摂動箇所が少ない 4. Diversity : 多様的な摂動
  4. Introduction Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations 5

    先行研究 1. Validity : 予測値が変化するような摂動 2. Proximity : 元画像となるべく近い摂動 3. Sparsity : 摂動箇所が少ない 4. Diversity : 多様的な摂動 xGEM [1] 1. のみ考慮 Black box モデルの分類器の挙動を 理解するために提案されたモデル [1] JOSHI, Shalmali, et al. xgems: Generating examplars to explain black-box models. arXiv preprint arXiv:1806.08867, 2018.
  5. Introduction Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations 6

    先行研究 1. Validity : 予測値が変化するような摂動 2. Proximity : 元画像となるべく近い摂動 3. Sparsity : 摂動箇所が少ない 4. Diversity : 多様的な摂動 1.~3. を考慮 PE [2] モデル分類器の挙動に 反実仮想説明を適用 [2] S. Singla, B. Pollack, J. Chen, and K. Batmanghelich. Explanation by progressive exaggeration. In International Conference on Learning Representations, 2020.
  6. Introduction Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations 7

    先行研究 1. Validity : 予測値が変化するような摂動 2. Proximity : 元画像となるべく近い摂動 3. Sparsity : 摂動箇所が少ない 4. Diversity : 多様的な摂動 1.~4. を考慮 提案手法の DiVE
  7. Related Work 8 機械学習モデルの説明手法 Beyond Trivial Counterfactual Explanations with Diverse

    Valuable Explanations ◼ 説明可能な AI (eXplainable AI : XAI) は 2 種類に分けられる → ブラックボックス型, トランスペアレント型
  8. Proposed Method 10 DiVE の概要 Beyond Trivial Counterfactual Explanations with

    Diverse Valuable Explanations 観測データの摂動 潜在変数の摂動 提案手法 ① 提案手法 ② Fisher 情報量による摂動変数の決定
  9. Proposed Method 11 DiVE の概要 Beyond Trivial Counterfactual Explanations with

    Diverse Valuable Explanations 観測データの摂動 潜在変数の摂動 提案手法 ① 提案手法 ② Fisher 情報量による摂動変数の決定
  10. Proposed Method Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

    12 潜在変数の摂動 DiVE は入力変数の潜在空間を摂動させて Counterfactual を生成 画像特徴の摂動が目的 beta-TCVAE [3] を利用 した潜在空間の学習 画像の特徴が潜在空間上で分離される ように学習する VAE モデル 潜在変数の各次元が 顔の向きや表情を保持できる [3] CHEN, Ricky TQ, et al. Isolating sources of disentanglement in variational autoencoders. Advances in neural information processing systems, 2018, 31.
  11. Proposed Method 13 損失関数の定義 入力画像 期待出力 Counterfactual ML モデル 潜在変数の摂動

    生成数 Validity Proximity Sparsity Diversity 正則化係数 Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations
  12. Proposed Method 14 Validity Loss の定義 Decoder からの出力 Counterfactual 入力画像

    予測値が期待する出力となる ように潜在空間のノイズを摂動 Cross Entropy 損失 Reparameterization trick Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations
  13. Proposed Method 15 Proximity Loss, Sparsity Loss の定義 Beyond Trivial

    Counterfactual Explanations with Diverse Valuable Explanations Proximity Loss Sparsity Loss 元画像となるべく近く なるように摂動 摂動箇所が少なくなる ように摂動
  14. Proposed Method 16 Diversity Loss の定義 Beyond Trivial Counterfactual Explanations

    with Diverse Valuable Explanations ノイズの摂動を多様化させる ノイズ同士のベクトル類似度 (内積) を小さくする
  15. Proposed Method 17 DiVE の概要 Beyond Trivial Counterfactual Explanations with

    Diverse Valuable Explanations 観測データの摂動 潜在変数の摂動 提案手法 ① 提案手法 ② Fisher 情報量による摂動変数の決定
  16. Experimental Results Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

    18 Beyond trivial explanations 髪の有り無しが Not bald に 最も寄与している特徴量 Trivial Counterfactuals Non-Trivial Counterfactuals ◼ ML モデルは予測に寄与する特徴量ほど摂動しやすい → bias (偏り) が存在! Trivial Counterfactual → Non-Trivial Counterfactual 髪の特徴以外を摂動させて モデルに Not bald と判定させる 予測に寄与する潜在特徴を摂動 予測に寄与しない潜在特徴を摂動
  17. Proposed Method 19 DiVE_Fisher Beyond Trivial Counterfactual Explanations with Diverse

    Valuable Explanations ◼ Non-Trivial な Counterfactuals を生成させる Fisher 情報行列の導入 ◼ 𝑭 の性質上, 対角成分は潜在特徴の各次元の相対的な影響度を表す ◼ Non-Trivial な説明をするために、影響力の高い次元の摂動を抑制させる
  18. Proposed Method Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

    20 DiVE_FisherSpectral Fisher 情報行列を元に摂動させる潜在特徴を決定する Spectral Clustering による摂動変数の決定 摂動させる潜在特徴が 1, それ以外が 0 となるベクトルをクラスター毎に生成 摂動ノイズベクトルの生成 相互作用の関係にある潜在特徴同士をまとめて摂動させることができる
  19. Experimental Results 21 DiVE を 4 つの基準で評価 1. Non-Trivial Counterfactual

    の有効性の 2. データセットに含まれる bias の検出 3. 潜在空間内の Proximity の評価 4. Sparsity の評価 Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations
  20. Experimental Results 22 使用するデータセットと比較モデル Beyond Trivial Counterfactual Explanations with Diverse

    Valuable Explanations ◼ 使用するデータセット ➢ CelebA dataset : 有名人の顔画像を 178×218 ピクセルで 202,599 枚集めたデータセット ➢ Synbols dataset : Unicode 標準の手書き文字をまとめたデータセット ◼ 比較モデル ➢ xGEM [1] : Black box モデル分類器の挙動を理解するために提案されたモデル ➢ PE [2] : Black box モデル分類器の挙動に反実仮想説明を適用 [1] JOSHI, Shalmali, et al. xgems: Generating examplars to explain black-box models. arXiv preprint arXiv:1806.08867, 2018. [2] S. Singla, B. Pollack, J. Chen, and K. Batmanghelich. Explanation by progressive exaggeration. In International Conference on Learning Representations, 2020.
  21. Experimental Results Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

    23 Beyond trivial explanations non-trivial counterfactuals rate 学習済み ML モデルと oracle モデル (VGGFace2) の予測結果を比較 ML モデルが期待予測かつ oracle モデルが入力データと同じ予測結果であれば成功 (ML の予測 ≠ oracle の予測) Non-Trivial Counterfactuals の判定方法 潜在空間内の Counterfactual 同士の類似度 右上に行くほど良い性能を表す 学習データに 無いデータ 学習データに 含まれるデータ
  22. Experimental Results Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

    24 Validity and bias detection データセットに bias (偏り) が存在する場合の反実仮想説明を検証する CelebA データセットから 2 種類のサブデータセットを作成 ① unbiased dataset バイアスの無いデータ ② biased dataset 男性の顔画像を笑顔, 女性の顔画像を笑顔で無い画像に統一 ※性別は oracle モデル (VGGFace2) で判定 反実仮想説明がデータの bias を検出できることを示す
  23. Experimental Results Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

    25 Validity and bias detection ① unbiased dataset を使用した時の反実仮想説明 smile pred male pred smile の予測確率を上昇させても male 確率に変化無し → bias は検出されない 入力画像 Counterfactuals
  24. Experimental Results Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

    26 Validity and bias detection ② biased dataset を使用した時の反実仮想説明 smile pred male pred smile の予測確率を上昇させると male の確率が増加 → bias の検出! 入力画像 Counterfactuals
  25. Experimental Results Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations

    27 Counterfactual Explanation Proximity 反実仮想説明の Proximity を FID で評価する ※ FID (Frechet Inception Distance) : 生成された画像の品質を評価する ためによく使われる2つの画像データセット間の類似性の尺度 Present MLモデルが対象属性に対して 0.9 以上の確 率で出力する説明 Absent MLモデルが対象属性に対して 0.1 より 低い確率で出力する説明 Overall 予測値が期待出力に収まった割合
  26. Limitation and Future work Beyond Trivial Counterfactual Explanations with Diverse

    Valuable Explanations 29 まとめと課題 まとめ ◼ 画像データを適用した反実仮想説明を提案 ◼ 反実仮想説明を通じて ML モデルのバイアスを検出する手法を提案 ◼ 分離可能な潜在空間の学習が Sparsity を向上させる 今後の課題 ◼ Fisher クラスターの最適な数 ◼ VAE と OOD の最適化なハイパラ探索 ◼ カテゴリデータの摂動方法