Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ステアラボAIセミナー「説明可能AIのこれまでとこれから」

 ステアラボAIセミナー「説明可能AIのこれまでとこれから」

Yuya Yoshikawa

August 01, 2023
Tweet

More Decks by Yuya Yoshikawa

Other Decks in Research

Transcript

  1. ⾃⼰紹介 最近の研究トピック −解釈可能な機械学習(説明可能AI) −動作認識 2 吉川 友也 (よしかわ ゆうや) 千葉⼯業⼤学

    ⼈⼯知能・ソフトウェア技術研究センター 上席研究員 博⼠(⼯学) − 2015年 奈良先端科学技術⼤学院⼤学
  2. 本講演の内容 • Part 1: 説明可能AIのこれまで − 説明可能AIの重要性や⽤途、分類 − 代表的な説明⼿法 −

    説明を改善させるための発展的研究 • Part 2: 説明可能AIのこれから − 最近研究が増えてきた、 または、これから増えることが期待される 説明可能AIの研究の⽅向性の紹介 3
  3. 本講演の内容 • Part 1: 説明可能AIのこれまで − 説明可能AIの重要性や⽤途、分類 − 代表的な説明⼿法 −

    説明を改善させるための発展的研究 • Part 2: 説明可能AIのこれから − 最近研究が増えてきた、 または、これから増えることが期待される 説明可能AIの研究の⽅向性の紹介 5
  4. ⾼い予測精度を出すために機械学習モデルはどんどん複雑化 6 0 5 10 15 20 25 30 35

    40 2018 2019 2020 2021 2022 2023 パープレキシティ (WikiText-103) ⼤規模⾔語モデルの予測性能 https://paperswithcode.com/sota/language-modelling-on-wikitext-103 から作成
  5. ⾼い予測精度を出すために機械学習モデルはどんどん複雑化 7 0.01 0.1 1 10 100 1000 2018 2019

    2020 2021 2022 モデルサイズ (x109) ⼤規模⾔語モデルのサイズ https://huggingface.co/blog/large-language-models から作成
  6. AIの透明性と解釈性に関する社会からの要求 9 AIシステムについて、⼈々がどのようなときにそれと関わり結果の正当性を批判 できるのかを理解できるようにするために、透明性を確保し責任ある情報開⽰ を⾏うべきである。 AIに関する経済協⼒開発機構(OECD)原則 内閣府 ⼈間中⼼のAI社会原則 4.1.(6) 公平性、説明責任及び透明性の原則

    2016年 4⽉ G7⾹川 ⼈⼯知能の開発原則の提唱 AIネットワークシステムの動作の説明可能性及び検証可能性を確保すること。 2019年 3⽉ 「AI-Ready な社会」においては、(中略) 公平性及び透明性のある意思決定と その結果に対する説明責任(アカウンタビリティ)が適切に確保されると共に、 技術に対する信頼性(Trust)が担保される必要がある。 2019年 5⽉ EU AI規制法案 (2024年以降の発効?) 2021年 4⽉ ハイリスク AI システムは、利⽤者が当該システムのアウトプットを解釈し かつそれを適切に使⽤することができるようにするため、当該システムの動作 が⼗分に透明であることを確保する⽅法で、これを設計し及び開発するものと する。
  7. AIの透明性と解釈性の要求 AIシステムについて、⼈々がどのようなときにそれと関わり結果の正当性を批判 できるのかを理解できるようにするために、透明性を確保し責任ある情報開⽰ を⾏うべきである。 AIに関する経済協⼒開発機構(OECD)原則 内閣府 ⼈間中⼼のAI社会原則 4.1.(6) 公平性、説明責任及び透明性の原則 G7⾹川

    ⼈⼯知能の開発原則の提唱 AIネットワークシステムの動作の説明可能性及び検証可能性を確保すること。 2019年 3⽉ 「AI-Ready な社会」においては、(中略) 公平性及び透明性のある意思決定と その結果に対する説明責任(アカ ウンタビリティ)が適切に確保されると共に、 技術に対する信頼性(Trust)が担保される必要がある。 2019年 5⽉ EU AI規制法案 (2024年施⾏予定) 2021年 4⽉ ハイリスク AI システムは、利⽤者が当該システムのアウトプットを解釈し かつそれを適切に使⽤することができるようにするため、当該システムの動作 が⼗分に透明であることを確保する⽅法で、これを設計し及び開発するものと する。 2016年 4⽉ 解釈可能な機械学習 または AIの透明性や解釈性の確保のための機械学習技術を と呼びます。 説明可能AIのなかでも、 予測において何の特徴がどのように効いたのか を説明する技術について紹介します。 10 説明可能AI (XAI)
  8. 事後説明 Post-hoc explanation 後付けの説明器が予測に対して 特徴がどのように効くか説明 11 解釈可能な機械学習の分類 ⼤域説明 Global/model explanation

    学習した予測モデル全体で 特徴がどのように効くか説明 局所説明 Local explanation 個々の予測結果に対して 特徴がどのように効くか説明 ⾃⼰説明 Ante-hoc explanation 予測モデル⾃⾝が予測に対して 特徴がどのように効くか説明 予測において何の特徴がどのように効いたのかを説明する
  9. 局所説明⼿法の分類 [恵⽊ 2020] 例: ローン審査をするAIが A⽒の申し込みをリジェクトしたケース 予測に効いた特徴を⽤いて説明 “A⽒と類似の申込みで返済が 滞った事例がある” 事例型説明

    類似した訓練事例を⽰して説明 “A⽒の会社の信⽤度が低かった” 知識型説明 外部知識を利⽤して説明 “もしA⽒の年収が〇〇円以上 であれば審査は通っていた” 反実型説明 予測を変えるために必要なことを説明 12 “A⽒の職業が〇〇だから” 因⼦型説明 予測に効いた特徴を⽤いて説明
  10. what is the temperature at the center of the earth

    データ種別、因⼦型の局所説明の具体例 表形式データの場合 画像データの場合 テキストデータの場合 13 ⾝⻑ 体重 東京 出⾝ 172 63 1 ⼊⼒ ! ∈ ℝ! ⾝ ⻑ 体 重 東 京 出 ⾝ 予測結果に対する 各特徴の貢献度を説明 貢献度 $ % ∈ ℝ! ⾝⻑ 体重 東京 出⾝ 0.8 0.6 -0.1 貢献度 or ⼊⼒ ! ∈ ℝ"×$×% 予測結果に対する 各ピクセルの貢献度を説明 貢献度 $ % ∈ ℝ$×% ⼊⼒ ! = [単語1, 単語2, ⋯ , 単語,] 予測結果に対する 各単語の貢献度を説明 what is the temperature at the center of the earth 貢献度 $ % ∈ ℝ!
  11. 予測精度が⾼くても、予測結果の説明は重要 AI利⽤者視点 14 ① AIの結果に根拠が付き 信⽤できるようになる ② ⾼リスクな意思決定が 必要な場⾯でもAIを利⽤ しやすくなる

    AI開発者視点 ③ バグの発⾒や モデルの改善に繋がる ④ 不公平さをもたらす バイアスの発⾒に繋がる • 推薦システム • 検索システム • 医療画像診断 • ⾃動運転 • セキュリティ • 前処理や途中の計算で 発⽣するバグ • 不必要な特徴の削除 • 職業を当てる画像認識で 性別や⼈種を表す領域に 注⽬していないか
  12. 事後説明器 (post-hoc explainer) 15 ⾝⻑ 体重 東京 出⾝ 172 63

    1 性別 確率 男性 0.79 ⼥性 0.21 ⼊⼒ ! 予測に対して後付けで特徴の貢献度を説明 予測モデル .(0) "($; &) 事後説明器 予測確率 2 3 貢献度 $ % ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する ※予測モデルは学習済み
  13. 事後説明器 (post-hoc explainer) ⾝⻑ 体重 東京 出⾝ 172 63 1

    性別 確率 男性 0.79 ⼥性 0.21 .(0) "($; &) 事後説明器 予測確率 2 3 貢献度 $ % ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する • 説明のために予測モデル を変更する必要がない メリット • 説明を⽣成するために 推論時に学習を必要とする 場合があり、計算量が⼤きい デメリット 16 予測モデル 予測に対して後付けで特徴の貢献度を説明 ※予測モデルは学習済み ⼊⼒ !
  14. 説明の作り⽅による事後説明器の分類 • 摂動に基づく⽅法 − 例:LIME, KernelSHAP, MAPLE • 微分に基づく⽅法 −

    例:Integrated Gradients, DeepLift, LRP, SmoothGrad • クラス活性化マップに基づく⽅法 − 例:GradCAM, GradCAM++, ScoreCAM, • オクルージョン(遮蔽)に基づく⽅法 − 例:RISE, Occlusion • アテンション(注意機構)に基づく⽅法 − 例:Attention Rollout, Attention Flow 17
  15. 摂動に基づく事後説明器: Local Interpretable Model-agnostic Explanations (LIME) 18 特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から 線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明 ⾝⻑

    体重 東京 出⾝ 172 63 1 ⼊⼒ ! ⾝⻑ 体重 東京 168 63 1 摂動させた⼊⼒ 4 !& !5 = [0 1 1] !6 = [1 0 0] ⾝⻑ 体重 東京 172 45 0 摂動させた⼊⼒ 4 !' … 摂動させた⼊⼒を!個⽣成 ⼆値ベクトル7を8個⽣成 7で0を持つ特徴を 別の値に置き換え … 摂動させた⼊⼒に対する予測モデルの出⼒を得る .(0) ( $! ( $" … … … 性別 確率 男性 0.59 ⼥性 0.41 予測確率 4 3& 性別 確率 男性 0.70 ⼥性 0.30 予測確率 4 3' … ステップ① ステップ② 予測モデル [Ribeiro+ 2016]
  16. 摂動に基づく事後説明器: Local Interpretable Model-agnostic Explanations (LIME) 19 特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から 線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明 "から予測確率を当てる重み付き線形回帰を学習

    '∗ = argmin: . ;<5 6 / !; 0 1; − '!; = = + 4 ' = = ※ :はクラス数×特徴の数のサイズ すべての要素が1のベクトルとの類似度 #∗の$⾏⽬がクラス$への特徴量の貢献度となる 摂動させた⼊⼒に対する予測モデルの出⼒を得る .(0) ( $! ( $" … … … 性別 確率 男性 0.59 ⼥性 0.41 予測確率 4 3& 性別 確率 男性 0.70 ⼥性 0.30 予測確率 4 3' … ステップ② ステップ③ 予測モデル [Ribeiro+ 2016]
  17. クラス活性化マップに基づく事後⾃⼰説明器: Class Activation Mapping (CAM) 22 GradCAMの 事前準備 [Zhou+ 2016]

    Global Average Pooling (GAP) 1つの活性化マップの平均値を次の1つのニューロンの値にする %", %#, ⋯ , %$ 学習可能な重み(linear layer)
  18. クラス活性化マップに基づく事後⾃⼰説明器: Class Activation Mapping (CAM) 23 GradCAMの 事前準備 [Zhou+ 2016]

    5 6 = . ><5 ? 7>8> 85 8= 8? 5 6 貢献度: (ピクセルの) GAPを⼊れてCNNの構造を変えるため 精度への悪影響の可能性あり
  19. クラス活性化マップに基づく事後説明器: Gradient-based Class Activation Map (GradCAM) 24 予測モデルの中間層の微分値を利⽤してCAMの重み %% %&"

    $ を計算 85, 8=, ⋯ , 8? 予測ラベル ) * 活性化マップ GAPである 必要はない GradCAMの重み計算 () * ! " (+# … 活性化マップに関する &(+)の微分 7> = GAP >? @ @ A >8> 重み: 5 6 = ReLU . ><5 ? 7>8> GradCAMの貢献度計算 貢献度: (ピクセルの) [Selvaraju+ 2020]
  20. 事後説明器による説明の⽐較 ~計算時間~ 26 (Xpliqueを使⽤) 事後説明器 1画像あたりの 平均計算時間(秒) ハイパーパラメータ LIME 3.91

    摂動させた⼊⼒の数: 2000 Integrated Grad. 3.42 近似グリッド点の数: 80 GradCAM 0.25 RISE 1.35 マスクの数: 2000 ハイパーパラメータ次第で計算時間は変わる LIME, Integrated Grad., RISEは、計算時間と説明の質がトレードオフ 実験環境: Google Collaboratory (GPU: Tesla T4)
  21. 説明の定量評価 説明を利⽤する実際のタスクで⼈間が評価 「実⽤」に根ざした評価 説明を⽤いる簡単なタスクを⼈間が⾏って評価 「⼈間」に根ざした評価 ⼈間を介さず、機械が⾃動的に説明を評価できる代理タスクを使⽤ 「機能」に根ざした評価 27 (Application-grounded Evaluation)

    (Human-grounded Evaluation) (Functionally-grounded Evaluation) 評価コストが⾼いが、実際のタスクを持っている場合は最も効果的 例: 説明を⾒ながら予測モデルの出⼒を⽬的の値に近づけるゲームを⼈が⾏い 何ステップで達成できるかを評価 簡単でコストがかからないため、論⽂中の定量評価の多くがこのタイプ 例: 推薦理由を説明できる推薦システムで、商品購⼊確率を評価 [Doshi-Velez+ 2017]
  22. 「機能」に根ざした評価の例 • Faithfulness / Fidelity (忠実性) − 予測モデルの振る舞いを説明が忠実に表現しているか • Stability

    (安定性) − 近傍事例に対して説明が安定しているか • Consistency (⼀貫性) − 同じ⼊⼒に対して同じ説明を出⼒できるか • Compactness / Sparseness (簡潔さ) − 簡単な説明(貢献度の⾮ゼロ成分が少ない)になっているか 28
  23. ⾃⼰説明可能な予測モデル (self-explainable models) • 予測に対して忠実な説明を ⽣成しやすい • 事後説明器に⽐べると推論 時に速い 31

    予測モデル⾃⾝が特徴の貢献度を説明できる ⾝⻑ 体重 東京 出⾝ 172 63 1 性別 確率 男性 0.79 ⼥性 0.21 特徴量 ! ⾃⼰説明可能な 予測モデル ,(.) 予測確率 2 3 貢献度 $ % ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する 通常の教師データを⽤いて 予測モデルを学習 メリット • 事後説明器とは異なり 予測モデルを変えるので 予測精度が悪くなる可能性 がある デメリット 推論フロー
  24. Self-Explaining Neural Networks (SENN) 32 NNがコンセプト特徴とその関連度を⽣成して予測と説明を⾏う ⼊⼒ ! ℎ(⋅) 2(⋅)

    コンセプト変換器 関連度変換器 関連度 ,($) コンセプト表現 ℎ($) 内積で予測 3 4 = , . 推論フロー = 2 6 'ℎ(6) 2(.)の可視化 C3がプラスに 効いているのが 分かる 各コンセプト の代表例 [Alvarez+ 2018]
  25. Self-Explaining Neural Networks (SENN) 33 NNがコンセプト特徴とその関連度を⽣成して予測と説明を⾏う ⼊⼒ ! ℎ(⋅) 2(⋅)

    コンセプト変換器 関連度変換器 関連度 ,($) コンセプト表現 ℎ($) 内積で予測 3 4 = , . 学習フロー = 2 6 'ℎ(6) ℎ(+)から+の 復元ロス 予測ロス ,(+)の 正則化 argmin .,0 ℒ 1 ( ) , + + -ℒ . ( ) + .ℒ 0 ), / ) ℒ( ℒ) ℒ* 最適化問題: Backward [Alvarez+ 2018]
  26. 吉川の研究 34 スパースな説明を可能にする⾃⼰説明可能な予測モデル 2(.) 関連度変換器 ガウス過程に基づく⾃⼰説明可能な予測モデル 2(, + ) 3個の特徴のみを

    選択するモジュール Yuya Yoshikawa, and Tomoharu Iwata, “Neural Generators of Sparse Local Linear Models for Achieving Both Accuracy and Interpretability,” Information Fusion, 2022. Yuya Yoshikawa, and Tomoharu Iwata, “Gaussian Process Regression With Interpretable Sample-wise Feature Weights,” IEEE Transactions on Neural Networks and Learning Systems, 2021. “9” スパースな 関連度 予測値 ⼊⼒ ガウス過程事前分布 各特徴の関連度を 決定する関数を サンプル 2" . 2# . ⋯ 2+(.) 4 = 8 ,&" + 2, . ., 予測 関連度
  27. メリット デメリット 説明による正則化付き予測モデル最適化 36 事後説明器による説明の評価スコアが良くなるように予測モデルを学習 性別 確率 男性 0.79 ⼥性

    0.21 ⼊⼒ ! 予測確率 2 3 貢献度 $ % ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する ⾝⻑ 体重 東京 出⾝ 172 63 1 予測モデル .(0) "($; &) 事後説明器 「機能」に根づいた評価 に基づく正則化 ▷ 忠実度 ▷ スパース度 など • 予測モデルや事後説明器の アーキテクチャを変更せず 説明を改善可能 • 予測モデルを変えるので 予測精度が悪くなる可能性 • 学習時の計算量増⼤ 推論フロー
  28. Explanation-based Optimization (ExpO) 37 LIMEによる説明のFidelityスコアが良くなるように予測モデルを学習 性別 確率 男性 0.79 ⼥性

    0.21 ⼊⼒ ! 予測確率 2 3 貢献度 $ % ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する 予測モデル .(0) "($; &) LIME Fidelity正則化 ⼊⼒$の近傍点に対して、解釈モデル4が予測モデル&の振る舞いを 精度良く再現する度合い ( 4は線形回帰モデルを仮定 ) 9-(∼/) [ , 60 − < 60 # ] Fidelity Ω ., C, D) = E)!∼+" [ . !, − C !, - ] 予測ロス ℒ(H, 2 3) Backward Fidelityスコア: ※ D) … ⼊⼒!の近傍点集合 定量化 (低い⽅が良い) ※ 線形回帰Cの係数 として$ %を利⽤ 学習フロー [Plumb+ ʻ19]
  29. 説明の教師データを利⽤した予測モデル最適化 タイプ① 説明そのものを変化させる 39 性別 確率 男性 0.79 ⼥性 0.21

    ⼊⼒ ! 予測確率 2 3 貢献度 $ % ⾝⻑ 体重 出⾝ 0.8 0.6 -0.1 「性別=男性」に対する 予測モデル .(0) "($; &) 勾配ベース 説明器 予測ロス ℒ(H, 2 3) Backward 0 ∈ 0,1 5 … >番⽬の特徴が必要(?+ = 0)か、不必要(?+ = 1)か 説明の教師データ min I ℒ F, G F + H . J IJ > >@J log ? @ A = 解く問題: 勾配によるK番⽬の特徴の貢献度 説明の教師データによる ロス ! " # ## $ $%# log ) % $ % 学習フロー [Ross+ 2017]
  30. 説明の教師データを利⽤した予測モデル最適化 タイプ② 説明の教師データを利⽤して⼊⼒を変える 40 性別 確率 男性 0.79 ⼥性 0.21

    ⼊⼒ ! 予測確率 2 3 予測モデル .(0) 予測ロス ℒ(H, 2 3) Backward + ∈ 0,1 1 … 6番⽬の特徴が必要(7# = 0)か、不必要(7# = 1)か 説明の教師データ min I ℒ F, L 1 + HKL ?(O)||?(mask(O; 8) ) 解く問題: !とmask !; Q の予測の不⼀致度 mask ); 0 … ?+ = 1となる特徴をマスク (例: .+ = 0) する関数 ⼈が必要だと思う特徴のみを利⽤して予測モデルが予測するので 説明器も影響を受けて、その特徴に対して⼤きな貢献度を出⼒しやすくなる 性別 確率 男性 0.54 ⼥性 0.46 予測確率 4 3 mask $; ? KL &($)||&(mask($; ?) ) 学習フロー [Ismail+ 2021]
  31. パラメータ化説明器: 事後説明器の振る舞いを学習 ⼊⼒ ! 予測確率 2 3 貢献度 %∗ ⾝⻑

    体重 東京 0.8 0.6 -0.1 「性別=男性」に対する 予測モデル (固定) .(0) "($; &) 事後説明器 %∗と$ %の 不⼀致度ロス ℰ($; &) パラメータ化説明器 予測貢献度 $ % ⾝⻑ 体重 東京 0.7 0.5 -0.2 学習フロー 推論では、事後説明器の代わりに学習したパラメータ化説明器を⽤いる • 1事例に依存しないため 説明が安定 • 推論時に⾼速 メリット • 教師データを⽤いた 訓練が必要 デメリット (事後説明器との⽐較) Backward 42 [Situ+ 2021]
  32. ⽣成AIにおけるXAI利⽤の例 • ⽣成物に対する特徴の貢献を説明 (因⼦型説明) − ⼈が期待したとおりに⽣成できているかの確認や、 効果的なプロンプトになっているかの分析等に使える • ⽣成物に貢献する訓練事例を説明 (事例型説明)

    − ⽣成画像が著作権侵害していないかの確認や、 ⽣成⽂が参考にした⽂章の確認等に使える • ⼈間の創作物か、AIによる⽣成物かの判別における 根拠の説明 46
  33. 単語が⽣成画像のどの領域に対応付くかを可視化 47 テキストからの画像⽣成モデル (例: Imagen) では、逆拡散過程の各時刻で、 単語とピクセル間のCross-attentionを計算して特徴変換 Cross-attentionを可視化すると、単語がどのピクセルに作⽤しているのか解釈可能 “a furry

    bear watching a bird”からの画像⽣成において、 拡散過程の全ての時刻でattention mapを平均化したもの ピクセル特徴 フラット化 ピクセル *(,& ) .' / ピクセルクエリ 0( 単語キー 単語埋め込み .) 単語ID 1(2) Cross-attention / 単語ID フラット化 ピクセル [Herts+ 2022]
  34. 本物の画像かAI⽣成画像かを分類し、その根拠を可視化 49 “A skier is overlooking the beautiful white snow

    covered landscape” 本物の画像 (キャプション付き) ⽣成 AI⽣成画像 (Stable Diffusion) 訓練データ として利⽤ .(0) ⼊⼒画像が本物かAI⽣成画像かを分類する分類器を構築 本物 or AI⽣成? [Pondoc+ 2023]
  35. そもそもAI⽣成判定がかなり難しい • OpenAIのAI⽣成判定サービスは2023年6⽉で停⽌ − 理由は “精度が低いから” • もともと精度はそんなに⾼いわけではなかった − 26%のAI⽣成テキストを正しく判定

    (残り74%は誤って⼈と判定) − 9%の⼈が書いたテキストをAIと誤判定 • AI⽣成の質が良くなればなるほど、AI⽣成判定が難しくなる ジレンマ 52 説明以前に…
  36. ⼤規模⾔語モデル(LLM)を説明で改善させる 代理モデルの 選択 Few-shot サンプル選択 貢献度計算 プロンプト作成 54 In-context Learning

    LLMがタスクを解く前に、少数の回答例や考え⽅のヒントをプロンプト として与え、LLMの出⼒をユーザの意図する⽅向へ導く 例: 感情分類における1ショットプロンプト Review: この映画はつまらん. Sentiment: negative. Review: この映画⼤好き. Sentiment: Positive. LLM 説明をIn-context Learningで利⽤することで、LLMの出⼒を改善させる 研究の ゴール [Satyapriya+ 2023]
  37. ⼤規模⾔語モデル(LLM)を説明で改善させる 代理モデルの 選択 Few-shot サンプル選択 貢献度計算 プロンプト作成 55 ステップ① 代理モデルの選択

    − LLMよりも軽量なモデル (GPT-2等)をLLMの代理モデルとして使⽤ ステップ② Few-shotサンプル選択 − LLMが間違える検証セットのサンプルを抽出 − 誤分類確信度スコア(MCS)の⾼い順にC個⼊⼒⽂を選択 [Satyapriya+ 2023]
  38. ⼤規模⾔語モデル(LLM)を説明で改善させる 代理モデルの 選択 Few-shot サンプル選択 貢献度計算 プロンプト作成 56 ステップ③ 貢献度計算

    − 代理モデルを⽤いて事後説明器で 正解クラスに対する単語の貢献度を計算 − 各⼊⼒⽂に対して、 貢献度top-Dの単語を抽出 ステップ④ プロンプト作成 − 貢献度top-Dの単語を⽤いて In-context learningする ためのプロンプト作成 [Satyapriya+ 2023]
  39. 説明の悪⽤: Model Inversion Attack 57 説明を利⽤して予測モデルの学習データの情報を復元する攻撃 .(0) 予測モデル "($; &)

    説明器 ブラック ボックス 貢献度 $ % 予測確率 2 3 ⼊⼒画像 ! 外部から予測モデルや 説明器の情報は得られない 説明付きで画像認識 の結果を返すAPI [Zhao+ 2021]
  40. 説明の悪⽤: Model Inversion Attack 58 説明を利⽤して予測モデルの学習データの情報を復元する攻撃 .(0) 予測モデル "($; &)

    説明器 攻撃者 ブラック ボックス 貢献度 $ % 予測確率 2 3 .0(2 3, $ %) 復元器 復元画像 4 ! ⼊⼒画像 ! 1. 攻撃者は、訓練画像と同じ⺟集団の⼊⼒画像にアクセス (ただし訓練画像と⼊⼒画像は異なる) 2. 予測確率D Eと貢献度F Gから⼊⼒画像を復元できる復元器を学習 3. 攻撃者は、公開されていない画像の予測確率) Hと貢献度F Iを何らか の⽅法で得て、復元器を⽤いて⼊⼒画像を推定 攻撃者 の⾏動 [Zhao+ 2021]
  41. 本講演のまとめ • Part 1: 説明可能AIのこれまで − 説明可能AIの重要性、⽤途、分類 − 代表的な説明⼿法 …

    LIME, GradCAM − 説明を改善させるための発展的研究 • Part 2: 説明可能AIのこれから − ⽣成AIのためのXAI > ⽣成物に対する特徴の貢献を説明 > ⽣成物に貢献する訓練事例を説明 > ⼈間の創作物か、AIによる⽣成物かの判別における根拠の説明 − AIが活⽤するためのXAI > 説明を悪⽤して⼊⼒データを復元 > ⼤規模⾔語モデルを説明で改善 59 ⾃⼰説明型予測モデル 説明の評価尺度で最適化 パラメータ化説明器 ⼈が望む説明になるように最適化
  42. 参考⽂献 1/3 • [恵⽊ 2020] 恵⽊正史. “XAI(eXplainable AI)技術の研究動向.” ⽇本セキュリティ・マネジメント学会誌, vol.

    34, no. 1, 2020, https://www.jstage.jst.go.jp/article/jssmjournal/34/1/34_20/_pdf/-char/ja. • [Ribeiro+ 2016] Ribeiro, Marco Tulio, et al. “ʻWhy Should I Trust You?ʼ: Explaining the Predictions of Any Classifier.” arXiv:1602.04938 [cs, Stat], Feb. 2016. arXiv.org, http://arxiv.org/abs/1602.04938. • [Plumb+ 2019] Plumb, Gregory, et al. “Regularizing Black-Box Models for Improved Interpretability.” arXiv [cs.LG], 18 Feb. 2019, http://arxiv.org/abs/1902.06787. arXiv. • [Sundararajan+ 2017] Sundararajan, Mukund, et al. “Axiomatic Attribution for Deep Networks.” arXiv [cs.LG], 4 Mar. 2017, http://arxiv.org/abs/1703.01365. arXiv. • [Zhou+ 2016] Zhou, Bolei, et al. “Learning Deep Features for Discriminative Localization.” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2016, https://doi.org/10.1109/cvpr.2016.319. • [Selvaraju+ 2020] Selvaraju, Ramprasaath R., et al. “Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization.” International Journal of Computer Vision, vol. 128, no. 2, Feb. 2020, pp. 336‒59. • [Petsiuk+ 2018] Petsiuk, Vitali, et al. “RISE: Randomized Input Sampling for Explanation of Black- Box Models.” arXiv [cs.CV], 19 June 2018, http://arxiv.org/abs/1806.07421. arXiv. • [Abnar+ 2020] Abnar, Samira, and Willem Zuidema. “Quantifying Attention Flow in Transformers.” arXiv [cs.LG], May 2020, https://arxiv.org/abs/2005.00928. arXiv. • [Doshi-Velez+ 2017] Doshi-Velez, Finale, and Been Kim. “Towards A Rigorous Science of Interpretable Machine Learning.” arXiv [stat.ML], 28 Feb. 2017, http://arxiv.org/abs/1702.08608. arXiv. 60
  43. 参考⽂献 2/3 • [Alvarez+ 2018] Alvarez Melis, David, and Tommi

    Jaakkola. “Towards Robust Interpretability with Self- Explaining Neural Networks.” Advances in Neural Information Processing Systems, vol. 31, 2018, https://proceedings.neurips.cc/paper/2018/hash/3e9f0fc9b2f89e043bc6233994dfcf76-Abstract.html. • [Ross+ 2017] Ross, Andrew Slavin, et al. “Right for the Right Reasons: Training Differentiable Models by Constraining Their Explanations.” Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, International Joint Conferences on Artificial Intelligence Organization, 2017, https://doi.org/10.24963/ijcai.2017/371. • [Ismail+ 2021] Ismail, Aya Abdelsalam, et al. “Improving Deep Learning Interpretability by Saliency Guided Training.” Advances in Neural Information Processing Systems, vol. 34, 2021, pp. 26726‒39. • [Situ+ 2021] Situ, Xuelin, et al. “Learning to Explain: Generating Stable Explanations Fast.” Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Association for Computational Linguistics, 2021, pp. 5340‒55. • [Fernandes+ 2022] Fernandes, Patrick, et al. “Learning to Scaffold: Optimizing Model Explanations for Teaching.” Advances in Neural Information Processing Systems, vol. 35, 2022, pp. 36108‒22. • [Zhao+ 2021] Zhao, Xuejun, et al. “Exploiting Explanations for Model Inversion Attacks.” 2021 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE, 2021, https://doi.org/10.1109/iccv48922.2021.00072. • [Jeong+ 2022] Jeong, Hoyong, et al. Learning to Generate Inversion-Resistant Model Explanations. 31 Oct. 2022, https://openreview.net/pdf?id=iy2G-yLGuku. • [Satyapriya+ 2023] Satyapriya, et al. “Post Hoc Explanations of Language Models Can Improve Language Models.” arXiv [cs.CL], 19 May 2023, http://arxiv.org/abs/2305.11426. arXiv. 61
  44. 参考⽂献 3/3 • [Pondoc+ 2023] Pondoc, Christopher, et al. Seeing

    Through the Facade: Understanding the Realism, Expressivity, and Limitations of Diffusion Models. June 2023, https://openreview.net/forum?id=wOC0BELg7g. • [Herts+ 2022] Hertz, Amir, et al. “Prompt-to-Prompt Image Editing with Cross Attention Control.” arXiv [cs.CV], 2 Aug. 2022, http://arxiv.org/abs/2208.01626. arXiv. • [Ilyas+ 2022] Ilyas, Andrew, et al. “Datamodels: Predicting Predictions from Training Data.” arXiv [stat.ML], 1 Feb. 2022, https://proceedings.mlr.press/v162/ilyas22a/ilyas22a.pdf. arXiv. • [Park+ 2023] Park, Sung Min, et al. “TRAK: Attributing Model Behavior at Scale.” arXiv [stat.ML], 24 Mar. 2023, http://arxiv.org/abs/2303.14186. arXiv. • [Georgiev+ 2023] Georgiev, Kristian, et al. The Journey, Not the Destination: How Data Guides Diffusion Models. 23 June 2023, https://openreview.net/pdf?id=9hK9NbUAex. 62