2023年度人工知能学会全国大会 (JSAI2023) チュートリアル「解釈可能な機械学習〜説明は人のためか〜」

解釈可能な機械学習〜説明は⼈のためか？〜千葉⼯業⼤学⼈⼯知能・ソフトウェア技術研究センター吉川友也 JSAI2023 チュートリアル
https://yuya-y.com

⾃⼰紹介最近の研究トピック −解釈可能な機械学習(説明可能AI) −動作認識 2 吉川友也 (よしかわゆうや) 千葉⼯業⼤学
⼈⼯知能・ソフトウェア技術研究センター上席研究員博⼠（⼯学） − 2015年奈良先端科学技術⼤学院⼤学

本チュートリアルの内容 1. なぜ「解釈可能な機械学習」が必要なのか 2. 代表的な説明⼿法（事後説明器） 3. 説明の定量評価 4. ⾃⼰説明可能な予測モデル 5.
説明による正則化付き予測モデル最適化 6. 説明の教師データを利⽤した予測モデル最適化 7. パラメータ化説明器 8. ？？のための説明 9. 説明⼿法を使う上で気をつけたいこと 10.まとめ 3

⾼い予測精度を出すために機械学習モデルはどんどん複雑化 4 0 5 10 15 20 25 30 35
40 2018 2019 2020 2021 2022 2023 パープレキシティ (WikiText-103) ⼤規模⾔語モデルの予測性能 https://paperswithcode.com/sota/language-modelling-on-wikitext-103 から作成

⾼い予測精度を出すために機械学習モデルはどんどん複雑化 5 0.01 0.1 1 10 100 1000 2018 2019
2020 2021 2022 モデルサイズ (x109) ⼤規模⾔語モデルのサイズ https://huggingface.co/blog/large-language-models から作成

⼀般に、複雑なモデルほど解釈しにくい 6 複雑度 (精度) 解釈性の良さ深層ニューラルネットランダムフォレスト SVM 𝑘近傍法決定⽊
線形回帰分類ルール年齢<20 Yes No ※ 解釈とは … モデルの振る舞いを理解すること

AIの透明性と解釈性に関する社会からの要求 7 AIシステムについて、⼈々がどのようなときにそれと関わり結果の正当性を批判できるのかを理解できるようにするために、透明性を確保し責任ある情報開⽰を⾏うべきである。 AIに関する経済協⼒開発機構(OECD)原則内閣府⼈間中⼼のAI社会原則 4.1.(6) 公平性、説明責任及び透明性の原則
2016年 4⽉ G7⾹川⼈⼯知能の開発原則の提唱ＡＩネットワークシステムの動作の説明可能性及び検証可能性を確保すること。 2019年 3⽉「AI-Ready な社会」においては、(中略) 公平性及び透明性のある意思決定とその結果に対する説明責任（アカウンタビリティ）が適切に確保されると共に、技術に対する信頼性（Trust）が担保される必要がある。 2019年 5⽉ EU AI規制法案 (2024年以降の発効？) 2021年 4⽉ハイリスク AI システムは、利⽤者が当該システムのアウトプットを解釈しかつそれを適切に使⽤することができるようにするため、当該システムの動作が⼗分に透明であることを確保する⽅法で、これを設計し及び開発するものとする。

AIの透明性と解釈性の要求 AIシステムについて、⼈々がどのようなときにそれと関わり結果の正当性を批判できるのかを理解できるようにするために、透明性を確保し責任ある情報開⽰を⾏うべきである。 AIに関する経済協⼒開発機構(OECD)原則内閣府⼈間中⼼のAI社会原則 4.1.(6) 公平性、説明責任及び透明性の原則 G7⾹川
⼈⼯知能の開発原則の提唱ＡＩネットワークシステムの動作の説明可能性及び検証可能性を確保すること。 2019年 3⽉「AI-Ready な社会」においては、(中略) 公平性及び透明性のある意思決定とその結果に対する説明責任（アカウンタビリティ）が適切に確保されると共に、技術に対する信頼性（Trust）が担保される必要がある。 2019年 5⽉ EU AI規制法案 (2024年施⾏予定) 2021年 4⽉ハイリスク AI システムは、利⽤者が当該システムのアウトプットを解釈しかつそれを適切に使⽤することができるようにするため、当該システムの動作が⼗分に透明であることを確保する⽅法で、これを設計し及び開発するものとする。 2016年 4⽉解釈可能な機械学習または AIの透明性や解釈性の確保のための機械学習技術をと呼びます。解釈可能な機械学習のなかでも、予測において何の特徴がどのように効いたのかを説明する技術について紹介します。 8 説明可能AI (XAI)

事後説明 Post-hoc explanation 後付けの説明器が予測に対して特徴がどのように効くか説明 9 解釈可能な機械学習の分類⼤域説明 Global/model explanation
学習した予測モデル全体で特徴がどのように効くか説明局所説明 Local explanation 個々の予測結果に対して特徴がどのように効くか説明⾃⼰説明 Ante-hoc explanation 予測モデル⾃⾝が予測に対して特徴がどのように効くか説明予測において何の特徴がどのように効いたのかを説明する

事後説明 Post-hoc explanation 後付けの説明器が予測に対して特徴がどのように効くか説明 10 ⼤域説明 Global/model explanation 学習した予測モデル全体で
特徴がどのように効くか説明局所説明 Local explanation 個々の予測結果に対して特徴がどのように効くか説明⾃⼰説明 Ante-hoc explanation 予測モデル⾃⾝が予測に対して特徴がどのように効くか説明本チュートリアルでは⼤域説明は扱いません解釈可能な機械学習の分類予測において何の特徴がどのように効いたのかを説明する

局所説明⼿法の分類 [恵⽊ 2020] 例: ローン審査をするAIが A⽒の申し込みをリジェクトしたケース予測に効いた特徴を⽤いて説明 “A⽒と類似の申込みで返済が滞った事例がある” 事例型説明
類似した訓練事例を⽰して説明 “A⽒の会社の信⽤度が低かった” 知識型説明外部知識を利⽤して説明 “もしA⽒の年収が〇〇円以上であれば審査は通っていた” 反実型説明予測を変えるために必要なことを説明 11 “A⽒の職業が〇〇だから” 因⼦型説明予測に効いた特徴を⽤いて説明

局所説明⼿法の分類 [恵⽊ 2020] 例: ローン審査をするAIが A⽒の申し込みをリジェクトしたケース予測に効いた特徴を⽤いて説明 “A⽒と類似の申込みで返済が滞った事例がある” 事例型説明
類似した訓練事例を例⽰して説明 “A⽒の会社の信⽤度が低かった” 知識型説明外部知識を利⽤して説明 “もしA⽒の年収が〇〇円以上であれば審査は通っていた” 反実型説明予測を変えるために必要なことを説明 “A⽒の職業が〇〇だから” 因⼦型説明予測に効いた特徴を⽤いて説明 12 本チュートリアルでは因⼦型説明を扱います

what is the temperature at the center of the earth
データ種別、因⼦型の局所説明の具体例表形式データの場合画像データの場合テキストデータの場合 13 ⾝⻑体重東京出⾝ 172 63 1 ⼊⼒ 𝒙 ∈ ℝ! ⾝⻑体重東京出⾝予測結果に対する各特徴の貢献度を説明貢献度 $ 𝝓 ∈ ℝ! ⾝⻑体重東京出⾝ 0.8 0.6 -0.1 貢献度 or ⼊⼒ 𝒙 ∈ ℝ"×$×% 予測結果に対する各ピクセルの貢献度を説明貢献度 $ 𝝓 ∈ ℝ$×% ⼊⼒ 𝒙 = [単語1, 単語2, ⋯ , 単語𝐷] 予測結果に対する各単語の貢献度を説明 what is the temperature at the center of the earth 貢献度 $ 𝝓 ∈ ℝ!

予測精度が⾼くても、予測結果の説明は重要 AI利⽤者視点 14 ① AIの結果に根拠が付き信⽤できるようになる ② ⾼リスクな意思決定が必要な場⾯でもAIを利⽤しやすくなる
AI開発者視点 ③ バグの発⾒やモデルの改善に繋がる ④ 不公平さをもたらすバイアスの発⾒に繋がる • 推薦システム • 検索システム • 医療画像診断 • ⾃動運転 • セキュリティ • 前処理や途中の計算で発⽣するバグ • 不必要な特徴の削除 • 職業を当てる画像認識で性別や⼈種を表す領域に注⽬していないか

事後説明器 (post-hoc explainer) 予測モデルのアクセス可能性の仮定は様々 16 ⾝⻑体重東京出⾝ 172
63 1 性別確率男性 0.79 ⼥性 0.21 ⼊⼒ 𝒙 予測に対して後付けで特徴の貢献度を説明予測モデル 𝑓(𝑥) 𝑒(𝒙; 𝑓) 事後説明器予測確率 & 𝒚 貢献度 ( 𝝓 ⾝⻑体重東京 0.8 0.6 -0.1 「性別＝男性」に対する ※予測モデルは学習済み Forward計算のみ可中間状態が得られる中間状態の微分が得られるアクセス可能性の仮定の強さ

事後説明器 (post-hoc explainer) ⾝⻑体重東京出⾝ 172 63 1
性別確率男性 0.79 ⼥性 0.21 𝑓(𝑥) 𝑒(𝒙; 𝑓) 事後説明器予測確率 & 𝒚 貢献度 ( 𝝓 ⾝⻑体重東京 0.8 0.6 -0.1 「性別＝男性」に対する • 説明のために予測モデルを変更する必要がないメリット • 説明を⽣成するために推論時に学習を必要とする場合があり、計算量が⼤きいデメリット 17 予測モデル予測に対して後付けで特徴の貢献度を説明 ※予測モデルは学習済み⼊⼒ 𝒙

説明の作り⽅による事後説明器の分類 • 摂動に基づく⽅法 − 例：LIME, KernelSHAP, MAPLE • 微分に基づく⽅法 −
例：Integrated Gradients, DeepLift, LRP, SmoothGrad • クラス活性化マップに基づく⽅法 − 例：GradCAM, GradCAM++, ScoreCAM, • オクルージョン（遮蔽）に基づく⽅法 − 例：RISE, Occlusion • アテンション（注意機構）に基づく⽅法 − 例：Attention Rollout, Attention Flow 18

摂動に基づく事後説明器: Local Interpretable Model-agnostic Explanations (LIME) 19 特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明⾝⻑
体重東京出⾝ 172 63 1 ⼊⼒ 𝒙 ⾝⻑体重東京 168 63 1 摂動させた⼊⼒ * 𝒙& 𝒛+ = [0 1 1] 𝒛, = [1 0 0] ⾝⻑体重東京 172 45 0 摂動させた⼊⼒ * 𝒙' … 摂動させた⼊⼒を𝑀個⽣成⼆値ベクトル𝒛を𝑀個⽣成 𝒛で0を持つ特徴を別の値に置き換え … 摂動させた⼊⼒に対する予測モデルの出⼒を得る 𝑓(𝑥) ( 𝒙! ( 𝒙" … … … 性別確率男性 0.59 ⼥性 0.41 予測確率 * 𝒚& 性別確率男性 0.70 ⼥性 0.30 予測確率 * 𝒚' … ステップ① ステップ② 予測モデル [Ribeiro+ 2016]

摂動に基づく事後説明器: Local Interpretable Model-agnostic Explanations (LIME) 20 特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明 𝒛から予測確率を当てる重み付き線形回帰を学習
𝑾∗ = argmin𝑾 . 12+ , 𝜋 𝒛1 0 𝒚1 − 𝑾𝒛1 3 3 + 𝜆 𝑾 3 3 ※ 𝑾はクラス数×特徴の数のサイズすべての要素が1のベクトルとの類似度 𝑾∗の𝑐⾏⽬がクラス𝑐への特徴量の貢献度となる摂動させた⼊⼒に対する予測モデルの出⼒を得る 𝑓(𝑥) ( 𝒙! ( 𝒙" … … … 性別確率男性 0.59 ⼥性 0.41 予測確率 * 𝒚& 性別確率男性 0.70 ⼥性 0.30 予測確率 * 𝒚' … ステップ② ステップ③ 予測モデル [Ribeiro+ 2016]

勾配に基づく事後説明器: Integrated Gradients 21 特徴に関する予測モデルの微分 • 出⼒が特徴の値にどの程度敏感に反応するかを評価可能 𝜕𝑓(𝒙) 𝜕𝑥4 ノイズを多く含む説明になりやすい
𝑒 𝑥; 𝑓 4 = (𝑥4 − ̅ 𝑥4 ) > 5 + 𝜕𝑓 ? 𝒙 + 𝛼(𝒙 − ? 𝒙) 𝜕𝑥4 𝑑𝛼 特徴量𝑖の貢献度: ベースライン⼊⼒ ? 𝒙 から⼊⼒ 𝒙 までの直線上で微分の積分を計算 Integrated Gradients ) 𝒙 と 𝒙 の間を補間 ※ 実際には積分をリーマン和で近似計算勾配をそのまま⽤いる問題点 [Sundararajan+ 2017]

勾配に基づく事後説明器: Integrated Gradients 22 予測モデルの出⼒に関する⼊⼒の微分は、出⼒が⼊⼒にどの程度敏感に反応するかを評価可能 𝜕𝑓(𝒙) 𝜕𝑥4 ⼊⼒ 𝒙
周辺のみだと、重要でない特徴も⼤きな微分値を持ちうる 𝑒 𝑥; 𝑓 4 = (𝑥4 − ̅ 𝑥4 ) > 5 + 𝜕𝑓 ? 𝒙 + 𝛼(𝒙 − ? 𝒙) 𝜕𝑥4 𝑑𝛼 特徴量𝑖の貢献度: ベースライン⼊⼒ ? 𝒙 から⼊⼒ 𝒙 までの直線上で微分の積分を計算コレ ) 𝒙 と 𝒙 の間を補間 • 数式が⼀番単純 • 同じ振る舞いの特徴は、特徴を⼊れ替えても貢献度が同じになる積分経路は直線以外も考えられるしかし、以下の理由で直線がベター ※ 実際には積分をリーマン和で近似計算 Integrated Gradients ちなみに [Sundararajan+ 2017]

クラス活性化マップに基づく事後⾃⼰説明器: Class Activation Mapping (CAM) 23 GradCAMの事前準備 [Zhou+ 2016]
𝑓(𝑥) 予測モデル (CNN)

Global Average Pooling (GAP) 1つの活性化マップの平均値を次の1つのニューロンの値にする 𝑤", 𝑤#, ⋯ , 𝑤$ 学習可能な重み(linear layer)

B 𝝓 = . 62+ 7 𝑤6 𝑨6 𝑨+ 𝑨3 𝑨7 B 𝝓 貢献度: (ピクセルの) GAPを⼊れてCNNの構造を変えるため精度への悪影響の可能性あり

クラス活性化マップに基づく事後説明器: Gradient-based Class Activation Map (GradCAM) 27 予測モデルの中間層の微分値を利⽤してCAMの重み 𝑤% %&"
$ を計算 𝑨+ , 𝑨3 , ⋯ , 𝑨7 予測ラベル * 𝑦 活性化マップ GAPである必要はない GradCAMの重み計算 )* + ! " )𝑨# … 活性化マップに関する 𝑓(𝑥)の微分 𝑤6 = GAP 𝜕𝑓 𝑥 8 9 𝜕𝑨6 重み: B 𝝓 = ReLU . 62+ 7 𝑤6 𝑨6 GradCAMの貢献度計算貢献度: (ピクセルの) [Selvaraju+ 2020]

オクルージョンに基づく事後説明器： Randomized Input Sampling for Explanation (RISE) 28 ランダムに多数⽣成したマスクで⼊⼒の⼀部を隠し、それを予測モデルに⼊⼒したときの出⼒から特徴の貢献度を計算
𝒙 ⊙ 𝑀( ( 𝝓 𝒙 𝑀( ! 𝜙- ← 𝑒 𝒙; 𝑓 - ∝ ) ./0 1 𝑓(𝒙 ⊙ 𝑀.) ⋅ 𝑀-. 特徴𝑖の貢献度: マスクされた⼊⼒特徴𝑖が使われたか(1 or 0) RISEの貢献度計算 [Petsiuk+ 2018]

オクルージョンに基づく事後説明器： Randomized Input Sampling for Explanation (RISE) 𝒙 ⊙ 𝑀(
( 𝝓 𝒙 𝑀( ! 𝜙- ← 𝑒 𝒙; 𝑓 - ∝ ) ./0 1 𝑓(𝒙 ⊙ 𝑀.) ⋅ 𝑀-. 特徴𝑖の貢献度: マスクされた⼊⼒特徴𝑖が使われたか(1 or 0) RISEの貢献度計算 29 LIMEと似ているが、逆⾏列計算が必要ないため計算が速いメリット [Petsiuk+ 2018]

事後説明器による説明の⽐較 ~可視化~ (Xpliqueを使⽤) ⼊⼒画像 Integrated Gradient GradCAM RISE LIME 解像度:
224x224

事後説明器による説明の⽐較 ~計算時間~ 31 (Xpliqueを使⽤) 事後説明器 1画像あたりの平均計算時間(秒) ハイパーパラメータ LIME 3.91
摂動させた⼊⼒の数: 2000 Integrated Grad. 3.42 近似グリッド点の数: 80 GradCAM 0.25 RISE 1.35 マスクの数: 2000 ハイパーパラメータ次第で計算時間は変わる LIME, Integrated Grad., RISEは、計算時間と説明の質がトレードオフ実験環境: Google Collaboratory (GPU: Tesla T4)

アテンションに基づく事後説明器：Attention Rollout 32 （Transformer⽤） Attention weight 𝑨 ∈ ℝ#×# http://jalammar.github.io/illustrated-transformer
から図を引⽤ Attention weight 𝑨 ∈ ℝ<×< は特徴(単語)の埋め込みベクトル 𝑽 ∈ ℝ<×> に重み付けする役割 ※ 𝑁: 単語列の⻑さ+1 𝐷: 次元数 <cls>の埋め込みベクトルに作⽤するAttention weightを⾒れば分類に効いている特徴が分かりそう可視化すると、⼊⼒に近い層の𝑨は有効な値を持つが、出⼒に近い層ではほぼ⼀定層の深さ 𝑙 モデル全体で特徴の効き⽅を説明するにはどうするか？ [Abnar+ 2020]

アテンションに基づく事後説明器：Attention Rollout 𝐿 = 1 𝐿 = 2 … 𝐿
= 6 ⽣の Attention 0.69 0.10 … 0.29 Attention Rollout 0.32 0.38 … 0.71 33 （Transformer⽤） / 𝑨(8) = 𝑨(0)𝑨(9) ⋯ 𝑨(8) Attention Rollout 1層⽬から𝐿層⽬までattention weight 𝑨(?)を繰り返し掛ける ※ 𝑙: 層のインデックス - 𝑨(()の<cls>に対する値が特徴の貢献度となる “key”にアテンションが当たっている “the key to the cabinets”の次に来る動詞が単数形か複数形かを当てる問題 Blank-outで測る単語の重要度と Attentionを⽤いた単語の重要度の相関 [Abnar+ 2020]

説明の定量評価説明を利⽤する実際のタスクで⼈間が評価「実⽤」に根ざした評価説明を⽤いる簡単なタスクを⼈間が⾏って評価「⼈間」に根ざした評価 35 (Application-grounded Evaluation) (Human-grounded Evaluation)
評価コストが⾼いが、実際のタスクを持っている場合は最も効果的例: 説明を⾒ながら予測モデルの出⼒を⽬的の値に近づけるゲームを⼈が⾏い何ステップで達成できるかを評価例: 推薦理由を説明できる推薦システムで、商品購⼊確率を評価 [Doshi-Velez+ 2017]

「⼈間」に根ざした評価の例できるだけ少ないステップ数で⽬標の値に近づけるゲーム 36 現在の予測値に対する特徴の貢献度⽬標の値の範囲現在の予測値ステップ数 [Plumb+
ʻ19]の実験を元に吉川が再実装

説明の定量評価説明を利⽤する実際のタスクで⼈間が評価「実⽤」に根ざした評価説明を⽤いる簡単なタスクを⼈間が⾏って評価「⼈間」に根ざした評価⼈間を介さず、機械が⾃動的に説明を評価できる代理タスクを使⽤「機能」に根ざした評価 37 (Application-grounded Evaluation)
(Human-grounded Evaluation) (Functionally-grounded Evaluation) 評価コストが⾼いが、実際のタスクを持っている場合は最も効果的例: 説明を⾒ながら予測モデルの出⼒を⽬的の値に近づけるゲームを⼈が⾏い何ステップで達成できるかを評価簡単でコストがかからないため、論⽂中の定量評価の多くがこのタイプ例: 推薦理由を説明できる推薦システムで、商品購⼊確率を評価 [Doshi-Velez+ 2017]

「機能」に根ざした評価の例 • Faithfulness / Fidelity (忠実性) − 予測モデルの振る舞いを説明が忠実に表現しているか • Stability
(安定性) − 近傍事例に対して説明が安定しているか • Consistency (⼀貫性) − 同じ⼊⼒に対して同じ説明を出⼒できるか • Compactness / Sparseness (簡潔さ) − 簡単な説明（貢献度の⾮ゼロ成分が少ない）になっているか 38

⾃⼰説明可能な予測モデル (self-explainable models) • 予測に対して忠実な説明を⽣成しやすい • 事後説明器に⽐べると推論時に速い 40
予測モデル⾃⾝が特徴の貢献度を説明できる⾝⻑体重東京出⾝ 172 63 1 性別確率男性 0.79 ⼥性 0.21 特徴量 𝒙 ⾃⼰説明可能な予測モデル 𝑓(𝑥) 予測確率 & 𝒚 貢献度 ( 𝝓 ⾝⻑体重東京 0.8 0.6 -0.1 「性別＝男性」に対する通常の教師データを⽤いて予測モデルを学習メリット • 事後説明器とは異なり予測モデルを変えるので予測精度が悪くなる可能性があるデメリット推論フロー

Self-Explaining Neural Networks (SENN) 41 NNがコンセプト特徴とその関連度を⽣成して予測と説明を⾏う⼊⼒ 𝒙 ℎ(⋅) 𝜃(⋅)
コンセプト変換器関連度変換器関連度 𝜃(𝒙) コンセプト表現 ℎ(𝒙) 内積で予測 5 𝑦 = 𝑓 𝑥 推論フロー = 𝜃 𝒙 *ℎ(𝒙) 𝜃(𝑥)の可視化 C3がプラスに効いているのが分かる各コンセプトの代表例 [Alvarez+ 2018]

Self-Explaining Neural Networks (SENN) 42 NNがコンセプト特徴とその関連度を⽣成して予測と説明を⾏う⼊⼒ 𝒙 ℎ(⋅) 𝜃(⋅)
コンセプト変換器関連度変換器関連度 𝜃(𝒙) コンセプト表現 ℎ(𝒙) 内積で予測 5 𝑦 = 𝑓 𝑥 学習フロー = 𝜃 𝒙 *ℎ(𝒙) ℎ(𝑥)から𝑥の復元ロス予測ロス 𝜃(𝑥)の正則化 argmin<,> ℒ? 𝑓 𝒙 , 𝑦 + 𝜆ℒ< 𝑓 𝒙 + 𝜉ℒ> 𝒙, ? 𝒙 ℒ+ ℒ, ℒ- 最適化問題: Backward [Alvarez+ 2018]

メリットデメリット説明による正則化付き予測モデル最適化 44 事後説明器による説明の評価スコアが良くなるように予測モデルを学習性別確率男性 0.79 ⼥性
0.21 ⼊⼒ 𝒙 予測確率 & 𝒚 貢献度 ( 𝝓 ⾝⻑体重東京 0.8 0.6 -0.1 「性別＝男性」に対する⾝⻑体重東京出⾝ 172 63 1 予測モデル 𝑓(𝑥) 𝑒(𝒙; 𝑓) 事後説明器「機能」に根づいた評価に基づく正則化 ▷ 忠実度 ▷ スパース度など • 予測モデルや事後説明器のアーキテクチャを変更せず説明を改善可能 • 予測モデルを変えるので予測精度が悪くなる可能性 • 学習時の計算量増⼤推論フロー

Explanation-based Optimization (ExpO) 45 LIMEによる説明のFidelityスコアが良くなるように予測モデルを学習性別確率男性 0.79 ⼥性
0.21 ⼊⼒ 𝒙 予測確率 & 𝒚 貢献度 ( 𝝓 ⾝⻑体重東京 0.8 0.6 -0.1 「性別＝男性」に対する予測モデル 𝑓(𝑥) 𝑒(𝒙; 𝑓) LIME Fidelity正則化⼊⼒𝒙の近傍点に対して、解釈モデル𝑔が予測モデル𝑓の振る舞いを精度良く再現する度合い ( 𝑔は線形回帰モデルを仮定 ) 𝔼𝒙!∼0𝒙 [ 𝑓 𝒙1 − 𝑔 𝒙1 # ] Fidelity Ω 𝑓, 𝑔, 𝑁𝒙 = 𝔼𝒙!∼$𝒙 [ 𝑓 𝒙% − 𝑔 𝒙% & ] 予測ロス ℒ(𝑦, & 𝒚) Backward Fidelityスコア: ※ 𝑁𝒙 … ⼊⼒𝒙の近傍点集合定量化 (低い⽅が良い) ※ 線形回帰𝑔の係数として( 𝝓を利⽤学習フロー [Plumb+ ʻ19]

説明は⼈のためか？ • 予測モデルを忠実に説明することを⽬的としている • User Studyで⼈が評価することはある 46 ここまで紹介した説明⼿法には全く⼈が登場しない⼈にわかりやすい説明を⽬的としたXAIは
Human-Centered XAI (HCXAI) と呼ばれる

説明の教師データを利⽤した予測モデル最適化タイプ① 説明そのものを変化させる 48 性別確率男性 0.79 ⼥性 0.21
⼊⼒ 𝒙 予測確率 & 𝒚 貢献度 ( 𝝓 ⾝⻑体重出⾝ 0.8 0.6 -0.1 「性別＝男性」に対する予測モデル 𝑓(𝑥) 𝑒(𝒙; 𝑓) 勾配ベース説明器予測ロス ℒ(𝑦, & 𝒚) Backward 𝑨 ∈ 0,1 A … 𝑑番⽬の特徴が必要(𝐴2 = 0)か、不必要(𝐴2 = 1)か説明の教師データ min L ℒ 𝑦, U 𝑦 + 𝛼 . M 𝐴M 𝜕 𝜕𝑥M log 𝑓 𝑥 9 3 解く問題：勾配による𝑑番⽬の特徴の貢献度説明の教師データによるロス 𝛼 ' # 𝐴# 𝜕 𝜕𝑥# log 𝑓 𝑥 $ % 学習フロー [Ross+ 2017]

説明の教師データを利⽤した予測モデル最適化タイプ② 説明の教師データを利⽤して⼊⼒を変える 49 性別確率男性 0.79 ⼥性 0.21
⼊⼒ 𝒙 予測確率 & 𝒚 予測モデル 𝑓(𝑥) 予測ロス ℒ(𝑦, & 𝒚) Backward 𝑨 ∈ 0,1 3 … 𝑑番⽬の特徴が必要(𝐴% = 0)か、不必要(𝐴% = 1)か説明の教師データ min L ℒ 𝑦, Y 𝒚 + 𝛼KL 𝑓(𝒙)||𝑓(mask(𝒙; 𝑨) ) 解く問題： 𝒙とmask 𝒙; 𝑨 の予測の不⼀致度 mask 𝒙; 𝑨 … 𝐴2 = 1となる特徴をマスク (例: 𝑥2 = 0) する関数⼈が必要だと思う特徴のみを利⽤して予測モデルが予測するので説明器も影響を受けて、その特徴に対して⼤きな貢献度を出⼒しやすくなる性別確率男性 0.54 ⼥性 0.46 予測確率 * 𝒚 mask 𝒙; 𝑨 KL 𝑓(𝒙)||𝑓(mask(𝒙; 𝑨) ) 学習フロー [Ismail+ 2021]

パラメータ化説明器: 事後説明器の振る舞いを学習⼊⼒ 𝒙 予測確率 & 𝒚 貢献度 𝝓∗ ⾝⻑
体重東京 0.8 0.6 -0.1 「性別＝男性」に対する予測モデル (固定) 𝑓(𝑥) 𝑒(𝒙; 𝑓) 事後説明器 𝝓∗と( 𝝓の不⼀致度ロス ℰ(𝒙; 𝑓) パラメータ化説明器予測貢献度 ( 𝝓 ⾝⻑体重東京 0.7 0.5 -0.2 学習フロー推論では、事後説明器の代わりに学習したパラメータ化説明器を⽤いる • 1事例に依存しないため説明が安定 • 推論時に⾼速メリット • 教師データを⽤いた訓練が必要デメリット (事後説明器との⽐較) Backward 51 [Situ+ 2021]

説明は⼈のためか？ 52 ここまで紹介した説明は⼈が⾒ることが前提再び AIが⾒ても良いのでは？ AIに説明を⾒せることでそのAIの性能を改善させること⽬的

説明による正則化付き予測モデル最適化 6. 説明の教師データを利⽤した予測モデル最適化 7. パラメータ化説明器 8. AIのための説明 9. 説明⼿法を使う上で気をつけたいこと 10.まとめ 53

パラメータ化説明器の活⽤: 効率的な「知識蒸留」を⼿助けする説明器 54 学習済み予測モデル(教師) 𝑓( (𝑥) 𝑓) (𝑥) 予測モデル(⽣徒)
予測の不⼀致度 ℒ(& 𝒚) , & 𝒚( ) 教師と⽣徒の間で予測結果だけでなく、説明が⼀致するように予測モデル(⽣徒)を学習したい ≈ ? 𝒚O ? 𝒚P ⼊⼒ 𝒙 典型的な知識蒸留 [Fernandes+ 2022]

予測の不⼀致度 ℒ(& 𝒚) , & 𝒚( ) ℰ& (𝒙; 𝑓& ) 教師のパラメータ化説明器 ℰ' (𝒙; 𝑓' ) ⽣徒のパラメータ化説明器説明の不⼀致度 ℒ*+, (( 𝝓) , ( 𝝓( ) ≈ ≈ ? 𝒚O ? 𝒚P F 𝝓O F 𝝓P ⼊⼒ 𝒙 教師と⽣徒の間で予測結果だけでなく、説明が⼀致するように予測モデル(⽣徒)を学習したい [Fernandes+ 2022]

予測の不⼀致度 ℒ(& 𝒚) , & 𝒚( ) ℰ& (𝒙; 𝑓& ) 教師のパラメータ化説明器 ℰ' (𝒙; 𝑓' ) ⽣徒のパラメータ化説明器説明の不⼀致度 ℒ*+, (( 𝝓) , ( 𝝓( ) ≈ ≈ ? 𝒚O ? 𝒚P F 𝝓O F 𝝓P 予測モデル(⽣徒)と教師・⽣徒のパラメータ化説明器が学習される Backward [Fernandes+ 2022]

説明の悪⽤: Model Inversion Attack 57 説明を利⽤して予測モデルの学習データの情報を復元する攻撃 𝑓(𝑥) 予測モデル 𝑒(𝒙; 𝑓)
説明器ブラックボックス貢献度 ( 𝝓 予測確率 & 𝒚 ⼊⼒画像 𝒙 外部から予測モデルや説明器の情報は得られない説明付きで画像認識の結果を返すAPI [Zhao+ 2021]

説明の悪⽤: Model Inversion Attack 58 説明を利⽤して予測モデルの学習データの情報を復元する攻撃 𝑓(𝑥) 予測モデル 𝑒(𝒙; 𝑓)
説明器攻撃者ブラックボックス貢献度 ( 𝝓 予測確率 & 𝒚 𝑓-(& 𝒚, ( 𝝓) 復元器復元画像 * 𝒙 ⼊⼒画像 𝒙 1. 攻撃者は、訓練画像と同じ⺟集団の⼊⼒画像にアクセス（ただし訓練画像と⼊⼒画像は異なる） 2. 予測確率Q 𝒚と貢献度S 𝝓から⼊⼒画像を復元できる復元器を学習 3. 攻撃者は、公開されていない画像の予測確率* 𝐲と貢献度S 𝛟を何らかの⽅法で得て、復元器を⽤いて⼊⼒画像を推定攻撃者の⾏動 [Zhao+ 2021]

説明の悪⽤を防ぐ: Inversion-Resistant Explanations 59 説明を利⽤して訓練データの画像を復元されないように説明を変える 𝑓(𝑥) 予測モデル 𝑒(𝒙; 𝑓) 説明器
攻撃者ブラックボックス貢献度 ( 𝝓 予測確率 & 𝒚 𝑓-(& 𝒚, ( 𝝓) 復元器復元画像 * 𝒙 ⼊⼒画像 𝒙 [Jeong+ 2022]

説明の悪⽤を防ぐ: Inversion-Resistant Explanations 説明を利⽤して訓練データの画像を復元されないように説明を変える 𝑓(𝑥) 予測モデル 𝑒(𝒙; 𝑓) 説明器攻撃者
ブラックボックス貢献度 ( 𝝓 予測確率 & 𝒚 𝑓-(& 𝒚, ( 𝝓) 復元器復元画像 * 𝒙 ⼊⼒画像 𝒙 𝑓#( ノイズ⽣成器ノイズ⽣成器 … 貢献度D 𝝓にノイズを乗せて、復元器の役に⽴たないようにする攻撃者: ノイズあり貢献度D 𝝓からでも復元できる復元器を学習防御者: 復元器の復元性能を下げるノイズ⽣成器の学習敵対的学習 60 [Jeong+ 2022]

⼤規模⾔語モデル(LLM)を説明で改善させる代理モデルの選択 Few-shot サンプル選択貢献度計算プロンプト作成 61 In-context Learning
LLMがタスクを解く前に、少数の回答例や考え⽅のヒントをプロンプトとして与え、LLMの出⼒を調整する例: 感情分類における1ショットプロンプト Review: この映画はつまらん. Sentiment: negative. Review: この映画⼤好き. Sentiment: Positive. LLM 説明をIn-context Learningで利⽤することで、LLMの出⼒を改善させる研究のゴール [Satyapriya+ 2023]

⼤規模⾔語モデル(LLM)を説明で改善させる代理モデルの選択 Few-shot サンプル選択貢献度計算プロンプト作成 62 ステップ① 代理モデルの選択
− LLMよりも軽量なモデル (GPT-2等)をLLMの代理モデルとして使⽤ステップ② Few-shotサンプル選択 − LLMが間違える検証セットのサンプルを抽出 − 誤分類確信度スコア(MCS)の⾼い順に𝑠個⼊⼒⽂を選択 [Satyapriya+ 2023]

⼤規模⾔語モデル(LLM)を説明で改善させる代理モデルの選択 Few-shot サンプル選択貢献度計算プロンプト作成 63 ステップ③ 貢献度計算
− 代理モデルを⽤いて事後説明器で正解クラスに対する単語の貢献度を計算 − 各⼊⼒⽂に対して、貢献度top-𝑘の単語を抽出ステップ④ プロンプト作成 − 貢献度top-𝑘の単語を⽤いて In-context learningするためのプロンプト作成 [Satyapriya+ 2023]

説明による正則化付き予測モデル最適化 6. 説明の教師データを利⽤した予測モデル最適化 7. パラメータ化説明器 8. AIのための説明 9. 説明⼿法を使う上で気をつけたいこと 10.まとめ 64

説明⼿法を使う上で気をつけたいこと • 説明が常に予測モデルの振る舞いを反映するとは限らない − 事後説明器は、⼈間が理解可能なモデルで予測モデルの振る舞いを近似しているので、予測モデルと説明の間でギャップは⽣まれうる • 説明が⼈間にとってわかりやすいとは限らない − 予測モデルに忠実であることは、⼈間が⾒てわかりやすいことを保証しない
− ⼈間にとってわかりやすいことを保証したい場合、説明の正解を与えて学習する必要がある • 予測モデルの「⾜かせ」になりえる − 説明による正則化付き予測モデル最適化等で説明を改善させるようにすれば、予測モデルが本来持っていた予測性能を損なう可能性がある • 説明を悪者が利⽤する可能性がある − 説明には予測モデルの内部状態の情報が含まれるため、それを悪⽤された場合に、訓練データの復元等をされる可能性がある 65

まとめ • 代表的な説明⼿法（事後説明器） − LIME, Integrated Gradients, GradCAM, RISE •
⾃⼰説明可能な予測モデル • 説明による正則化付き予測モデル最適化 • 説明の教師データを利⽤した予測モデル最適化 • パラメータ化説明器 • AIのための説明 − 効率的な知識蒸留をするための説明器 − 説明を悪⽤して⼊⼒データを復元 − ⼤規模⾔語モデルを説明で改善 66 解釈可能な機械学習〜説明は⼈のためか〜？予測モデルに忠実な説明、⼈にわかりやすい説明、AIのための説明を紹介

参考⽂献 1/2 • [恵⽊ 2020] 恵⽊正史. “XAI(eXplainable AI)技術の研究動向.” ⽇本セキュリティ・マネジメント学会誌, vol.
34, no. 1, 2020, https://www.jstage.jst.go.jp/article/jssmjournal/34/1/34_20/_pdf/-char/ja. • [Ribeiro+ 2016] Ribeiro, Marco Tulio, et al. “ʻWhy Should I Trust You?ʼ: Explaining the Predictions of Any Classifier.” arXiv:1602.04938 [cs, Stat], Feb. 2016. arXiv.org, http://arxiv.org/abs/1602.04938. • [Plumb+ 2019] Plumb, Gregory, et al. “Regularizing Black-Box Models for Improved Interpretability.” arXiv [cs.LG], 18 Feb. 2019, http://arxiv.org/abs/1902.06787. arXiv. • [Sundararajan+ 2017] Sundararajan, Mukund, et al. “Axiomatic Attribution for Deep Networks.” arXiv [cs.LG], 4 Mar. 2017, http://arxiv.org/abs/1703.01365. arXiv. • [Zhou+ 2016] Zhou, Bolei, et al. “Learning Deep Features for Discriminative Localization.” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2016, https://doi.org/10.1109/cvpr.2016.319. • [Selvaraju+ 2020] Selvaraju, Ramprasaath R., et al. “Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization.” International Journal of Computer Vision, vol. 128, no. 2, Feb. 2020, pp. 336‒59. • [Petsiuk+ 2018] Petsiuk, Vitali, et al. “RISE: Randomized Input Sampling for Explanation of Black- Box Models.” arXiv [cs.CV], 19 June 2018, http://arxiv.org/abs/1806.07421. arXiv. • [Abnar+ 2020] Abnar, Samira, and Willem Zuidema. “Quantifying Attention Flow in Transformers.” arXiv [cs.LG], May 2020, https://arxiv.org/abs/2005.00928. arXiv. • [Doshi-Velez+ 2017] Doshi-Velez, Finale, and Been Kim. “Towards A Rigorous Science of Interpretable Machine Learning.” arXiv [stat.ML], 28 Feb. 2017, http://arxiv.org/abs/1702.08608. arXiv. 67

参考⽂献 2/2 • [Alvarez+ 2018] Alvarez Melis, David, and Tommi
Jaakkola. “Towards Robust Interpretability with Self- Explaining Neural Networks.” Advances in Neural Information Processing Systems, vol. 31, 2018, https://proceedings.neurips.cc/paper/2018/hash/3e9f0fc9b2f89e043bc6233994dfcf76-Abstract.html. • [Ross+ 2017] Ross, Andrew Slavin, et al. “Right for the Right Reasons: Training Differentiable Models by Constraining Their Explanations.” Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, International Joint Conferences on Artificial Intelligence Organization, 2017, https://doi.org/10.24963/ijcai.2017/371. • [Ismail+ 2021] Ismail, Aya Abdelsalam, et al. “Improving Deep Learning Interpretability by Saliency Guided Training.” Advances in Neural Information Processing Systems, vol. 34, 2021, pp. 26726‒39. • [Situ+ 2021] Situ, Xuelin, et al. “Learning to Explain: Generating Stable Explanations Fast.” Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Association for Computational Linguistics, 2021, pp. 5340‒55. • [Fernandes+ 2022] Fernandes, Patrick, et al. “Learning to Scaffold: Optimizing Model Explanations for Teaching.” Advances in Neural Information Processing Systems, vol. 35, 2022, pp. 36108‒22. • [Zhao+ 2021] Zhao, Xuejun, et al. “Exploiting Explanations for Model Inversion Attacks.” 2021 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE, 2021, https://doi.org/10.1109/iccv48922.2021.00072. • [Jeong+ 2022] Jeong, Hoyong, et al. Learning to Generate Inversion-Resistant Model Explanations. 31 Oct. 2022, https://openreview.net/pdf?id=iy2G-yLGuku. • [Satyapriya+ 2023] Satyapriya, et al. “Post Hoc Explanations of Language Models Can Improve Language Models.” arXiv [cs.CL], 19 May 2023, http://arxiv.org/abs/2305.11426. arXiv. 68

2023年度人工知能学会全国大会 (JSAI2023) チュートリアル「解釈可能な機械学習 〜...

2023年度人工知能学会全国大会 (JSAI2023) チュートリアル「解釈可能な機械学習 〜説明は人のためか〜」

More Decks by Yuya Yoshikawa

Other Decks in Research

Featured

Transcript

2023年度人工知能学会全国大会 (JSAI2023) チュートリアル「解釈可能な機械学習〜...

2023年度人工知能学会全国大会 (JSAI2023) チュートリアル「解釈可能な機械学習〜説明は人のためか〜」