Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2023年度人工知能学会全国大会 (JSAI2023) チュートリアル「解釈可能な機械学習 〜説明は人のためか〜」

2023年度人工知能学会全国大会 (JSAI2023) チュートリアル「解釈可能な機械学習 〜説明は人のためか〜」

Yuya Yoshikawa

June 08, 2023
Tweet

More Decks by Yuya Yoshikawa

Other Decks in Research

Transcript

  1. 解釈可能な機械学習
    〜 説明は⼈のためか? 〜
    千葉⼯業⼤学
    ⼈⼯知能・ソフトウェア技術研究センター
    吉川 友也
    JSAI2023 チュートリアル
    https://yuya-y.com

    View Slide

  2. ⾃⼰紹介
    最近の研究トピック
    −解釈可能な機械学習(説明可能AI)
    −動作認識
    2
    吉川 友也 (よしかわ ゆうや)
    千葉⼯業⼤学
    ⼈⼯知能・ソフトウェア技術研究センター
    上席研究員
    博⼠(⼯学)
    − 2015年 奈良先端科学技術⼤学院⼤学

    View Slide

  3. 本チュートリアルの内容
    1. なぜ「解釈可能な機械学習」が必要なのか
    2. 代表的な説明⼿法(事後説明器)
    3. 説明の定量評価
    4. ⾃⼰説明可能な予測モデル
    5. 説明による正則化付き予測モデル最適化
    6. 説明の教師データを利⽤した予測モデル最適化
    7. パラメータ化説明器
    8. ??のための説明
    9. 説明⼿法を使う上で気をつけたいこと
    10.まとめ
    3

    View Slide

  4. ⾼い予測精度を出すために機械学習モデルはどんどん複雑化
    4
    0
    5
    10
    15
    20
    25
    30
    35
    40
    2018 2019 2020 2021 2022 2023
    パープレキシティ (WikiText-103)
    ⼤規模⾔語モデルの予測性能
    https://paperswithcode.com/sota/language-modelling-on-wikitext-103 から作成

    View Slide

  5. ⾼い予測精度を出すために機械学習モデルはどんどん複雑化
    5
    0.01
    0.1
    1
    10
    100
    1000
    2018 2019 2020 2021 2022
    モデルサイズ (x109)
    ⼤規模⾔語モデルのサイズ
    https://huggingface.co/blog/large-language-models から作成

    View Slide

  6. ⼀般に、複雑なモデルほど解釈しにくい
    6
    複雑度
    (精度)
    解釈性の良さ
    深層ニューラルネット
    ランダムフォレスト
    SVM
    𝑘近傍法
    決定⽊
    線形回帰
    分類ルール
    年齢<20
    Yes
    No
    ※ 解釈とは … モデルの振る舞いを理解すること

    View Slide

  7. AIの透明性と解釈性に関する社会からの要求
    7
    AIシステムについて、⼈々がどのようなときにそれと関わり結果の正当性を批判
    できるのかを理解できるようにするために、透明性を確保し責任ある情報開⽰
    を⾏うべきである。
    AIに関する経済協⼒開発機構(OECD)原則
    内閣府 ⼈間中⼼のAI社会原則
    4.1.(6) 公平性、説明責任及び透明性の原則
    2016年
    4⽉
    G7⾹川 ⼈⼯知能の開発原則の提唱
    AIネットワークシステムの動作の説明可能性及び検証可能性を確保すること。
    2019年
    3⽉
    「AI-Ready な社会」においては、(中略) 公平性及び透明性のある意思決定と
    その結果に対する説明責任(アカウンタビリティ)が適切に確保されると共に、
    技術に対する信頼性(Trust)が担保される必要がある。
    2019年
    5⽉
    EU AI規制法案 (2024年以降の発効?)
    2021年
    4⽉
    ハイリスク AI システムは、利⽤者が当該システムのアウトプットを解釈し
    かつそれを適切に使⽤することができるようにするため、当該システムの動作
    が⼗分に透明であることを確保する⽅法で、これを設計し及び開発するものと
    する。

    View Slide

  8. AIの透明性と解釈性の要求
    AIシステムについて、⼈々がどのようなときにそれと関わり結果の正当性を批判
    できるのかを理解できるようにするために、透明性を確保し責任ある情報開⽰
    を⾏うべきである。
    AIに関する経済協⼒開発機構(OECD)原則
    内閣府 ⼈間中⼼のAI社会原則
    4.1.(6) 公平性、説明責任及び透明性の原則
    G7⾹川 ⼈⼯知能の開発原則の提唱
    AIネットワークシステムの動作の説明可能性及び検証可能性を確保すること。
    2019年
    3⽉
    「AI-Ready な社会」においては、(中略) 公平性及び透明性のある意思決定と
    その結果に対する説明責任(アカ ウンタビリティ)が適切に確保されると共に、
    技術に対する信頼性(Trust)が担保される必要がある。
    2019年
    5⽉
    EU AI規制法案 (2024年施⾏予定)
    2021年
    4⽉
    ハイリスク AI システムは、利⽤者が当該システムのアウトプットを解釈し
    かつそれを適切に使⽤することができるようにするため、当該システムの動作
    が⼗分に透明であることを確保する⽅法で、これを設計し及び開発するものと
    する。
    2016年
    4⽉
    解釈可能な機械学習 または
    AIの透明性や解釈性の確保のための機械学習技術を
    と呼びます。
    解釈可能な機械学習のなかでも、
    予測において何の特徴がどのように効いたのか
    を説明する技術について紹介します。
    8
    説明可能AI (XAI)

    View Slide

  9. 事後説明
    Post-hoc explanation
    後付けの説明器が予測に対して
    特徴がどのように効くか説明
    9
    解釈可能な機械学習の分類
    ⼤域説明
    Global/model explanation
    学習した予測モデル全体で
    特徴がどのように効くか説明
    局所説明
    Local explanation
    個々の予測結果に対して
    特徴がどのように効くか説明
    ⾃⼰説明
    Ante-hoc explanation
    予測モデル⾃⾝が予測に対して
    特徴がどのように効くか説明
    予測において何の特徴がどのように効いたのかを説明する

    View Slide

  10. 事後説明
    Post-hoc explanation
    後付けの説明器が予測に対して
    特徴がどのように効くか説明
    10
    ⼤域説明
    Global/model explanation
    学習した予測モデル全体で
    特徴がどのように効くか説明
    局所説明
    Local explanation
    個々の予測結果に対して
    特徴がどのように効くか説明
    ⾃⼰説明
    Ante-hoc explanation
    予測モデル⾃⾝が予測に対して
    特徴がどのように効くか説明
    本チュートリアルでは
    ⼤域説明は扱いません
    解釈可能な機械学習の分類
    予測において何の特徴がどのように効いたのかを説明する

    View Slide

  11. 局所説明⼿法の分類 [恵⽊ 2020]
    例: ローン審査をするAIが A⽒の申し込みをリジェクトしたケース
    予測に効いた特徴を⽤いて説明
    “A⽒と類似の申込みで返済が
    滞った事例がある”
    事例型説明
    類似した訓練事例を⽰して説明
    “A⽒の会社の信⽤度が低かった”
    知識型説明
    外部知識を利⽤して説明
    “もしA⽒の年収が〇〇円以上
    であれば審査は通っていた”
    反実型説明
    予測を変えるために必要なことを説明
    11
    “A⽒の職業が〇〇だから”
    因⼦型説明
    予測に効いた特徴を⽤いて説明

    View Slide

  12. 局所説明⼿法の分類 [恵⽊ 2020]
    例: ローン審査をするAIが A⽒の申し込みをリジェクトしたケース
    予測に効いた特徴を⽤いて説明
    “A⽒と類似の申込みで返済が
    滞った事例がある”
    事例型説明
    類似した訓練事例を例⽰して説明
    “A⽒の会社の信⽤度が低かった”
    知識型説明
    外部知識を利⽤して説明
    “もしA⽒の年収が〇〇円以上
    であれば審査は通っていた”
    反実型説明
    予測を変えるために必要なことを説明
    “A⽒の職業が〇〇だから”
    因⼦型説明
    予測に効いた特徴を⽤いて説明
    12
    本チュートリアルでは
    因⼦型説明を扱います

    View Slide

  13. what is the temperature
    at the center of the earth
    データ種別、因⼦型の局所説明の具体例
    表形式データの場合
    画像データの場合
    テキストデータの場合
    13
    ⾝⻑ 体重
    東京
    出⾝
    172 63 1
    ⼊⼒ 𝒙 ∈ ℝ!








    予測結果に対する
    各特徴の貢献度を説明
    貢献度 $
    𝝓 ∈ ℝ!
    ⾝⻑ 体重
    東京
    出⾝
    0.8 0.6 -0.1
    貢献度
    or
    ⼊⼒ 𝒙 ∈ ℝ"×$×%
    予測結果に対する
    各ピクセルの貢献度を説明
    貢献度 $
    𝝓 ∈ ℝ$×%
    ⼊⼒ 𝒙 = [単語1, 単語2, ⋯ , 単語𝐷]
    予測結果に対する
    各単語の貢献度を説明
    what is the temperature
    at the center of the earth
    貢献度 $
    𝝓 ∈ ℝ!

    View Slide

  14. 予測精度が⾼くても、予測結果の説明は重要
    AI利⽤者視点
    14
    ① AIの結果に根拠が付き
    信⽤できるようになる
    ② ⾼リスクな意思決定が
    必要な場⾯でもAIを利⽤
    しやすくなる
    AI開発者視点
    ③ バグの発⾒や
    モデルの改善に繋がる
    ④ 不公平さをもたらす
    バイアスの発⾒に繋がる
    • 推薦システム
    • 検索システム • 医療画像診断
    • ⾃動運転
    • セキュリティ
    • 前処理や途中の計算で
    発⽣するバグ
    • 不必要な特徴の削除
    • 職業を当てる画像認識で
    性別や⼈種を表す領域に
    注⽬していないか

    View Slide

  15. 本チュートリアルの内容
    1. なぜ「解釈可能な機械学習」が必要なのか
    2. 代表的な説明⼿法(事後説明器)
    3. 説明の定量評価
    4. ⾃⼰説明可能な予測モデル
    5. 説明による正則化付き予測モデル最適化
    6. 説明の教師データを利⽤した予測モデル最適化
    7. パラメータ化説明器
    8. ??のための説明
    9. 説明⼿法を使う上で気をつけたいこと
    10.まとめ
    15

    View Slide

  16. 事後説明器 (post-hoc explainer)
    予測モデルのアクセス可能性の仮定は様々
    16
    ⾝⻑ 体重
    東京
    出⾝
    172 63 1
    性別 確率
    男性 0.79
    ⼥性 0.21
    ⼊⼒ 𝒙
    予測に対して後付けで特徴の貢献度を説明
    予測モデル
    𝑓(𝑥)
    𝑒(𝒙; 𝑓)
    事後説明器
    予測確率 &
    𝒚
    貢献度 (
    𝝓
    ⾝⻑ 体重 東京
    0.8 0.6 -0.1
    「性別=男性」に対する
    ※予測モデルは学習済み
    Forward計算
    のみ可
    中間状態
    が得られる
    中間状態の微分
    が得られる
    アクセス可能性の仮定の強さ

    View Slide

  17. 事後説明器 (post-hoc explainer)
    ⾝⻑ 体重
    東京
    出⾝
    172 63 1
    性別 確率
    男性 0.79
    ⼥性 0.21
    𝑓(𝑥)
    𝑒(𝒙; 𝑓)
    事後説明器
    予測確率 &
    𝒚
    貢献度 (
    𝝓
    ⾝⻑ 体重 東京
    0.8 0.6 -0.1
    「性別=男性」に対する
    • 説明のために予測モデル
    を変更する必要がない
    メリット
    • 説明を⽣成するために
    推論時に学習を必要とする
    場合があり、計算量が⼤きい
    デメリット
    17
    予測モデル
    予測に対して後付けで特徴の貢献度を説明 ※予測モデルは学習済み
    ⼊⼒ 𝒙

    View Slide

  18. 説明の作り⽅による事後説明器の分類
    • 摂動に基づく⽅法
    − 例:LIME, KernelSHAP, MAPLE
    • 微分に基づく⽅法
    − 例:Integrated Gradients, DeepLift, LRP, SmoothGrad
    • クラス活性化マップに基づく⽅法
    − 例:GradCAM, GradCAM++, ScoreCAM,
    • オクルージョン(遮蔽)に基づく⽅法
    − 例:RISE, Occlusion
    • アテンション(注意機構)に基づく⽅法
    − 例:Attention Rollout, Attention Flow
    18

    View Slide

  19. 摂動に基づく事後説明器:
    Local Interpretable Model-agnostic Explanations (LIME)
    19
    特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から
    線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明
    ⾝⻑ 体重
    東京
    出⾝
    172 63 1
    ⼊⼒ 𝒙
    ⾝⻑ 体重 東京
    168 63 1
    摂動させた⼊⼒ *
    𝒙&
    𝒛+
    = [0 1 1]
    𝒛,
    = [1 0 0] ⾝⻑ 体重 東京
    172 45 0
    摂動させた⼊⼒ *
    𝒙'

    摂動させた⼊⼒を𝑀個⽣成
    ⼆値ベクトル𝒛を𝑀個⽣成
    𝒛で0を持つ特徴を
    別の値に置き換え

    摂動させた⼊⼒に対する予測モデルの出⼒を得る
    𝑓(𝑥)
    (
    𝒙!
    (
    𝒙"



    性別 確率
    男性 0.59
    ⼥性 0.41
    予測確率 *
    𝒚&
    性別 確率
    男性 0.70
    ⼥性 0.30
    予測確率 *
    𝒚'

    ステップ①
    ステップ②
    予測モデル
    [Ribeiro+ 2016]

    View Slide

  20. 摂動に基づく事後説明器:
    Local Interpretable Model-agnostic Explanations (LIME)
    20
    特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から
    線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明
    𝒛から予測確率を当てる重み付き線形回帰を学習
    𝑾∗ = argmin𝑾
    .
    12+
    ,
    𝜋 𝒛1
    0
    𝒚1
    − 𝑾𝒛1 3
    3 + 𝜆 𝑾 3
    3
    ※ 𝑾はクラス数×特徴の数のサイズ
    すべての要素が1のベクトルとの類似度
    𝑾∗の𝑐⾏⽬がクラス𝑐への特徴量の貢献度となる
    摂動させた⼊⼒に対する予測モデルの出⼒を得る
    𝑓(𝑥)
    (
    𝒙!
    (
    𝒙"



    性別 確率
    男性 0.59
    ⼥性 0.41
    予測確率 *
    𝒚&
    性別 確率
    男性 0.70
    ⼥性 0.30
    予測確率 *
    𝒚'

    ステップ②
    ステップ③
    予測モデル
    [Ribeiro+ 2016]

    View Slide

  21. 勾配に基づく事後説明器: Integrated Gradients
    21
    特徴に関する予測モデルの微分
    • 出⼒が特徴の値にどの程度敏感に反応するかを評価可能
    𝜕𝑓(𝒙)
    𝜕𝑥4
    ノイズを多く含む説明になりやすい
    𝑒 𝑥; 𝑓 4
    = (𝑥4
    − ̅
    𝑥4
    ) >
    5
    + 𝜕𝑓 ?
    𝒙 + 𝛼(𝒙 − ?
    𝒙)
    𝜕𝑥4
    𝑑𝛼
    特徴量𝑖の貢献度:
    ベースライン⼊⼒ ?
    𝒙 から⼊⼒ 𝒙 までの直線上で微分の積分を計算
    Integrated Gradients
    )
    𝒙 と 𝒙 の間を補間
    ※ 実際には積分をリーマン和で近似計算
    勾配をそのまま⽤いる問題点
    [Sundararajan+ 2017]

    View Slide

  22. 勾配に基づく事後説明器: Integrated Gradients
    22
    予測モデルの出⼒に関する⼊⼒の微分
    は、出⼒が⼊⼒にどの程度敏感に反応するかを評価可能
    𝜕𝑓(𝒙)
    𝜕𝑥4
    ⼊⼒ 𝒙 周辺のみだと、重要でない特徴も⼤きな微分値を持ちうる
    𝑒 𝑥; 𝑓 4
    = (𝑥4
    − ̅
    𝑥4
    ) >
    5
    + 𝜕𝑓 ?
    𝒙 + 𝛼(𝒙 − ?
    𝒙)
    𝜕𝑥4
    𝑑𝛼
    特徴量𝑖の貢献度:
    ベースライン⼊⼒ ?
    𝒙 から⼊⼒ 𝒙 までの直線上で微分の積分を計算
    コレ
    )
    𝒙 と 𝒙 の間を補間
    • 数式が⼀番単純
    • 同じ振る舞いの特徴は、特徴を⼊れ替えても
    貢献度が同じになる
    積分経路は直線以外も考えられる
    しかし、以下の理由で直線がベター
    ※ 実際には積分をリーマン和で近似計算
    Integrated Gradients
    ちなみに
    [Sundararajan+ 2017]

    View Slide

  23. クラス活性化マップに基づく事後⾃⼰説明器:
    Class Activation Mapping (CAM)
    23
    GradCAMの
    事前準備 [Zhou+ 2016]
    𝑓(𝑥)
    予測モデル
    (CNN)

    View Slide

  24. クラス活性化マップに基づく事後⾃⼰説明器:
    Class Activation Mapping (CAM)
    24
    GradCAMの
    事前準備 [Zhou+ 2016]

    View Slide

  25. クラス活性化マップに基づく事後⾃⼰説明器:
    Class Activation Mapping (CAM)
    25
    GradCAMの
    事前準備 [Zhou+ 2016]
    Global Average Pooling (GAP)
    1つの活性化マップの平均値を次の1つのニューロンの値にする
    𝑤", 𝑤#, ⋯ , 𝑤$
    学習可能な重み(linear layer)

    View Slide

  26. クラス活性化マップに基づく事後⾃⼰説明器:
    Class Activation Mapping (CAM)
    26
    GradCAMの
    事前準備 [Zhou+ 2016]
    B
    𝝓 = .
    62+
    7
    𝑤6
    𝑨6
    𝑨+
    𝑨3
    𝑨7
    B
    𝝓
    貢献度:
    (ピクセルの) GAPを⼊れてCNNの構造を変えるため
    精度への悪影響の可能性あり

    View Slide

  27. クラス活性化マップに基づく事後説明器:
    Gradient-based Class Activation Map (GradCAM)
    27
    予測モデルの中間層の微分値を利⽤してCAMの重み 𝑤% %&"
    $ を計算
    𝑨+
    , 𝑨3
    , ⋯ , 𝑨7
    予測ラベル *
    𝑦
    活性化マップ
    GAPである
    必要はない
    GradCAMの重み計算
    )* + !
    "
    )𝑨#

    活性化マップに関する
    𝑓(𝑥)の微分
    𝑤6
    = GAP
    𝜕𝑓 𝑥 8
    9
    𝜕𝑨6
    重み:
    B
    𝝓 = ReLU .
    62+
    7
    𝑤6
    𝑨6
    GradCAMの貢献度計算
    貢献度:
    (ピクセルの)
    [Selvaraju+ 2020]

    View Slide

  28. オクルージョンに基づく事後説明器:
    Randomized Input Sampling for Explanation (RISE)
    28
    ランダムに多数⽣成したマスクで⼊⼒の⼀部を隠し、
    それを予測モデルに⼊⼒したときの出⼒から特徴の貢献度を計算
    𝒙 ⊙ 𝑀(
    (
    𝝓
    𝒙
    𝑀(
    !
    𝜙- ← 𝑒 𝒙; 𝑓 - ∝ )
    ./0
    1
    𝑓(𝒙 ⊙ 𝑀.) ⋅ 𝑀-.
    特徴𝑖の貢献度:
    マスクされた⼊⼒
    特徴𝑖が使われたか(1 or 0)
    RISEの貢献度計算
    [Petsiuk+ 2018]

    View Slide

  29. オクルージョンに基づく事後説明器:
    Randomized Input Sampling for Explanation (RISE)
    𝒙 ⊙ 𝑀(
    (
    𝝓
    𝒙
    𝑀(
    !
    𝜙- ← 𝑒 𝒙; 𝑓 - ∝ )
    ./0
    1
    𝑓(𝒙 ⊙ 𝑀.) ⋅ 𝑀-.
    特徴𝑖の貢献度:
    マスクされた⼊⼒
    特徴𝑖が使われたか(1 or 0)
    RISEの貢献度計算
    29
    LIMEと似ているが、逆⾏列計算が必要ないため計算が速い
    メリット
    [Petsiuk+ 2018]

    View Slide

  30. 事後説明器による説明の⽐較 ~可視化~ (Xpliqueを使⽤)
    ⼊⼒画像
    Integrated Gradient
    GradCAM RISE
    LIME
    解像度: 224x224

    View Slide

  31. 事後説明器による説明の⽐較 ~計算時間~
    31
    (Xpliqueを使⽤)
    事後説明器
    1画像あたりの
    平均計算時間(秒)
    ハイパーパラメータ
    LIME 3.91 摂動させた⼊⼒の数: 2000
    Integrated Grad. 3.42 近似グリッド点の数: 80
    GradCAM 0.25
    RISE 1.35 マスクの数: 2000
    ハイパーパラメータ次第で計算時間は変わる
    LIME, Integrated Grad., RISEは、計算時間と説明の質がトレードオフ
    実験環境: Google Collaboratory (GPU: Tesla T4)

    View Slide

  32. アテンションに基づく事後説明器:Attention Rollout
    32
    (Transformer⽤)
    Attention weight 𝑨 ∈ ℝ#×#
    http://jalammar.github.io/illustrated-transformer から図を引⽤
    Attention weight 𝑨 ∈ ℝ<×< は
    特徴(単語)の埋め込みベクトル
    𝑽 ∈ ℝ<×> に重み付けする役割
    ※ 𝑁: 単語列の⻑さ+1 𝐷: 次元数
    の埋め込みベクトルに作⽤するAttention weightを⾒れば
    分類に効いている特徴が分かりそう
    可視化すると、⼊⼒に近い層の𝑨は有効な
    値を持つが、出⼒に近い層ではほぼ⼀定




    𝑙
    モデル全体で特徴の効き⽅を説明
    するにはどうするか?
    [Abnar+ 2020]

    View Slide

  33. アテンションに基づく事後説明器:Attention Rollout
    𝐿 = 1 𝐿 = 2 … 𝐿 = 6
    ⽣の
    Attention
    0.69 0.10 … 0.29
    Attention
    Rollout
    0.32 0.38 … 0.71
    33
    (Transformer⽤)
    /
    𝑨(8) = 𝑨(0)𝑨(9) ⋯ 𝑨(8)
    Attention Rollout
    1層⽬から𝐿層⽬までattention weight 𝑨(?)を繰り返し掛ける
    ※ 𝑙: 層のインデックス
    -
    𝑨(()のに対する値が特徴の貢献度となる
    “key”にアテンションが当たっている
    “the key to the cabinets”の次に来る動詞が
    単数形か複数形かを当てる問題
    Blank-outで測る単語の重要度と
    Attentionを⽤いた単語の重要度の相関
    [Abnar+ 2020]

    View Slide

  34. 本チュートリアルの内容
    1. なぜ「解釈可能な機械学習」が必要なのか
    2. 代表的な説明⼿法(事後説明器)
    3. 説明の定量評価
    4. ⾃⼰説明可能な予測モデル
    5. 説明による正則化付き予測モデル最適化
    6. 説明の教師データを利⽤した予測モデル最適化
    7. パラメータ化説明器
    8. ??のための説明
    9. 説明⼿法を使う上で気をつけたいこと
    10.まとめ
    34

    View Slide

  35. 説明の定量評価
    説明を利⽤する実際のタスクで⼈間が評価
    「実⽤」に根ざした評価
    説明を⽤いる簡単なタスクを⼈間が⾏って評価
    「⼈間」に根ざした評価
    35
    (Application-grounded Evaluation)
    (Human-grounded Evaluation)
    評価コストが⾼いが、実際のタスクを持っている場合は最も効果的
    例: 説明を⾒ながら予測モデルの出⼒を⽬的の値に近づけるゲームを⼈が⾏い
    何ステップで達成できるかを評価
    例: 推薦理由を説明できる推薦システムで、商品購⼊確率を評価
    [Doshi-Velez+ 2017]

    View Slide

  36. 「⼈間」に根ざした評価の例
    できるだけ少ないステップ数で⽬標の値に近づけるゲーム
    36
    現在の予測値
    に対する
    特徴の貢献度
    ⽬標の値の範囲
    現在の予測値 ステップ数
    [Plumb+ ʻ19]の実験を
    元に吉川が再実装

    View Slide

  37. 説明の定量評価
    説明を利⽤する実際のタスクで⼈間が評価
    「実⽤」に根ざした評価
    説明を⽤いる簡単なタスクを⼈間が⾏って評価
    「⼈間」に根ざした評価
    ⼈間を介さず、機械が⾃動的に説明を評価できる代理タスクを使⽤
    「機能」に根ざした評価
    37
    (Application-grounded Evaluation)
    (Human-grounded Evaluation)
    (Functionally-grounded Evaluation)
    評価コストが⾼いが、実際のタスクを持っている場合は最も効果的
    例: 説明を⾒ながら予測モデルの出⼒を⽬的の値に近づけるゲームを⼈が⾏い
    何ステップで達成できるかを評価
    簡単でコストがかからないため、論⽂中の定量評価の多くがこのタイプ
    例: 推薦理由を説明できる推薦システムで、商品購⼊確率を評価
    [Doshi-Velez+ 2017]

    View Slide

  38. 「機能」に根ざした評価の例
    • Faithfulness / Fidelity (忠実性)
    − 予測モデルの振る舞いを説明が忠実に表現しているか
    • Stability (安定性)
    − 近傍事例に対して説明が安定しているか
    • Consistency (⼀貫性)
    − 同じ⼊⼒に対して同じ説明を出⼒できるか
    • Compactness / Sparseness (簡潔さ)
    − 簡単な説明(貢献度の⾮ゼロ成分が少ない)になっているか
    38

    View Slide

  39. 本チュートリアルの内容
    1. なぜ「解釈可能な機械学習」が必要なのか
    2. 代表的な説明⼿法(事後説明器)
    3. 説明の定量評価
    4. ⾃⼰説明可能な予測モデル
    5. 説明による正則化付き予測モデル最適化
    6. 説明の教師データを利⽤した予測モデル最適化
    7. パラメータ化説明器
    8. ??のための説明
    9. 説明⼿法を使う上で気をつけたいこと
    10.まとめ
    39

    View Slide

  40. ⾃⼰説明可能な予測モデル (self-explainable models)
    • 予測に対して忠実な説明を
    ⽣成しやすい
    • 事後説明器に⽐べると推論
    時に速い
    40
    予測モデル⾃⾝が特徴の貢献度を説明できる
    ⾝⻑ 体重
    東京
    出⾝
    172 63 1
    性別 確率
    男性 0.79
    ⼥性 0.21
    特徴量 𝒙
    ⾃⼰説明可能な
    予測モデル
    𝑓(𝑥)
    予測確率 &
    𝒚
    貢献度 (
    𝝓
    ⾝⻑ 体重 東京
    0.8 0.6 -0.1
    「性別=男性」に対する
    通常の教師データを⽤いて
    予測モデルを学習
    メリット
    • 事後説明器とは異なり
    予測モデルを変えるので
    予測精度が悪くなる可能性
    がある
    デメリット
    推論フロー

    View Slide

  41. Self-Explaining Neural Networks (SENN)
    41
    NNがコンセプト特徴とその関連度を⽣成して予測と説明を⾏う
    ⼊⼒ 𝒙
    ℎ(⋅)
    𝜃(⋅)
    コンセプト変換器
    関連度変換器
    関連度
    𝜃(𝒙)
    コンセプト表現
    ℎ(𝒙)
    内積で予測
    5
    𝑦 = 𝑓 𝑥
    推論フロー
    = 𝜃 𝒙 *ℎ(𝒙)
    𝜃(𝑥)の可視化
    C3がプラスに
    効いているのが
    分かる
    各コンセプト
    の代表例
    [Alvarez+ 2018]

    View Slide

  42. Self-Explaining Neural Networks (SENN)
    42
    NNがコンセプト特徴とその関連度を⽣成して予測と説明を⾏う
    ⼊⼒ 𝒙
    ℎ(⋅)
    𝜃(⋅)
    コンセプト変換器
    関連度変換器
    関連度
    𝜃(𝒙)
    コンセプト表現
    ℎ(𝒙)
    内積で予測
    5
    𝑦 = 𝑓 𝑥
    学習フロー
    = 𝜃 𝒙 *ℎ(𝒙)
    ℎ(𝑥)から𝑥の
    復元ロス
    予測ロス
    𝜃(𝑥)の
    正則化
    argmin<,> ℒ? 𝑓 𝒙 , 𝑦 + 𝜆ℒ< 𝑓 𝒙 + 𝜉ℒ> 𝒙, ?
    𝒙
    ℒ+
    ℒ,
    ℒ-
    最適化問題:
    Backward
    [Alvarez+ 2018]

    View Slide

  43. 本チュートリアルの内容
    1. なぜ「解釈可能な機械学習」が必要なのか
    2. 代表的な説明⼿法(事後説明器)
    3. 説明の定量評価
    4. ⾃⼰説明可能な予測モデル
    5. 説明による正則化付き予測モデル最適化
    6. 説明の教師データを利⽤した予測モデル最適化
    7. パラメータ化説明器
    8. ??のための説明
    9. 説明⼿法を使う上で気をつけたいこと
    10.まとめ
    43

    View Slide

  44. メリット デメリット
    説明による正則化付き予測モデル最適化
    44
    事後説明器による説明の評価スコアが良くなるように予測モデルを学習
    性別 確率
    男性 0.79
    ⼥性 0.21
    ⼊⼒ 𝒙
    予測確率 &
    𝒚
    貢献度 (
    𝝓
    ⾝⻑ 体重 東京
    0.8 0.6 -0.1
    「性別=男性」に対する
    ⾝⻑ 体重
    東京
    出⾝
    172 63 1
    予測モデル
    𝑓(𝑥)
    𝑒(𝒙; 𝑓)
    事後説明器
    「機能」に根づいた評価
    に基づく正則化
    ▷ 忠実度
    ▷ スパース度 など
    • 予測モデルや事後説明器の
    アーキテクチャを変更せず
    説明を改善可能
    • 予測モデルを変えるので
    予測精度が悪くなる可能性
    • 学習時の計算量増⼤
    推論フロー

    View Slide

  45. Explanation-based Optimization (ExpO)
    45
    LIMEによる説明のFidelityスコアが良くなるように予測モデルを学習
    性別 確率
    男性 0.79
    ⼥性 0.21
    ⼊⼒
    𝒙
    予測確率 &
    𝒚
    貢献度 (
    𝝓
    ⾝⻑ 体重 東京
    0.8 0.6 -0.1
    「性別=男性」に対する
    予測モデル
    𝑓(𝑥)
    𝑒(𝒙; 𝑓)
    LIME
    Fidelity正則化
    ⼊⼒𝒙の近傍点に対して、解釈モデル𝑔が予測モデル𝑓の振る舞いを
    精度良く再現する度合い ( 𝑔は線形回帰モデルを仮定 )
    𝔼𝒙!∼0𝒙
    [ 𝑓 𝒙1 − 𝑔 𝒙1 #
    ]
    Fidelity
    Ω 𝑓, 𝑔, 𝑁𝒙
    =
    𝔼𝒙!∼$𝒙
    [ 𝑓 𝒙% − 𝑔 𝒙% &
    ]
    予測ロス
    ℒ(𝑦, &
    𝒚)
    Backward
    Fidelityスコア: ※ 𝑁𝒙
    … ⼊⼒𝒙の近傍点集合
    定量化
    (低い⽅が良い)
    ※ 線形回帰𝑔の係数
    として(
    𝝓を利⽤
    学習フロー
    [Plumb+ ʻ19]

    View Slide

  46. 説明は⼈のためか?
    • 予測モデルを忠実に説明することを⽬的としている
    • User Studyで⼈が評価することはある
    46
    ここまで紹介した説明⼿法には 全く⼈が登場しない
    ⼈にわかりやすい説明を⽬的としたXAIは
    Human-Centered XAI (HCXAI)
    と呼ばれる

    View Slide

  47. 本チュートリアルの内容
    1. なぜ「解釈可能な機械学習」が必要なのか
    2. 代表的な説明⼿法(事後説明器)
    3. 説明の定量評価
    4. ⾃⼰説明可能な予測モデル
    5. 説明による正則化付き予測モデル最適化
    6. 説明の教師データを利⽤した予測モデル最適化
    7. パラメータ化説明器
    8. ??のための説明
    9. 説明⼿法を使う上で気をつけたいこと
    10.まとめ
    47

    View Slide

  48. 説明の教師データを利⽤した予測モデル最適化
    タイプ① 説明そのものを変化させる
    48
    性別 確率
    男性 0.79
    ⼥性 0.21
    ⼊⼒
    𝒙
    予測確率 &
    𝒚
    貢献度 (
    𝝓
    ⾝⻑ 体重 出⾝
    0.8 0.6 -0.1
    「性別=男性」に対する
    予測モデル
    𝑓(𝑥)
    𝑒(𝒙; 𝑓)
    勾配ベース
    説明器
    予測ロス
    ℒ(𝑦, &
    𝒚)
    Backward
    𝑨 ∈ 0,1 A … 𝑑番⽬の特徴が必要(𝐴2 = 0)か、不必要(𝐴2 = 1)か
    説明の教師データ
    min
    L
    ℒ 𝑦, U
    𝑦 + 𝛼 .
    M
    𝐴M
    𝜕
    𝜕𝑥M
    log 𝑓 𝑥 9
    3
    解く問題:
    勾配による𝑑番⽬の特徴の貢献度
    説明の教師データによる
    ロス
    𝛼 '
    #
    𝐴#
    𝜕
    𝜕𝑥#
    log 𝑓 𝑥 $
    %
    学習フロー
    [Ross+ 2017]

    View Slide

  49. 説明の教師データを利⽤した予測モデル最適化
    タイプ② 説明の教師データを利⽤して⼊⼒を変える
    49
    性別 確率
    男性 0.79
    ⼥性 0.21
    ⼊⼒
    𝒙
    予測確率 &
    𝒚
    予測モデル
    𝑓(𝑥)
    予測ロス
    ℒ(𝑦, &
    𝒚)
    Backward
    𝑨 ∈ 0,1 3 … 𝑑番⽬の特徴が必要(𝐴%
    = 0)か、不必要(𝐴%
    = 1)か
    説明の教師データ
    min
    L
    ℒ 𝑦, Y
    𝒚 + 𝛼KL 𝑓(𝒙)||𝑓(mask(𝒙; 𝑨) )
    解く問題:
    𝒙とmask 𝒙; 𝑨 の予測の不⼀致度
    mask 𝒙; 𝑨 … 𝐴2 = 1となる特徴をマスク (例: 𝑥2 = 0) する関数
    ⼈が必要だと思う特徴のみを利⽤して予測モデルが予測するので
    説明器も影響を受けて、その特徴に対して⼤きな貢献度を出⼒しやすくなる
    性別 確率
    男性 0.54
    ⼥性 0.46
    予測確率 *
    𝒚
    mask 𝒙; 𝑨
    KL 𝑓(𝒙)||𝑓(mask(𝒙; 𝑨) )
    学習フロー
    [Ismail+ 2021]

    View Slide

  50. 本チュートリアルの内容
    1. なぜ「解釈可能な機械学習」が必要なのか
    2. 代表的な説明⼿法(事後説明器)
    3. 説明の定量評価
    4. ⾃⼰説明可能な予測モデル
    5. 説明による正則化付き予測モデル最適化
    6. 説明の教師データを利⽤した予測モデル最適化
    7. パラメータ化説明器
    8. ??のための説明
    9. 説明⼿法を使う上で気をつけたいこと
    10.まとめ
    50

    View Slide

  51. パラメータ化説明器: 事後説明器の振る舞いを学習
    ⼊⼒ 𝒙
    予測確率 &
    𝒚
    貢献度 𝝓∗
    ⾝⻑ 体重 東京
    0.8 0.6 -0.1
    「性別=男性」に対する
    予測モデル
    (固定)
    𝑓(𝑥)
    𝑒(𝒙; 𝑓)
    事後説明器
    𝝓∗と(
    𝝓の
    不⼀致度ロス
    ℰ(𝒙; 𝑓)
    パラメータ化説明器
    予測貢献度 (
    𝝓
    ⾝⻑ 体重 東京
    0.7 0.5 -0.2
    学習フロー
    推論では、事後説明器の代わりに学習したパラメータ化説明器を⽤いる
    • 1事例に依存しないため
    説明が安定
    • 推論時に⾼速
    メリット
    • 教師データを⽤いた
    訓練が必要
    デメリット
    (事後説明器との⽐較)
    Backward
    51
    [Situ+ 2021]

    View Slide

  52. 説明は⼈のためか?
    52
    ここまで紹介した説明は⼈が⾒ることが前提


    AIが⾒ても良いのでは?
    AIに説明を⾒せることでそのAIの性能を改善させること
    ⽬的

    View Slide

  53. 本チュートリアルの内容
    1. なぜ「解釈可能な機械学習」が必要なのか
    2. 代表的な説明⼿法(事後説明器)
    3. 説明の定量評価
    4. ⾃⼰説明可能な予測モデル
    5. 説明による正則化付き予測モデル最適化
    6. 説明の教師データを利⽤した予測モデル最適化
    7. パラメータ化説明器
    8. AIのための説明
    9. 説明⼿法を使う上で気をつけたいこと
    10.まとめ
    53

    View Slide

  54. パラメータ化説明器の活⽤:
    効率的な「知識蒸留」を⼿助けする説明器
    54
    学習済み
    予測モデル(教師)
    𝑓(
    (𝑥)
    𝑓)
    (𝑥)
    予測モデル(⽣徒)
    予測の不⼀致度
    ℒ(&
    𝒚)
    , &
    𝒚(
    )
    教師と⽣徒の間で予測結果だけでなく、
    説明が⼀致するように予測モデル(⽣徒)を学習したい

    ?
    𝒚O
    ?
    𝒚P
    ⼊⼒
    𝒙 典型的な知識蒸留
    [Fernandes+ 2022]

    View Slide

  55. パラメータ化説明器の活⽤:
    効率的な「知識蒸留」を⼿助けする説明器
    55
    学習済み
    予測モデル(教師)
    𝑓(
    (𝑥)
    𝑓)
    (𝑥)
    予測モデル(⽣徒)
    予測の不⼀致度
    ℒ(&
    𝒚)
    , &
    𝒚(
    )
    ℰ&
    (𝒙; 𝑓&
    )
    教師の
    パラメータ化説明器
    ℰ'
    (𝒙; 𝑓'
    )
    ⽣徒の
    パラメータ化説明器
    説明の不⼀致度
    ℒ*+,
    ((
    𝝓)
    , (
    𝝓(
    )


    ?
    𝒚O
    ?
    𝒚P
    F
    𝝓O
    F
    𝝓P
    ⼊⼒
    𝒙
    教師と⽣徒の間で予測結果だけでなく、
    説明が⼀致するように予測モデル(⽣徒)を学習したい
    [Fernandes+ 2022]

    View Slide

  56. パラメータ化説明器の活⽤:
    効率的な「知識蒸留」を⼿助けする説明器
    56
    学習済み
    予測モデル(教師)
    𝑓(
    (𝑥)
    𝑓)
    (𝑥)
    予測モデル(⽣徒)
    予測の不⼀致度
    ℒ(&
    𝒚)
    , &
    𝒚(
    )
    ℰ&
    (𝒙; 𝑓&
    )
    教師の
    パラメータ化説明器
    ℰ'
    (𝒙; 𝑓'
    )
    ⽣徒の
    パラメータ化説明器
    説明の不⼀致度
    ℒ*+,
    ((
    𝝓)
    , (
    𝝓(
    )


    ?
    𝒚O
    ?
    𝒚P
    F
    𝝓O
    F
    𝝓P
    予測モデル(⽣徒)と教師・⽣徒のパラメータ化説明器が学習される
    Backward
    [Fernandes+ 2022]

    View Slide

  57. 説明の悪⽤: Model Inversion Attack
    57
    説明を利⽤して予測モデルの学習データの情報を復元する攻撃
    𝑓(𝑥)
    予測モデル
    𝑒(𝒙; 𝑓)
    説明器
    ブラック
    ボックス
    貢献度 (
    𝝓
    予測確率 &
    𝒚
    ⼊⼒画像 𝒙
    外部から予測モデルや
    説明器の情報は得られない
    説明付きで画像認識
    の結果を返すAPI
    [Zhao+ 2021]

    View Slide

  58. 説明の悪⽤: Model Inversion Attack
    58
    説明を利⽤して予測モデルの学習データの情報を復元する攻撃
    𝑓(𝑥)
    予測モデル
    𝑒(𝒙; 𝑓)
    説明器
    攻撃者
    ブラック
    ボックス
    貢献度 (
    𝝓
    予測確率 &
    𝒚
    𝑓-(&
    𝒚, (
    𝝓)
    復元器 復元画像 *
    𝒙
    ⼊⼒画像 𝒙
    1. 攻撃者は、訓練画像と同じ⺟集団の⼊⼒画像にアクセス
    (ただし訓練画像と⼊⼒画像は異なる)
    2. 予測確率Q
    𝒚と貢献度S
    𝝓から⼊⼒画像を復元できる復元器を学習
    3. 攻撃者は、公開されていない画像の予測確率*
    𝐲と貢献度S
    𝛟を何らか
    の⽅法で得て、復元器を⽤いて⼊⼒画像を推定
    攻撃者
    の⾏動
    [Zhao+ 2021]

    View Slide

  59. 説明の悪⽤を防ぐ: Inversion-Resistant Explanations
    59
    説明を利⽤して訓練データの画像を復元されないように説明を変える
    𝑓(𝑥)
    予測モデル
    𝑒(𝒙; 𝑓)
    説明器
    攻撃者
    ブラック
    ボックス
    貢献度 (
    𝝓
    予測確率 &
    𝒚
    𝑓-(&
    𝒚, (
    𝝓)
    復元器 復元画像 *
    𝒙
    ⼊⼒画像 𝒙
    [Jeong+ 2022]

    View Slide

  60. 説明の悪⽤を防ぐ: Inversion-Resistant Explanations
    説明を利⽤して訓練データの画像を復元されないように説明を変える
    𝑓(𝑥)
    予測モデル
    𝑒(𝒙; 𝑓)
    説明器
    攻撃者
    ブラック
    ボックス
    貢献度 (
    𝝓
    予測確率 &
    𝒚
    𝑓-(&
    𝒚, (
    𝝓)
    復元器 復元画像 *
    𝒙
    ⼊⼒画像 𝒙
    𝑓#(
    ノイズ⽣成器
    ノイズ⽣成器 … 貢献度D
    𝝓にノイズを乗せて、復元器の役に⽴たないようにする
    攻撃者: ノイズあり貢献度D
    𝝓からでも復元できる復元器を学習
    防御者: 復元器の復元性能を下げるノイズ⽣成器の学習
    敵対的
    学習
    60
    [Jeong+ 2022]

    View Slide

  61. ⼤規模⾔語モデル(LLM)を説明で改善させる
    代理モデルの
    選択
    Few-shot
    サンプル選択
    貢献度計算 プロンプト作成
    61
    In-context Learning
    LLMがタスクを解く前に、少数の回答例や考え⽅のヒントをプロンプト
    として与え、LLMの出⼒を調整する
    例: 感情分類における1ショットプロンプト
    Review: この映画はつまらん. Sentiment: negative.
    Review: この映画⼤好き. Sentiment:
    Positive.
    LLM
    説明をIn-context Learningで利⽤することで、LLMの出⼒を改善させる
    研究の
    ゴール
    [Satyapriya+ 2023]

    View Slide

  62. ⼤規模⾔語モデル(LLM)を説明で改善させる
    代理モデルの
    選択
    Few-shot
    サンプル選択
    貢献度計算 プロンプト作成
    62
    ステップ① 代理モデルの選択
    − LLMよりも軽量なモデル (GPT-2等)をLLMの代理モデルとして使⽤
    ステップ② Few-shotサンプル選択
    − LLMが間違える検証セットのサンプルを抽出
    − 誤分類確信度スコア(MCS)の⾼い順に𝑠個⼊⼒⽂を選択
    [Satyapriya+ 2023]

    View Slide

  63. ⼤規模⾔語モデル(LLM)を説明で改善させる
    代理モデルの
    選択
    Few-shot
    サンプル選択
    貢献度計算 プロンプト作成
    63
    ステップ③ 貢献度計算
    − 代理モデルを⽤いて事後説明器で
    正解クラスに対する単語の貢献度を計算
    − 各⼊⼒⽂に対して、
    貢献度top-𝑘の単語を抽出
    ステップ④ プロンプト作成
    − 貢献度top-𝑘の単語を⽤いて
    In-context learningする
    ためのプロンプト作成
    [Satyapriya+ 2023]

    View Slide

  64. 本チュートリアルの内容
    1. なぜ「解釈可能な機械学習」が必要なのか
    2. 代表的な説明⼿法(事後説明器)
    3. 説明の定量評価
    4. ⾃⼰説明可能な予測モデル
    5. 説明による正則化付き予測モデル最適化
    6. 説明の教師データを利⽤した予測モデル最適化
    7. パラメータ化説明器
    8. AIのための説明
    9. 説明⼿法を使う上で気をつけたいこと
    10.まとめ
    64

    View Slide

  65. 説明⼿法を使う上で気をつけたいこと
    • 説明が常に予測モデルの振る舞いを反映するとは限らない
    − 事後説明器は、⼈間が理解可能なモデルで予測モデルの振る舞いを近似して
    いるので、予測モデルと説明の間でギャップは⽣まれうる
    • 説明が⼈間にとってわかりやすいとは限らない
    − 予測モデルに忠実であることは、⼈間が⾒てわかりやすいことを保証しない
    − ⼈間にとってわかりやすいことを保証したい場合、説明の正解を与えて学習
    する必要がある
    • 予測モデルの「⾜かせ」になりえる
    − 説明による正則化付き予測モデル最適化等で説明を改善させるようにすれば、
    予測モデルが本来持っていた予測性能を損なう可能性がある
    • 説明を悪者が利⽤する可能性がある
    − 説明には予測モデルの内部状態の情報が含まれるため、
    それを悪⽤された場合に、訓練データの復元等をされる可能性がある
    65

    View Slide

  66. まとめ
    • 代表的な説明⼿法(事後説明器)
    − LIME, Integrated Gradients, GradCAM, RISE
    • ⾃⼰説明可能な予測モデル
    • 説明による正則化付き予測モデル最適化
    • 説明の教師データを利⽤した予測モデル最適化
    • パラメータ化説明器
    • AIのための説明
    − 効率的な知識蒸留をするための説明器
    − 説明を悪⽤して⼊⼒データを復元
    − ⼤規模⾔語モデルを説明で改善
    66
    解釈可能な機械学習 〜 説明は⼈のためか〜?
    予測モデルに忠実な説明、⼈にわかりやすい説明、AIのための説明
    を紹介

    View Slide

  67. 参考⽂献 1/2
    • [恵⽊ 2020] 恵⽊正史. “XAI(eXplainable AI)技術の研究動向.” ⽇本セキュリティ・マネジメント学会誌,
    vol. 34, no. 1, 2020, https://www.jstage.jst.go.jp/article/jssmjournal/34/1/34_20/_pdf/-char/ja.
    • [Ribeiro+ 2016] Ribeiro, Marco Tulio, et al. “ʻWhy Should I Trust You?ʼ: Explaining the Predictions
    of Any Classifier.” arXiv:1602.04938 [cs, Stat], Feb. 2016. arXiv.org,
    http://arxiv.org/abs/1602.04938.
    • [Plumb+ 2019] Plumb, Gregory, et al. “Regularizing Black-Box Models for Improved
    Interpretability.” arXiv [cs.LG], 18 Feb. 2019, http://arxiv.org/abs/1902.06787. arXiv.
    • [Sundararajan+ 2017] Sundararajan, Mukund, et al. “Axiomatic Attribution for Deep Networks.”
    arXiv [cs.LG], 4 Mar. 2017, http://arxiv.org/abs/1703.01365. arXiv.
    • [Zhou+ 2016] Zhou, Bolei, et al. “Learning Deep Features for Discriminative Localization.” 2016
    IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2016,
    https://doi.org/10.1109/cvpr.2016.319.
    • [Selvaraju+ 2020] Selvaraju, Ramprasaath R., et al. “Grad-CAM: Visual Explanations from Deep
    Networks via Gradient-Based Localization.” International Journal of Computer Vision, vol. 128, no.
    2, Feb. 2020, pp. 336‒59.
    • [Petsiuk+ 2018] Petsiuk, Vitali, et al. “RISE: Randomized Input Sampling for Explanation of Black-
    Box Models.” arXiv [cs.CV], 19 June 2018, http://arxiv.org/abs/1806.07421. arXiv.
    • [Abnar+ 2020] Abnar, Samira, and Willem Zuidema. “Quantifying Attention Flow in Transformers.”
    arXiv [cs.LG], May 2020, https://arxiv.org/abs/2005.00928. arXiv.
    • [Doshi-Velez+ 2017] Doshi-Velez, Finale, and Been Kim. “Towards A Rigorous Science of
    Interpretable Machine Learning.” arXiv [stat.ML], 28 Feb. 2017, http://arxiv.org/abs/1702.08608.
    arXiv.
    67

    View Slide

  68. 参考⽂献 2/2
    • [Alvarez+ 2018] Alvarez Melis, David, and Tommi Jaakkola. “Towards Robust Interpretability with Self-
    Explaining Neural Networks.” Advances in Neural Information Processing Systems, vol. 31, 2018,
    https://proceedings.neurips.cc/paper/2018/hash/3e9f0fc9b2f89e043bc6233994dfcf76-Abstract.html.
    • [Ross+ 2017] Ross, Andrew Slavin, et al. “Right for the Right Reasons: Training Differentiable Models by
    Constraining Their Explanations.” Proceedings of the Twenty-Sixth International Joint Conference on
    Artificial Intelligence, International Joint Conferences on Artificial Intelligence Organization, 2017,
    https://doi.org/10.24963/ijcai.2017/371.
    • [Ismail+ 2021] Ismail, Aya Abdelsalam, et al. “Improving Deep Learning Interpretability by Saliency Guided
    Training.” Advances in Neural Information Processing Systems, vol. 34, 2021, pp. 26726‒39.
    • [Situ+ 2021] Situ, Xuelin, et al. “Learning to Explain: Generating Stable Explanations Fast.” Proceedings of
    the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint
    Conference on Natural Language Processing (Volume 1: Long Papers), Association for Computational
    Linguistics, 2021, pp. 5340‒55.
    • [Fernandes+ 2022] Fernandes, Patrick, et al. “Learning to Scaffold: Optimizing Model Explanations for
    Teaching.” Advances in Neural Information Processing Systems, vol. 35, 2022, pp. 36108‒22.
    • [Zhao+ 2021] Zhao, Xuejun, et al. “Exploiting Explanations for Model Inversion Attacks.” 2021 IEEE/CVF
    International Conference on Computer Vision (ICCV), IEEE, 2021,
    https://doi.org/10.1109/iccv48922.2021.00072.
    • [Jeong+ 2022] Jeong, Hoyong, et al. Learning to Generate Inversion-Resistant Model Explanations. 31 Oct.
    2022, https://openreview.net/pdf?id=iy2G-yLGuku.
    • [Satyapriya+ 2023] Satyapriya, et al. “Post Hoc Explanations of Language Models Can Improve Language
    Models.” arXiv [cs.CL], 19 May 2023, http://arxiv.org/abs/2305.11426. arXiv.
    68

    View Slide

  69. 69

    View Slide