Slide 1

Slide 1 text

説明可能AI: 代表的⼿法と最近の動向 千葉⼯業⼤学 ⼈⼯知能・ソフトウェア技術研究センター 吉川 友也 https://yuya-y.com 第21回ディペンダブルシステムワークショップ

Slide 2

Slide 2 text

⾃⼰紹介 最近の研究トピック −説明可能AI (解釈可能な機械学習) −動作認識 2 吉川 友也 (よしかわ ゆうや) 千葉⼯業⼤学 ⼈⼯知能・ソフトウェア技術研究センター 上席研究員 博⼠(⼯学) − 2015年 奈良先端科学技術⼤学院⼤学

Slide 3

Slide 3 text

前提知識:ニューラルネットを⽤いた教師あり学習 3 ゴール … !を与えたら"を出⼒してくれるモデル#! の構築 ⼊⼒ ! モデル #! 出⼒ "

Slide 4

Slide 4 text

前提知識:ニューラルネットを⽤いた教師あり学習 4 ⼊⼒ ! モデル #! 出⼒ " 年収予測の例 勤続 年数 会社 規模 東京 在住 5 325 1 年収 562.6 ゴール … !を与えたら"を出⼒してくれるモデル#! の構築

Slide 5

Slide 5 text

前提知識:ニューラルネットを⽤いた教師あり学習 5 ⼊⼒ ! モデル #! 出⼒ " 画像分類の例 0 1 0 0 イヌ ネコ ⾃動⾞ ⼈ ゴール … !を与えたら"を出⼒してくれるモデル#! の構築

Slide 6

Slide 6 text

前提知識:ニューラルネットを⽤いた教師あり学習 6 教師あり学習 … ⼊⼒ ! モデル #! 出⼒ " !から"を出⼒できるようにモデル#のパラメータ&を 多数の(!, ")ペアを⽤いて学習 回帰問題 ("が連続値)の場合: &∗ = argmin! 1 #,% ∈' " − #! ! ( を確率的勾配降下法で求める ゴール … !を与えたら"を出⼒してくれるモデル#! の構築

Slide 7

Slide 7 text

前提知識:ニューラルネットを⽤いた教師あり学習 7 ⼊⼒ ! モデル #! 出⼒ " モデル#! … (深層)ニューラルネット 例: 多層パーセプトロン ⼊⼒ 出⼒ パラメータ!はネットワークの 各辺に付く ⾮線形変換を何回も繰り返す ゴール … !を与えたら"を出⼒してくれるモデル#! の構築

Slide 8

Slide 8 text

⾼い予測精度を出すために機械学習モデルはどんどん複雑化 8 0 5 10 15 20 25 30 35 40 2018 2019 2020 2021 2022 2023 パープレキシティ (WikiText-103) ⼤規模⾔語モデルの予測性能 (低い⽅が良い) https://paperswithcode.com/sota/language-modelling-on-wikitext-103 から作成 (ニューラルネット)

Slide 9

Slide 9 text

⾼い予測精度を出すために機械学習モデルはどんどん複雑化 9 0.01 0.1 1 10 100 1000 2018 2019 2020 2021 2022 モデルサイズ (x109) ⼤規模⾔語モデルのサイズ https://huggingface.co/blog/large-language-models から作成 (ニューラルネット)

Slide 10

Slide 10 text

⼀般に、複雑なモデルほど解釈しにくい 10 複雑度 (精度) 解釈性の良さ 深層ニューラルネット ランダムフォレスト SVM "近傍法 決定⽊ 線形回帰 分類ルール 年齢<20 Yes No ※ 解釈とは … モデルの振る舞いを理解すること

Slide 11

Slide 11 text

AIの透明性と解釈性に関する社会からの要求 11 AIシステムについて、⼈々がどのようなときにそれと関わり結果の正当性を批判 できるのかを理解できるようにするために、透明性を確保し責任ある情報開⽰ を⾏うべきである。 AIに関する経済協⼒開発機構(OECD)原則 内閣府 ⼈間中⼼のAI社会原則 4.1.(6) 公平性、説明責任及び透明性の原則 2016年 4⽉ G7⾹川 ⼈⼯知能の開発原則の提唱 AIネットワークシステムの動作の説明可能性及び検証可能性を確保すること。 2019年 3⽉ 「AI-Ready な社会」においては、(中略) 公平性及び透明性のある意思決定と その結果に対する説明責任(アカウンタビリティ)が適切に確保されると共に、 技術に対する信頼性(Trust)が担保される必要がある。 2019年 5⽉ EU AI規制法案 (2024年以降の発効?) 2021年 4⽉ ハイリスク AI システムは、利⽤者が当該システムのアウトプットを解釈し かつそれを適切に使⽤することができるようにするため、当該システムの動作 が⼗分に透明であることを確保する⽅法で、これを設計し及び開発するものと する。

Slide 12

Slide 12 text

AIの透明性と解釈性に関する社会からの要求 AIシステムについて、⼈々がどのようなときにそれと関わり結果の正当性を批判 できるのかを理解できるようにするために、透明性を確保し責任ある情報開⽰ を⾏うべきである。 AIに関する経済協⼒開発機構(OECD)原則 内閣府 ⼈間中⼼のAI社会原則 4.1.(6) 公平性、説明責任及び透明性の原則 G7⾹川 ⼈⼯知能の開発原則の提唱 AIネットワークシステムの動作の説明可能性及び検証可能性を確保すること。 2019年 3⽉ 「AI-Ready な社会」においては、(中略) 公平性及び透明性のある意思決定と その結果に対する説明責任(アカ ウンタビリティ)が適切に確保されると共に、 技術に対する信頼性(Trust)が担保される必要がある。 2019年 5⽉ EU AI規制法案 (2024年施⾏予定) 2021年 4⽉ ハイリスク AI システムは、利⽤者が当該システムのアウトプットを解釈し かつそれを適切に使⽤することができるようにするため、当該システムの動作 が⼗分に透明であることを確保する⽅法で、これを設計し及び開発するものと する。 2016年 4⽉ 解釈可能な機械学習 または AIの透明性や解釈性の確保のための機械学習技術を と呼びます。 12 説明可能AI (XAI)

Slide 13

Slide 13 text

事後説明 Post-hoc explanation 後付けの説明器が予測に対して 特徴やデータの影響を説明 13 XAIによる説明の分類 ⼤域説明 Global/model explanation 学習した予測モデル全体に対す る特徴やデータの影響を説明 局所説明 Local explanation 個々の予測結果に対して 特徴やデータの影響を説明 ⾃⼰説明 Ante-hoc explanation 予測モデル⾃⾝が予測に対して 特徴やデータの影響を説明

Slide 14

Slide 14 text

局所説明⼿法の分類 [恵⽊ 2020] 例: ローン審査をするAIが A⽒の申し込みをリジェクトしたケース 予測に効いた特徴を⽤いて説明 “A⽒と類似の申込みで返済が 滞った事例がある” 事例型説明 類似した訓練事例を⽰して説明 “A⽒の会社の信⽤度が低かった” 知識型説明 外部知識を利⽤して説明 “もしA⽒の年収が〇〇円以上 であれば審査は通っていた” 反実型説明 予測を変えるために必要なことを説明 14 “A⽒の職業が〇〇だから” 因⼦型説明 予測に効いた特徴を⽤いて説明

Slide 15

Slide 15 text

what is the temperature at the center of the earth データ種別、因⼦型の局所説明の具体例 表形式データの場合 画像データの場合 テキストデータの場合 15 ⾝⻑ 体重 東京 出⾝ 172 63 1 ⼊⼒ ) ∈ ℝ! ⾝ ⻑ 体 重 東 京 出 ⾝ 予測結果に対する 各特徴の貢献度を説明 貢献度 + , ∈ ℝ! ⾝⻑ 体重 東京 出⾝ 0.8 0.6 -0.1 貢献度 or ⼊⼒ ) ∈ ℝ"×$×% 予測結果に対する 各ピクセルの貢献度を説明 貢献度 + , ∈ ℝ$×% ⼊⼒ ) = [単語1, 単語2, ⋯ , 単語2] 予測結果に対する 各単語の貢献度を説明 what is the temperature at the center of the earth 貢献度 + , ∈ ℝ!

Slide 16

Slide 16 text

予測精度が⾼くても、予測結果の説明は重要 AI利⽤者視点 16 ① AIの結果に根拠が付き 信⽤できるようになる ② ⾼リスクな意思決定が 必要な場⾯でもAIを利⽤ しやすくなる AI開発者視点 ③ バグの発⾒や モデルの改善に繋がる ④ 不公平さをもたらす バイアスの発⾒に繋がる • 推薦システム • 検索システム • 医療画像診断 • ⾃動運転 • セキュリティ • 前処理や途中の計算で 発⽣するバグ • 不必要な特徴の削除 • 職業を当てる画像認識で 性別や⼈種を表す領域に 注⽬していないか

Slide 17

Slide 17 text

事後説明器 (post-hoc explainer) 予測モデルのアクセス可能性の仮定は様々 17 ⾝⻑ 体重 東京 出⾝ 172 63 1 性別 確率 男性 0.79 ⼥性 0.21 ⼊⼒ ) 予測に対して後付けで特徴の貢献度を説明 予測モデル 4(6) #(%; ') 事後説明器 予測確率 8 9 貢献度 + , ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する ※予測モデルは学習済み Forward計算 のみ可 中間状態 が得られる 中間状態の微分 が得られる アクセス可能性の仮定の強さ 性別分類の例

Slide 18

Slide 18 text

事後説明器 (post-hoc explainer) ⾝⻑ 体重 東京 出⾝ 172 63 1 性別 確率 男性 0.79 ⼥性 0.21 4(6) #(%; ') 事後説明器 予測確率 8 9 貢献度 + , ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する • 説明のために予測モデル を変更する必要がない メリット • 説明を⽣成するために 推論時に学習を必要とする 場合があり、計算量が⼤きい デメリット 18 予測モデル 予測に対して後付けで特徴の貢献度を説明 ※予測モデルは学習済み ⼊⼒ ) 性別分類の例

Slide 19

Slide 19 text

摂動に基づく事後説明器: Local Interpretable Model-agnostic Explanations (LIME) 19 特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から 線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明 ⾝⻑ 体重 東京 出⾝ 172 63 1 ⼊⼒ ) ⾝⻑ 体重 東京 168 63 1 摂動させた⼊⼒ : )& 3; = [0 1 1] 3< = [1 0 0] ⾝⻑ 体重 東京 172 45 0 摂動させた⼊⼒ : )' … 摂動させた⼊⼒を!個⽣成 ⼆値ベクトル=を>個⽣成 =で0を持つ特徴を 別の値に置き換え … 摂動させた⼊⼒に対する予測モデルの出⼒を得る 4(6) ) %! ) %" … … … 性別 確率 男性 0.59 ⼥性 0.41 予測確率 : 9& 性別 確率 男性 0.70 ⼥性 0.30 予測確率 : 9' … ステップ① ステップ② 予測モデル [Ribeiro+ 2016]

Slide 20

Slide 20 text

摂動に基づく事後説明器: Local Interpretable Model-agnostic Explanations (LIME) 20 特徴量の⼀部をランダムに別の値に置き換えたときの予測モデルの出⼒から 線形回帰モデルを学習し、回帰係数で特徴量の貢献度を説明 "から予測確率を当てる重み付き線形回帰を学習 6∗ = argmin? 1 @A; < 7# 8 9@ : ;@ − 63@ ( ( + = 6 ( ( ※ ?はクラス数×特徴の数のサイズ 元の⼊⼒)と摂動⼊⼒8 )(の類似度 ← #∗の$⾏⽬がクラス$への特徴量の貢献度となる 摂動させた⼊⼒に対する予測モデルの出⼒を得る 4(6) ) %! ) %" … … … 性別 確率 男性 0.59 ⼥性 0.41 予測確率 : 9& 性別 確率 男性 0.70 ⼥性 0.30 予測確率 : 9' … ステップ② ステップ③ 予測モデル [Ribeiro+ 2016] クラス! 特徴量 #∗

Slide 21

Slide 21 text

LIMEによる説明の例 21 図は https://github.com/marcotcr/lime から引⽤ テキスト分類 表形式データに対する分類 画像分類

Slide 22

Slide 22 text

勾配に基づく事後説明器: Integrated Gradients 22 特徴に関する予測モデルの微分 • 出⼒が特徴の値にどの程度敏感に反応するかを評価可能 >#(9) >!B ノイズを多く含む説明になりやすい ? !; # B = (!B − ̅ !B ) B C ; ># C 9 + D(9 − C 9) >!B ED 特徴量%の貢献度: ベースライン⼊⼒ C 9 から⼊⼒ 9 までの直線上で微分の積分を計算 Integrated Gradients * % と % の間を補間 ※ 実際には積分をリーマン和で近似計算 勾配をそのまま⽤いる問題点 [Sundararajan+ 2017]

Slide 23

Slide 23 text

事後説明器による説明の⽐較 ~可視化~ (Xpliqueを使⽤) ⼊⼒画像 Integrated Gradient GradCAM RISE LIME 解像度: 224x224

Slide 24

Slide 24 text

事後説明器による説明の⽐較 ~計算時間~ 24 (Xpliqueを使⽤) 事後説明器 1画像あたりの 平均計算時間(秒) ハイパーパラメータ LIME 3.91 摂動させた⼊⼒の数: 2000 Integrated Grad. 3.42 近似グリッド点の数: 80 GradCAM 0.25 RISE 1.35 マスクの数: 2000 ハイパーパラメータ次第で計算時間は変わる LIME, Integrated Grad., RISEは、計算時間と説明の質がトレードオフ 実験環境: Google Collaboratory (GPU: Tesla T4)

Slide 25

Slide 25 text

XAI研究の発展の動向 25 XAI 複雑な予測モデルが ⾃⾝の予測結果を 説明できる ⼈が望む説明を 出⼒できるようにする 説明の評価尺度で 最適化する 説明器の振る舞いを ニューラルネットに 学習させる

Slide 26

Slide 26 text

XAI研究の発展の動向 26 XAI 複雑な予測モデルが ⾃⾝の予測結果を 説明できる ⼈が望む説明を 出⼒できるようにする 説明の評価尺度で 最適化する 説明器の振る舞いを ニューラルネットに 学習させる

Slide 27

Slide 27 text

⾃⼰説明可能な予測モデル (self-explainable models) • 予測に対して忠実な説明を ⽣成しやすい • 事後説明器に⽐べると推論 時に速い 27 予測モデル⾃⾝が特徴の貢献度を説明できる ⾝⻑ 体重 東京 出⾝ 172 63 1 性別 確率 男性 0.79 ⼥性 0.21 特徴量 ) ⾃⼰説明可能な 予測モデル &(() 予測確率 8 9 貢献度 + , ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する 通常の教師データを⽤いて 予測モデルを学習 メリット • 事後説明器とは異なり 予測モデルを変えるので 予測精度が悪くなる可能性 がある デメリット 推論フロー

Slide 28

Slide 28 text

スパースな説明を可能にする⾃⼰説明可能な予測モデル 28 [Yoshikawa+ 2022] *(+) 貢献度変換器 +(! % ) ,個の特徴のみを 選択する 微分可能な特徴選択器 ⼊⼒% 貢献度を可視化して 予測に効いた領域を説明 スパースな貢献度 " = F & 9 D 9 ⼊⼒と貢献度の内積で予測値を計算 スパースな貢献度 密な貢献度

Slide 29

Slide 29 text

因⼦型説明の応⽤例:マルウェア検出結果の根拠を説明 29 [Yakura+ 2019] ⾃⼰説明可能な予測モデル

Slide 30

Slide 30 text

XAI研究の発展の動向 30 XAI 複雑な予測モデルが ⾃⾝の予測結果を 説明できる ⼈が望む説明を 出⼒できるようにする 説明の評価尺度で 最適化する 説明器の振る舞いを ニューラルネットに 学習させる

Slide 31

Slide 31 text

メリット デメリット 説明による正則化付き予測モデル最適化 31 事後説明器による説明の評価スコアが良くなるように予測モデルを学習 性別 確率 男性 0.79 ⼥性 0.21 ⼊⼒ ) 予測確率 8 9 貢献度 + , ⾝⻑ 体重 東京 0.8 0.6 -0.1 「性別=男性」に対する ⾝⻑ 体重 東京 出⾝ 172 63 1 予測モデル 4(6) #(%; ') 事後説明器 「機能」に根づいた評価 に基づく正則化 ▷ 忠実度 ▷ スパース度 など • 予測モデルや事後説明器の アーキテクチャを変更せず 説明を改善可能 • 予測モデルを変えるので 予測精度が悪くなる可能性 • 学習時の計算量増⼤ 推論フロー

Slide 32

Slide 32 text

Deletionスコアに基づく説明ベース最適化 [Yoshikawa+ 2023] Deletionスコア 貢献度で重要と評価された特徴を順番に削除したとき 予測がどれくらい⼤きく変化するかを評価 微分不可能なDeletionスコアを微分可能にして 貢献度に対する正則化として利⽤ ⼊⼒ ) クラスの 予測確率 8 9 貢献度 + , 予測モデル 4(6) #(%; ') 事後説明器 推論フロー 32 (説明の忠実性評価尺度の⼀つ) Deletionスコアに 基づく正則化 学習後の貢献度 " #

Slide 33

Slide 33 text

XAI研究の発展の動向 33 XAI 複雑な予測モデルが ⾃⾝の予測結果を 説明できる ⼈が望む説明を 出⼒できるようにする 説明の評価尺度に 最適化する 説明器の振る舞いを ニューラルネットに 学習させる

Slide 34

Slide 34 text

説明の教師データを利⽤した予測モデル最適化 34 性別 確率 男性 0.79 ⼥性 0.21 ⼊⼒ ) 予測確率 8 9 貢献度 + , ⾝⻑ 体重 出⾝ 0.8 0.6 -0.1 「性別=男性」に対する 予測モデル 4(6) #(%; ') 勾配ベース 説明器 予測ロス ℒ(F, 8 9) Backward ! ∈ 0,1 - … ,番⽬の特徴が必要(-" = 0)か、不必要(-" = 1)か 説明の教師データ min G ℒ ", H " + D 1 H IH > >!H log # ! % ( 解く問題: 勾配によるI番⽬の特徴の貢献度 説明の教師データによる ロス $ % ! &! ' '(! log , ( " # 学習フロー [Ross+ 2017] 不必要な特徴の貢献度が低くなる = 予測モデルがその特徴を使わなくなる

Slide 35

Slide 35 text

ੜ੒"*ͷͨΊͷ9"* 35

Slide 36

Slide 36 text

⽣成AI 画像⽣成AI 36 ⼤規模⾔語モデル (LLM) ⽣成させた“⽣成AIについて教える⼈⼯知能” のイラスト from DALL・E 4(6) テキスト 画像 4(6) テキスト テキスト

Slide 37

Slide 37 text

⽣成AIにおけるXAI利⽤の例 • ⽣成物に対する特徴の貢献を説明 (因⼦型説明) − ⼈が期待したとおりに⽣成できているかの確認や、 効果的なプロンプトになっているかの分析等に使える • ⽣成物に貢献する訓練事例を説明 (事例型説明) − ⽣成画像が著作権侵害していないかの確認や、 ⽣成⽂が参考にした⽂章の確認等に使える • ⼈間の創作物か、AIによる⽣成物かの判別における 根拠の説明 • 説明を利⽤して⽣成AIの出⼒を改善 37

Slide 38

Slide 38 text

単語が⽣成画像のどの領域に対応付くかを可視化 38 [Hertz+ 2022] • ⼊⼒⽂の意図をAIが汲み取れているかを確認 • 説明を編集して⼈間の思い通りの場所に物体を配置 ⼊⼒⽂ a furry bear watching a bird 画像⽣成AI 各単語が⽣成された画像にどのように影響を与えているかの説明 説明の ⽤途 出⼒ &(()

Slide 39

Slide 39 text

⽣成画像に寄与する訓練画像を説明 39 … 予測への各訓練事例の寄与を推定 TRAK [Park+ 2023] TRAKに基づく訓練事例の寄与度計算を画像⽣成の拡散モデルに適⽤ [Georgiev+ 2023]

Slide 40

Slide 40 text

本物の画像かAI⽣成画像かを分類し、その根拠を可視化 40 “A skier is overlooking the beautiful white snow covered landscape” 本物の画像 (キャプション付き) ⽣成 AI⽣成画像 (Stable Diffusion) 訓練データ として利⽤ 4(6) ⼊⼒画像が本物かAI⽣成画像かを分類する分類器を構築 本物 or AI⽣成? [Pondoc+ 2023]

Slide 41

Slide 41 text

本物の画像かAI⽣成画像かを分類し、その根拠を可視化 • 明らかにおかしい造形になっている場合はこの説明で理解できる • 造形が正確になったときに、どのような説明であれば⼈が違いを 理解できるのかが課題 41 4(6) ⼊⼒画像が本物かAI⽣成画像かを分類する分類器を構築 本物 or AI⽣成? #(%; ') 事後説明器 分類に寄与する箇所の可視化 [Pondoc+ 2023]

Slide 42

Slide 42 text

⼤規模⾔語モデル(LLM)の出⼒を説明で改善させる 42 In-context Learning LLMがタスクを解く前に、少数の回答例や考え⽅のヒントをプロンプト として与え、LLMの出⼒をユーザの意図する⽅向へ導く 例: 感情分類における1ショットプロンプト Review: この映画はつまらん. Sentiment: negative. Review: この映画⼤好き. Sentiment: Positive. LLM [Satyapriya+ 2023] (1つの回答例をプロンプトとして与える) どんなプロンプトを与えれば出⼒が改善するかが盛んに研究されている

Slide 43

Slide 43 text

⼤規模⾔語モデル(LLM)の出⼒を説明で改善させる 43 [Satyapriya+ 2023] 1. 軽量LLMを⽤いて、検証セットで 間違えやすい⽂の集合を得る 2. 間違えやすい⽂における、正しい 回答に効いている重要な単語を 事後説明器を⽤いて得る 3. 間違えやすい⽂と正しい回答をするために重要な単語を加えた 回答例を⽣成

Slide 44

Slide 44 text

まとめ • XAIが重要視される背景、XAIの分類 • 代表的な説明⼿法: LIME, Integrated Gradients • XAI研究の発展の動向 − 複雑な予測モデルが⾃⾝の予測結果を説明できる − 説明の評価尺度で最適化する − ⼈が望む説明を出⼒できるようにする • ⽣成AIにおけるXAI − ⽣成物に対する特徴の貢献を説明 − ⽣成物に貢献する訓練事例を説明 − ⼈間の創作物か、AIによる⽣成物かの判別における根拠の説明 − 説明を利⽤して⽣成AIの出⼒を改善 44

Slide 45

Slide 45 text

参考⽂献 1/2 • [恵⽊ 2020] 恵⽊正史. “XAI(eXplainable AI)技術の研究動向.” ⽇本セキュリティ・マネジメント学会誌, vol. 34, no. 1, 2020, https://www.jstage.jst.go.jp/article/jssmjournal/34/1/34_20/_pdf/-char/ja. • [Ribeiro+ 2016] Ribeiro, Marco Tulio, et al. “ʻWhy Should I Trust You?ʼ: Explaining the Predictions of Any Classifier.” arXiv:1602.04938 [cs, Stat], Feb. 2016. arXiv.org, http://arxiv.org/abs/1602.04938. • [Sundararajan+ 2017] Sundararajan, Mukund, et al. “Axiomatic Attribution for Deep Networks.” arXiv [cs.LG], 4 Mar. 2017, http://arxiv.org/abs/1703.01365. arXiv. • [Doshi-Velez+ 2017] Doshi-Velez, Finale, and Been Kim. “Towards A Rigorous Science of Interpretable Machine Learning.” arXiv [stat.ML], 28 Feb. 2017, http://arxiv.org/abs/1702.08608. arXiv. • [Yoshikawa+ 2022] Yoshikawa, Yuya, and Tomoharu Iwata. “Neural Generators of Sparse Local Linear Models for Achieving Both Accuracy and Interpretability.” An International Journal on Information Fusion, vol. 81, May 2022, pp. 116‒28. • [Yakura+ 2019] Yakura, Hiromu, et al. “Neural Malware Analysis with Attention Mechanism.” Computers & Security, vol. 87, Nov. 2019, p. 101592. • [Yoshikawa+ 2023] Yoshikawa, Yuya, and Tomoharu Iwata. “Explanation-Based Training with Differentiable Insertion/Deletion Metric-Aware Regularizers.” arXiv [cs.LG], Oct. 2023, https://arxiv.org/abs/2310.12553. arXiv. 45

Slide 46

Slide 46 text

参考⽂献 2/2 • [Alvarez+ 2018] Alvarez Melis, David, and Tommi Jaakkola. “Towards Robust Interpretability with Self- Explaining Neural Networks.” Advances in Neural Information Processing Systems, vol. 31, 2018, https://proceedings.neurips.cc/paper/2018/hash/3e9f0fc9b2f89e043bc6233994dfcf76-Abstract.html. • [Ross+ 2017] Ross, Andrew Slavin, et al. “Right for the Right Reasons: Training Differentiable Models by Constraining Their Explanations.” Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, International Joint Conferences on Artificial Intelligence Organization, 2017, https://doi.org/10.24963/ijcai.2017/371. • [Hertz+ 2022] Hertz, Amir, et al. “Prompt-to-Prompt Image Editing with Cross Attention Control.” arXiv [cs.CV], 2 Aug. 2022, http://arxiv.org/abs/2208.01626. arXiv. • [Georgiev+ 2023] Georgiev, Kristian, et al. The Journey, Not the Destination: How Data Guides Diffusion Models. 23 June 2023, https://openreview.net/pdf?id=9hK9NbUAex. • [Park+ 2023] Park, Sung Min, et al. “TRAK: Attributing Model Behavior at Scale.” arXiv [stat.ML], 24 Mar. 2023, http://arxiv.org/abs/2303.14186. arXiv. • [Pondoc+ 2023] Pondoc, Christopher, et al. Seeing Through the Facade: Understanding the Realism, Expressivity, and Limitations of Diffusion Models. June 2023, https://openreview.net/forum?id=wOC0BELg7g. • [Satyapriya+ 2023] Satyapriya, et al. “Post Hoc Explanations of Language Models Can Improve Language Models.” arXiv [cs.CL], 19 May 2023, http://arxiv.org/abs/2305.11426. arXiv. 46

Slide 47

Slide 47 text

47