Slide 1

Slide 1 text

On the Versatile Uses of Partial Distance Correlation in Deep Learning Xingjian Zhen1 , Zihang Meng1 , Rudrasis Chakraborty2 , Vikas Singh1 (1University of Wisconsin-Madison, 2Butlr) 慶應義塾⼤学 杉浦孔明研究室 B4 和⽥唯我 Xingjian Zhen et al., “On the Versatile Uses of Partial Distance Correlation in Deep Learning”, in ECCV(2022) ECCV 2022

Slide 2

Slide 2 text

概要 2 ü 背景 • ⼆つのモデルの挙動を⽐較することは極めて重要 • しかし, 異なるアーキテクチャ同⼠の⽐較⼿法は依然として研究が不⼗分 ü 提案⼿法 • Distance CorrelationとPartial Distance CorrelationをDNNの解析に 応⽤する汎⽤的な⼿法を提案 ü 結果 • 異なるアーキテクチャ同⼠の⽐較, 敵対的サンプルへの防御, Disentangledな 表現の学習など, 多様な応⽤への有効性が検証された

Slide 3

Slide 3 text

背景 : 異なるアーキテクチャ同⼠の⽐較⼿法は依然として研究が不⼗分 3 • ⼆つのモデルの挙動を⽐較することは極めて重要 • しかし, 異なるアーキテクチャ同⼠の⽐較⼿法は依然として研究が不⼗分 • 構造の異なるモデル同⼠の中間層を⽐較する場合, 次元が揃わないことが多い https://github.com/zhenxingjian/DC_webpage/raw/main/DC_slides.pdf 次元に依存しない 出⼒の⽐較⼿法が必要 𝑥 ∈ ℝ! × # 𝑦 ∈ ℝ! × $

Slide 4

Slide 4 text

DCとPDCをDNNの解析に応⽤する汎⽤的な⼿法を提案 4 o Distance Correlation (DC)とPartial Distance Correlation (PDC)をDNNの解析に 応⽤する汎⽤的な⼿法を提案 o 提案されている応⽤例 1. モデルにおける情報量の⽐較 2. 敵対的サンプルへの防御 3. Disentangledな表現の学習

Slide 5

Slide 5 text

Distance Correlation : 点同⼠の距離を⽤いた相関係数 5 o Distance Correlation (DC) • 点同⼠の距離を⽤いた相関係数 • Pearsonは線形な関係しか捉えないのに対して, DCは距離に応じた相関を 捉えることが可能 • 計算⽅法は次⾴にて記載

Slide 6

Slide 6 text

Distance Correlation : 点同⼠の距離を⽤いた相関係数 6 • あるサンプル 𝑥, 𝑦 = { 𝑋% , 𝑌% ∶ 𝑖 = 1, … , 𝑛} に対して, • としたとき, 以下の式で定義される⾏列 𝐴 をDistance Matrixと定義する. • 上の⾏列 𝐴 は要素の列・⾏・全体の平均が0になるので, 期待値を取ると, 平均周りのモーメントのように振る舞う

Slide 7

Slide 7 text

Distance Correlation : 点同⼠の距離を⽤いた相関係数 7 • このとき, 以下に⽰す ℛ& '(𝑥, 𝑦) をDistance Correlationと定義する. • ただし, 𝐵を 𝑌% %() & のDistance Matrixとして, 𝒱& ' 𝑥, 𝑦 , 𝒱& ' 𝑥, 𝑥 は以下の通り.

Slide 8

Slide 8 text

主張 : DCは次元の揃わない中間層の出⼒を⽐較することが可能 8 • モデル 𝑋, 𝑌 のある層の出⼒をそれぞれ 𝑥 ∈ ℝ* × ,!, 𝑦 ∈ ℝ* × ," とすると, Distance Matrixはどちらも 𝐵 × 𝐵 の正⽅⾏列になる ⇒ DC を⽤いれば𝑑- ≠ 𝑑. であろうと, 中間層の出⼒の相関を計算することが可能 𝑥 ∈ ℝ! × %! 𝑦 ∈ ℝ! × %" Distance Matrix (𝐵 × 𝐵)

Slide 9

Slide 9 text

Partial Distance Correlation : DCを拡張した相関係数 9 o Partial Distance Correlation (PDC) • 内積の期待値が 𝒱& ' 𝑥, 𝑦 となるようなヒルベルト空間を定義 (後述) • PDCによって ℛ 𝑋 𝑍, 𝑌 𝑍 = ℛ∗ 𝑋, 𝑌; 𝑍 が計算可能に • つまり, あるモデルによって条件付けされた相関係数が計算できる • まず, Distance Matrix 𝐴 = (𝑎%,2) を以下のように拡張 • 拡張された⾏列を = 𝐴 とする

Slide 10

Slide 10 text

Partial Distance Correlation : 性質の良いヒルベルト空間を⽤意 10 • このとき, = 𝐴 と > 𝐵 の内積を以下のように定義したヒルベルト空間を⽤意すると, • 内積の期待値が𝒱& ' 𝑥, 𝑦 と⼀致する (不変推定量となる → Appendix参照) • 上のような = 𝐴 を定義すると, 以下が成り⽴つ. 1. 要素の⾏と列の平均がそれぞれ0になる 2. = = 𝐴 = = 𝐴 となる 3. = 𝐴はdouble centeringに対して不変 (⾏と列の平均は常に0)

Slide 11

Slide 11 text

Partial Distance Correlation : ℛ 𝑋 𝑍, 𝑌 𝑍 = ℛ∗ 𝑋, 𝑌; 𝑍 の計算 11 o ℛ 𝑋 𝑍, 𝑌 𝑍 = ℛ∗ 𝑋, 𝑌; 𝑍 の計算について • ヒルベルト空間 ℋ& 上で 𝑋, 𝑌 を 𝑍 に投影する必要がある • サンプル 𝑥, 𝑦, 𝑧 における拡張されたDistance Matrix = 𝐴 , > 𝐵 , = 𝐶 ∈ ℋ& について, • をそれぞれ, = 𝐴 𝑥 を = 𝐶 𝑧 3 に, > 𝐵 𝑥 を = 𝐶 𝑧 3 に射影したものとする. • すると, ℛ∗ 𝑋, 𝑌; 𝑍 は以下のようにcosine類似度から定義される.

Slide 12

Slide 12 text

提案⼿法1. モデルにおける情報量の⽐較 12 • DCは出⼒の次元に依存しないので, 異なるアーキテクチャのモデル同⼠を⽐較 することが可能 (e.g. ViT [Dosovitskiy+, ICLR21] vs ResNet [He+, CVPR16]など) • (a) : ViTとResNetとで, 層ごとの相関パターンが異なることがわかる. • (b) : ViTとResNetとでは, 最初の1/6層の相関が⾮常に⾼い. ⼀⽅で, 最終層付近の 相関は極めて低い • 特に, 相関が全体的に⾼く, 各モデルの層ごとの役割の違いが⽰唆される (a) (b)

Slide 13

Slide 13 text

提案⼿法1. モデルにおける情報量の⽐較 13 • PDCを⽤いることで, 「モデルYが学習した情報」以外にモデルXが何を学習した のかを定量化することが可能 • ℛ' 𝑋 | 𝑌, 𝐺𝑇 を計算すれば, Yで条件付けされたXとGTの相関を計算できる • ここで, 「Yで条件付けされたX」とは「Yを前提とするX」に等しいので, モデル𝑋 | 𝑌 は「モデルYが学習した情報」を除いたモデルX を指す. • GTにはラベル名に対するBERT[Devlin+, NAACL19]の埋め込み表現を使⽤ • One-hot ベクトルよりも距離関係においてrichな表現を⽤いる.

Slide 14

Slide 14 text

提案⼿法1. ⽚⽅のモデルの学習情報を取り除くための損失を定義 14 o ⽬標 : モデルXとモデルYの学習情報の違いを解析する • モデルXから「モデルYの学習情報」を取り除くため, 以下のような損失を使⽤ • ただし, モデルX,Yをそれぞれ 𝑓) , 𝑓' としたとき, 中間層を𝑔) , 𝑔' と定義する. • 本論⽂では, 𝑔) , 𝑔' を最終層直前の層を採⽤ • モデルX, Yをpretrainした後に, Xのみ上式の損失でfine-tuning

Slide 15

Slide 15 text

結果1-1. ℛ" 𝑋 | 𝑌, 𝐺𝑇 から様々な可能性が⽰唆される 15 • ViTはResNetと⽐べてより⾔語的 にrichな情報を保持している ImageNet で学習した結果 • Accuracyが⾼くても⾔語的情報量が 低い場合がある • e.g. ResNet-50はResNet-152よりも accuracyが低いが, より⾔語的にrich な情報を持っている → ResNet-152は細かい領域に注⽬ できるが, 不必要な情報も保持して いる可能性が⽰唆される

Slide 16

Slide 16 text

結果1-2. ViTはResNetとは異なり詳細な領域を捉えている可能性 16 • Grad-CAM[Selvaraju, ICCV17]による可視化 • ViT \ ResNet → より被写体に注⽬していることから, ViTはResNetでは捉えら れない細かい領域を捉えている可能性が⽰唆される.

Slide 17

Slide 17 text

提案⼿法2. 敵対的サンプルへの防御 17 • あるモデル𝑓) において有効な敵対的サンプル G 𝑥 が存在する場合, 同じ構造の モデル𝑓' においてもG 𝑥が敵対的に有効であることが多い. [Domontis+, 18] → 同じアーキテクチャのモデル𝑓) , 𝑓' について, それらの中間層 𝑔) , 𝑔' の相関を 下げれば, 敵対的サンプルへの防御に繋がる → そこで, 以下のような損失を定義 • 𝑔) (𝑥), 𝑔' (𝑥) の次元は⼀致しなくても良いことに注意

Slide 18

Slide 18 text

結果2. 相関を損失に加えることで敵対的サンプルへの防御率が向上 18 • 攻撃⼿法: FGM[Goodfellow+, ICLR14], PGD[Madry+, ICLR18] • どの攻撃⼿法においても敵対的サンプルへの防御率が上がっている • 特にResNet-18 + PGDにおいては約10%もaccuracyが向上

Slide 19

Slide 19 text

提案⼿法3. Disentangledな表現の学習 19 • Disentangledな表現 : 互いに独⽴な潜在表現を獲得すること • e.g. 顔写真に対して, ageやgenderに対応する潜在表現を得る • [Gabbay+, NeurIPS21]と同じ要領で学習 (Appendix参照) • 元論⽂では latent code 𝑟 に対して, 以下を損失の⼀部に使⽤したが, • 本論⽂では, 属性 𝑓), 𝑓', … , 𝑓4 に対して以下を 𝐿567 とする [Gabbay+, NeurIPS21]

Slide 20

Slide 20 text

結果3. 別の属性に影響されることなく特定の属性のみを変更可能 20 • データセット: FFHQ[Karras+, CVPR19] • GeneratorにStyleGAN2[Karras+, CVPR20]を使⽤ • 別の属性に影響されることなく, 特定の属性のみを変更することが出来ている

Slide 21

Slide 21 text

まとめ 21 ü 背景 • ⼆つのモデルの挙動を⽐較することは極めて重要 • しかし, 異なるアーキテクチャ同⼠の⽐較⼿法は依然として研究が不⼗分 ü 提案⼿法 • Distance CorrelationとPartial Distance CorrelationをDNNの解析に 応⽤する汎⽤的な⼿法を提案 ü 結果 • 異なるアーキテクチャ同⼠の⽐較, 敵対的サンプルへの防御, Disentangledな 表現の学習など, 多様な応⽤への有効性が検証された

Slide 22

Slide 22 text

Appendix : [Gabbay+, NeurIPS21]について 22 • 注⽬したい属性 𝑓), 𝑓', … , 𝑓4 と残差属性 𝑟 をもとに画像を⽣成する • したがって, 𝑟 に 𝑓), 𝑓', … , 𝑓4 がleakしないようにしたい → 𝑟 との相関を下げる上で, DCの応⽤が期待できる

Slide 23

Slide 23 text

Appendix : DCの実装⽅法 23

Slide 24

Slide 24 text

Appendix : PDCの実装 24 ℛ& 𝑋 | 𝑌, 𝐺𝑇

Slide 25

Slide 25 text

Appendix : Double Centeringについて 25 • Double Centering • 単位⾏列 𝐼 と全ての成分が1の 𝑛 × 𝑛 ⾏列 𝐽 を⽤いて, • 上式を計算することをDouble Centeringと呼ぶ. • この計算により, ⾏と列の平均はそれぞれ0となる.

Slide 26

Slide 26 text

Appendix :内積の期待値が𝒱# " 𝑥, 𝑦 となる証明 (1/2) 26 G ́ abor J. Sz ́ ekely et al., “Partial distance correlation with methods for dissimilarities”, The Annals of Statistics, Vol. 42, No. 6, pp. 2382 – 2412 (2014)

Slide 27

Slide 27 text

Appendix :内積の期待値が𝒱# " 𝑥, 𝑦 となる証明 (2/2) 27 G ́ abor J. Sz ́ ekely et al., “Partial distance correlation with methods for dissimilarities”, The Annals of Statistics, Vol. 42, No. 6, pp. 2382 – 2412 (2014)