Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] On the Versatile Uses of Partial Distance Correlation in Deep Learning

[Journal club] On the Versatile Uses of Partial Distance Correlation in Deep Learning

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. On the Versatile Uses of Partial Distance
    Correlation in Deep Learning
    Xingjian Zhen1 , Zihang Meng1 , Rudrasis Chakraborty2 , Vikas Singh1
    (1University of Wisconsin-Madison, 2Butlr)
    慶應義塾⼤学
    杉浦孔明研究室 B4 和⽥唯我
    Xingjian Zhen et al., “On the Versatile Uses of Partial Distance Correlation in Deep Learning”, in ECCV(2022)
    ECCV 2022

    View full-size slide

  2. 概要
    2
    ü 背景
    • ⼆つのモデルの挙動を⽐較することは極めて重要
    • しかし, 異なるアーキテクチャ同⼠の⽐較⼿法は依然として研究が不⼗分
    ü 提案⼿法
    • Distance CorrelationとPartial Distance CorrelationをDNNの解析に
    応⽤する汎⽤的な⼿法を提案
    ü 結果
    • 異なるアーキテクチャ同⼠の⽐較, 敵対的サンプルへの防御, Disentangledな
    表現の学習など, 多様な応⽤への有効性が検証された

    View full-size slide

  3. 背景 : 異なるアーキテクチャ同⼠の⽐較⼿法は依然として研究が不⼗分
    3
    • ⼆つのモデルの挙動を⽐較することは極めて重要
    • しかし, 異なるアーキテクチャ同⼠の⽐較⼿法は依然として研究が不⼗分
    • 構造の異なるモデル同⼠の中間層を⽐較する場合, 次元が揃わないことが多い
    https://github.com/zhenxingjian/DC_webpage/raw/main/DC_slides.pdf
    次元に依存しない
    出⼒の⽐較⼿法が必要
    𝑥 ∈ ℝ! × #
    𝑦 ∈ ℝ! × $

    View full-size slide

  4. DCとPDCをDNNの解析に応⽤する汎⽤的な⼿法を提案
    4
    o Distance Correlation (DC)とPartial Distance Correlation (PDC)をDNNの解析に
    応⽤する汎⽤的な⼿法を提案
    o 提案されている応⽤例
    1. モデルにおける情報量の⽐較
    2. 敵対的サンプルへの防御
    3. Disentangledな表現の学習

    View full-size slide

  5. Distance Correlation : 点同⼠の距離を⽤いた相関係数
    5
    o Distance Correlation (DC)
    • 点同⼠の距離を⽤いた相関係数
    • Pearsonは線形な関係しか捉えないのに対して, DCは距離に応じた相関を
    捉えることが可能
    • 計算⽅法は次⾴にて記載

    View full-size slide

  6. Distance Correlation : 点同⼠の距離を⽤いた相関係数
    6
    • あるサンプル 𝑥, 𝑦 = { 𝑋%
    , 𝑌%
    ∶ 𝑖 = 1, … , 𝑛} に対して,
    • としたとき, 以下の式で定義される⾏列 𝐴 をDistance Matrixと定義する.
    • 上の⾏列 𝐴 は要素の列・⾏・全体の平均が0になるので, 期待値を取ると,
    平均周りのモーメントのように振る舞う

    View full-size slide

  7. Distance Correlation : 点同⼠の距離を⽤いた相関係数
    7
    • このとき, 以下に⽰す ℛ&
    '(𝑥, 𝑦) をDistance Correlationと定義する.
    • ただし, 𝐵を 𝑌% %()
    & のDistance Matrixとして, 𝒱&
    ' 𝑥, 𝑦 , 𝒱&
    ' 𝑥, 𝑥 は以下の通り.

    View full-size slide

  8. 主張 : DCは次元の揃わない中間層の出⼒を⽐較することが可能
    8
    • モデル 𝑋, 𝑌 のある層の出⼒をそれぞれ 𝑥 ∈ ℝ* × ,!, 𝑦 ∈ ℝ* × ," とすると,
    Distance Matrixはどちらも 𝐵 × 𝐵 の正⽅⾏列になる
    ⇒ DC を⽤いれば𝑑-
    ≠ 𝑑.
    であろうと, 中間層の出⼒の相関を計算することが可能
    𝑥 ∈ ℝ! × %!
    𝑦 ∈ ℝ! × %"
    Distance Matrix
    (𝐵 × 𝐵)

    View full-size slide

  9. Partial Distance Correlation : DCを拡張した相関係数
    9
    o Partial Distance Correlation (PDC)
    • 内積の期待値が 𝒱&
    ' 𝑥, 𝑦 となるようなヒルベルト空間を定義 (後述)
    • PDCによって ℛ 𝑋 𝑍, 𝑌 𝑍 = ℛ∗ 𝑋, 𝑌; 𝑍 が計算可能に
    • つまり, あるモデルによって条件付けされた相関係数が計算できる
    • まず, Distance Matrix 𝐴 = (𝑎%,2) を以下のように拡張
    • 拡張された⾏列を =
    𝐴 とする

    View full-size slide

  10. Partial Distance Correlation : 性質の良いヒルベルト空間を⽤意
    10
    • このとき, =
    𝐴 と >
    𝐵 の内積を以下のように定義したヒルベルト空間を⽤意すると,
    • 内積の期待値が𝒱&
    ' 𝑥, 𝑦 と⼀致する (不変推定量となる → Appendix参照)
    • 上のような =
    𝐴 を定義すると, 以下が成り⽴つ.
    1. 要素の⾏と列の平均がそれぞれ0になる
    2. =
    =
    𝐴 = =
    𝐴 となる
    3. =
    𝐴はdouble centeringに対して不変 (⾏と列の平均は常に0)

    View full-size slide

  11. Partial Distance Correlation : ℛ 𝑋 𝑍, 𝑌 𝑍 = ℛ∗ 𝑋, 𝑌; 𝑍 の計算
    11
    o ℛ 𝑋 𝑍, 𝑌 𝑍 = ℛ∗ 𝑋, 𝑌; 𝑍 の計算について
    • ヒルベルト空間 ℋ&
    上で 𝑋, 𝑌 を 𝑍 に投影する必要がある
    • サンプル 𝑥, 𝑦, 𝑧 における拡張されたDistance Matrix =
    𝐴 , >
    𝐵 , =
    𝐶 ∈ ℋ&
    について,
    • をそれぞれ, =
    𝐴 𝑥 を =
    𝐶 𝑧 3 に, >
    𝐵 𝑥 を =
    𝐶 𝑧 3 に射影したものとする.
    • すると, ℛ∗ 𝑋, 𝑌; 𝑍 は以下のようにcosine類似度から定義される.

    View full-size slide

  12. 提案⼿法1. モデルにおける情報量の⽐較
    12
    • DCは出⼒の次元に依存しないので, 異なるアーキテクチャのモデル同⼠を⽐較
    することが可能 (e.g. ViT [Dosovitskiy+, ICLR21] vs ResNet [He+, CVPR16]など)
    • (a) : ViTとResNetとで, 層ごとの相関パターンが異なることがわかる.
    • (b) : ViTとResNetとでは, 最初の1/6層の相関が⾮常に⾼い. ⼀⽅で, 最終層付近の
    相関は極めて低い
    • 特に, 相関が全体的に⾼く, 各モデルの層ごとの役割の違いが⽰唆される
    (a) (b)

    View full-size slide

  13. 提案⼿法1. モデルにおける情報量の⽐較
    13
    • PDCを⽤いることで, 「モデルYが学習した情報」以外にモデルXが何を学習した
    のかを定量化することが可能
    • ℛ' 𝑋 | 𝑌, 𝐺𝑇 を計算すれば, Yで条件付けされたXとGTの相関を計算できる
    • ここで, 「Yで条件付けされたX」とは「Yを前提とするX」に等しいので,
    モデル𝑋 | 𝑌 は「モデルYが学習した情報」を除いたモデルX を指す.
    • GTにはラベル名に対するBERT[Devlin+, NAACL19]の埋め込み表現を使⽤
    • One-hot ベクトルよりも距離関係においてrichな表現を⽤いる.

    View full-size slide

  14. 提案⼿法1. ⽚⽅のモデルの学習情報を取り除くための損失を定義
    14
    o ⽬標 : モデルXとモデルYの学習情報の違いを解析する
    • モデルXから「モデルYの学習情報」を取り除くため, 以下のような損失を使⽤
    • ただし, モデルX,Yをそれぞれ 𝑓)
    , 𝑓'
    としたとき, 中間層を𝑔)
    , 𝑔'
    と定義する.
    • 本論⽂では, 𝑔)
    , 𝑔'
    を最終層直前の層を採⽤
    • モデルX, Yをpretrainした後に, Xのみ上式の損失でfine-tuning

    View full-size slide

  15. 結果1-1. ℛ" 𝑋 | 𝑌, 𝐺𝑇 から様々な可能性が⽰唆される
    15
    • ViTはResNetと⽐べてより⾔語的
    にrichな情報を保持している
    ImageNet で学習した結果
    • Accuracyが⾼くても⾔語的情報量が
    低い場合がある
    • e.g. ResNet-50はResNet-152よりも
    accuracyが低いが, より⾔語的にrich
    な情報を持っている
    → ResNet-152は細かい領域に注⽬
    できるが, 不必要な情報も保持して
    いる可能性が⽰唆される

    View full-size slide

  16. 結果1-2. ViTはResNetとは異なり詳細な領域を捉えている可能性
    16
    • Grad-CAM[Selvaraju, ICCV17]による可視化
    • ViT \ ResNet → より被写体に注⽬していることから, ViTはResNetでは捉えら
    れない細かい領域を捉えている可能性が⽰唆される.

    View full-size slide

  17. 提案⼿法2. 敵対的サンプルへの防御
    17
    • あるモデル𝑓)
    において有効な敵対的サンプル G
    𝑥 が存在する場合, 同じ構造の
    モデル𝑓'
    においてもG
    𝑥が敵対的に有効であることが多い. [Domontis+, 18]
    → 同じアーキテクチャのモデル𝑓)
    , 𝑓'
    について, それらの中間層 𝑔)
    , 𝑔'
    の相関を
    下げれば, 敵対的サンプルへの防御に繋がる
    → そこで, 以下のような損失を定義
    • 𝑔)
    (𝑥), 𝑔'
    (𝑥) の次元は⼀致しなくても良いことに注意

    View full-size slide

  18. 結果2. 相関を損失に加えることで敵対的サンプルへの防御率が向上
    18
    • 攻撃⼿法: FGM[Goodfellow+, ICLR14], PGD[Madry+, ICLR18]
    • どの攻撃⼿法においても敵対的サンプルへの防御率が上がっている
    • 特にResNet-18 + PGDにおいては約10%もaccuracyが向上

    View full-size slide

  19. 提案⼿法3. Disentangledな表現の学習
    19
    • Disentangledな表現 : 互いに独⽴な潜在表現を獲得すること
    • e.g. 顔写真に対して, ageやgenderに対応する潜在表現を得る
    • [Gabbay+, NeurIPS21]と同じ要領で学習 (Appendix参照)
    • 元論⽂では latent code 𝑟 に対して, 以下を損失の⼀部に使⽤したが,
    • 本論⽂では, 属性 𝑓), 𝑓', … , 𝑓4 に対して以下を 𝐿567
    とする
    [Gabbay+, NeurIPS21]

    View full-size slide

  20. 結果3. 別の属性に影響されることなく特定の属性のみを変更可能
    20
    • データセット: FFHQ[Karras+, CVPR19]
    • GeneratorにStyleGAN2[Karras+, CVPR20]を使⽤
    • 別の属性に影響されることなく, 特定の属性のみを変更することが出来ている

    View full-size slide

  21. まとめ
    21
    ü 背景
    • ⼆つのモデルの挙動を⽐較することは極めて重要
    • しかし, 異なるアーキテクチャ同⼠の⽐較⼿法は依然として研究が不⼗分
    ü 提案⼿法
    • Distance CorrelationとPartial Distance CorrelationをDNNの解析に
    応⽤する汎⽤的な⼿法を提案
    ü 結果
    • 異なるアーキテクチャ同⼠の⽐較, 敵対的サンプルへの防御, Disentangledな
    表現の学習など, 多様な応⽤への有効性が検証された

    View full-size slide

  22. Appendix : [Gabbay+, NeurIPS21]について
    22
    • 注⽬したい属性 𝑓), 𝑓', … , 𝑓4 と残差属性 𝑟 をもとに画像を⽣成する
    • したがって, 𝑟 に 𝑓), 𝑓', … , 𝑓4 がleakしないようにしたい
    → 𝑟 との相関を下げる上で, DCの応⽤が期待できる

    View full-size slide

  23. Appendix : DCの実装⽅法
    23

    View full-size slide

  24. Appendix : PDCの実装
    24
    ℛ& 𝑋 | 𝑌, 𝐺𝑇

    View full-size slide

  25. Appendix : Double Centeringについて
    25
    • Double Centering
    • 単位⾏列 𝐼 と全ての成分が1の 𝑛 × 𝑛 ⾏列 𝐽 を⽤いて,
    • 上式を計算することをDouble Centeringと呼ぶ.
    • この計算により, ⾏と列の平均はそれぞれ0となる.

    View full-size slide

  26. Appendix :内積の期待値が𝒱#
    " 𝑥, 𝑦 となる証明 (1/2)
    26
    G ́
    abor J. Sz ́
    ekely et al., “Partial distance correlation with methods for dissimilarities”,
    The Annals of Statistics, Vol. 42, No. 6, pp. 2382 – 2412 (2014)

    View full-size slide

  27. Appendix :内積の期待値が𝒱#
    " 𝑥, 𝑦 となる証明 (2/2)
    27
    G ́
    abor J. Sz ́
    ekely et al., “Partial distance correlation with methods for dissimilarities”,
    The Annals of Statistics, Vol. 42, No. 6, pp. 2382 – 2412 (2014)

    View full-size slide