Upgrade to Pro — share decks privately, control downloads, hide ads and more …

変数間の関係を捉えたいあなたへ

Hidehisa Arai
March 28, 2021

 変数間の関係を捉えたいあなたへ

A presentation for a meetup about statistics.
https://connpass.com/event/204931/

Topics:
Methods and their properties to capture relationships between variables

Hidehisa Arai

March 28, 2021
Tweet

More Decks by Hidehisa Arai

Other Decks in Science

Transcript

  1. 変数間の関係を捉えたいあなたへ

    統計学勉強会#2

    Hidehisa Arai (@kaggle_araisan)

    出典: https://scikit-learn.org/stable/auto_examples/applications/plot_stock_market.html

    View Slide

  2. 自己紹介

    2
    ● Hidehisa Arai (Twitter: @kaggle_araisan)


    ● この春大学院(航空宇宙工学専攻)を卒業しました


    ● 大学院では表現学習の研究をしていました


    ● NABLASという会社で働いていました

    ○ 異常検知などをしていました

    ○ 今日の話はそのときの調査内容が主です


    ● 趣味: Kaggle, 散歩...


    View Slide

  3. 背景

    3
    多変数データ間の関係を捉えたいという需要は生物情報・ 経済・機械システムなど多くの分野にある
    生物情報学での活用例: タンパク質の構造推定 
 (複雑な)機械システムでの活用例: 

    異常検知・原因特定補助 

    タンパク質を構成するアミノ酸のうち近接している部
    位は共進化†を起こすという仮説をもとに、近接部位
    の予測を行う

    †共進化: ペアの片方が変異した際、構造を保つためもう片方のペアも変異する
    こと 

    アミノ酸配列 コンタクトマップ
    (よく知らない・・・)

    正常な変数間の関係を学習しておきそこからの乖
    離を異常とみなす。異常はセンサの関係ネットワー
    クを伝播するという仮説から真因の特定に変数間
    の関係を用いる

    直接相関グラフの構築
    相関異常度による
    異常検知
    参考: https://www.pnas.org/content/108/49/E1293 参考: https://latent-dynamics.net/01/2010_LD_Ide.pdf

    View Slide

  4. おことわり

    4
    ● 因果は扱わない

    ○ 因果探索という分野になる、難しい

    ○ 仮定が強いことが多いので研究レベル?ビジネスでの運用はされているの
    だろうか?

    ○ NOTEARS†というやつが面白いらしい


    ● 理論的な話はあんまりしない

    ○ 私自身があまり理解していない部分も結構ある

    ○ (むしろ教えて欲しい)


    ● 網羅的ではない(と思う)

    ○ 多分抜けがあるし、かなり偏っている

    ○ こういうのもあるよ!というのはぜひ教えてください!


    https://github.com/xunzheng/notears

    View Slide

  5. 5
    相関

    偏相関

    HSIC

    Distance
    Correlation

    Partial Distance
    Correlation

    相互情報量(MI)

    MIC

    Squared-loss Mutual
    Information

    非線形

    Graphical
    Lasso 

    sGMRFmix 

    TVGL

    他の変数の影
    響を除去

    時間発展を考慮

    線形

    HSICLasso 

    Overview
    l
    1
    -LSMI

    スパース性

    CMI

    PMI


    View Slide

  6. 着目点① - 線形と非線形

    6
    ピアソンの積率相関では下段のような関係は捉えられない 

    ● 相互情報量ベースの手法 

    ○ Mutual Information

    ○ Maximal Information Coefficient(MIC) 

    ■ 「21世紀の相関」

    ○ Squared-loss Mutual Information(SMI) 

    ○ Conditional Mutual Information(CMI) 

    ○ Part Mutual Information(PMI) 

    ● カーネル法使うやつ(よく理解できてない) 

    ○ Hilbert-Schmidt Information Criteria(HSIC) 

    ● Distance 〇〇(よく理解できてない) 

    ○ (Partial) Distance Correlation 

    ○ (Partial) Distance Covariance 

    ○ カーネル法使うやつの特殊ケースらしい †

    線形
 非線形

    ● ピアソンの積率相関 

    ● 偏相関

    ● Graphical Lasso


    https://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_6kernelMean.pdf

    View Slide

  7. 着目点① - 非線形な手法

    7
    相互情報量をベースとするもの 
 データ点を別の空間に射影した上で共分散
    (のようなもの)を評価する 

    離散

    連続

    密度推定

    連続な場合は適当な分割で離散化をした上で計
    算をする、など

    離散化の恣意性を排除するために全ての分割を
    試し一番いいものを選ぶ(MIC) 

    内積計算がカーネル関数の評価で行える空間で
    共分散作用素のノルムを独立性の指標とする
    (=> HSIC)


    View Slide

  8. 着目点② - 他の変数の影響

    8
    二変数の間の関係は他の変数の影響を受けて現れる「見せかけの関係」の場合がある 

    この例では、身長と算数の
    点数が学年という変数の影
    響を受けて高い相関を示す 

    出典: R for Biologists SchoolChildrenMathsデータセット
    https://www.ecarleton.ca/mod/folder/view.php?id=641
    統計的消去(線形)

    条件付き独立性の検定(非線形) 

    学年に対する標準身長・標
    準的な算数の点数を線形
    回帰で求めて元の変数(身
    長・算数の点数)から引き、
    残差の間の相関を計算 

    参考 https://hoxo-m.hatenablog.com/entry/20130711/p1
    条件付き相互情報量(Conditional Mutual
    Information)などを評価 


    View Slide

  9. 着目点② - 他の変数の影響 - 偏相関

    9
    多変数(4以上とする)の場合、いちいち統計的消去を行えない→実は精度行列から求まる 

    分散共分散行列
    精度行列
    逆行列の関係
    相関行列(直接相関+疑似相関)
    偏相関行列(直接相関)
    データから定義通り計算
    1. 逆行列計算で得る
    2. 最適化計算で直接計算
    (後述)
    分散共分散行列から計算
    1. 精度行列から計算
    2. 相関行列から計算

    View Slide

  10. 着目点③ - スパース性 - Graphical Lasso

    10
    偏相関はノイズの影響により完全に0になることは少ない→正則化でスパースにする 

    データが多変量正規分布から生成されている、とい
    う仮定をおいて、最尤法でパラメータ(精度行列)を
    推定

    正規分布のPDFは精度行列で表せる 
 尤度関数

    対数尤度関数

    と書くことにする

    定数
 とかける
    +L1正則化

    出典: scikit-learn document
    Sparse inverse covariance estimation
    https://scikit-learn.org/stable/auto_examples/covariance/plot_sparse_c
    ov.html#sphx-glr-auto-examples-covariance-plot-sparse-cov-py

    View Slide

  11. 着目点③ - スパース性 - 非線形な特徴選択法

    11
    特徴選択などに用いることができる関連度自動決定(ARD)手法 

    HSICLasso

    (超)高次元(1,000~)、少データ(~数百)における特徴選択で効果を発揮 

    Bioinformaticsなどでよくあるシナリオらしい 

    出典: https://ibisml.org/archive/ibis2012/D_day2.pdf

    View Slide

  12. 着目点④ - 時間発展

    12
    機械システムなどではシステムの状態が変化することがある→変数の関係も変化 

    sGMRFmix
 Time-Varying Graphical Lasso(TVGL) 

    複数のモードを持つようなシステム向けの異常検知手
    法。Graphical Lasso + Gaussian Mixture Modelのよう
    な感じ。モードごとに疎な偏相関を計算できる 

    Graphical Lassoで推定される精度行列が各時刻で違
    うものだとした上で、近接する精度行列が類似するよう
    にん制約を課して最適化 

    GLassoの目的関数
 時間発展の仕方に
    関する制約

    出典: https://dl.acm.org/doi/10.1145/3097983.3098037
    出典: https://ide-research.net/papers/2016_ICDM_Ide.pdf

    View Slide

  13. 13
    手法
 非線形
 他の変数の影響除去
    
 スパース性
 時間発展
 実装
 備考

    相関
 ❌
 ❌
 ❌
 ❌
 -
 -

    偏相関
 ❌
 ✔
 ❌
 ❌
 -

    次元が少ないとGLassoとほぼ同等の結果が得ら
    れる

    Graphical Lasso
 ❌
 ✔
 ✔
 ❌

    Python: sklearnにある

    R: glasso

    正規分布の仮定を逸脱すると計算が発散する
    (正則化を強めるといい)

    MI
 ✔
 ❌
 ❌
 ❌

    Python: 離散 , 連続

    R: infotheo

    -

    MIC
 ✔
 ❌
 ❌
 ❌

    Python: minepy

    R: minerva

    -

    (Partial) dCor
 ✔
 ✔
 ❌
 ❌

    Python: dcor

    R: energy

    False Positiveが多い

    CMI
 ✔
 ✔
 ❌
 ❌

    Python: NPEET, CCMI

    R: infotheo

    False Negativeが多いらしい(使ったことがな
    い)

    HSIC
 ✔
 ❌
 ❌
 ❌

    Python: hyppo

    R: dHSIC

    データ点数が多い時はつらい,O(n
    3)

    HSICLasso
 ✔
 ❌
 ✔
 ❌
 Python: pyHSICLasso, cdt
 割とよかった

    sGMRFmix
 ❌
 ✔
 ✔
 ✔

    Python: sGMRFmix

    R: sGMRFmix

    外れ値の処理などが重要っぽい

    TVGL
 ❌
 ✔
 ✔
 ✔
 Python: tvgl
 なぜか実装がPython2

    View Slide

  14. 参考・出典

    14
    Reshef, David N., et al. "Detecting novel associations in large data
    sets." science 334.6062 (2011): 1518-1524.
    MIC

    HSIC

    https://www.jst.go.jp/kisoken/aip/program/inter/vol2_sympo/slides/par
    t1_2_yamada.pdf
    Gretton, Arthur, et al. "Measuring statistical dependence with
    Hilbert-Schmidt norms." International conference on algorithmic
    learning theory. Springer, Berlin, Heidelberg, 2005.
    https://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_6kernelMea
    n.pdf
    dCor

    https://towardsdatascience.com/introducing-distance-correlation-a-su
    perior-correlation-metric-d569dc8900c7
    Székely, Gábor J., Maria L. Rizzo, and Nail K. Bakirov. "Measuring
    and testing dependence by correlation of distances." The annals of
    statistics 35.6 (2007): 2769-2794.
    Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. "Sparse
    inverse covariance estimation with the graphical lasso." Biostatistics
    9.3 (2008): 432-441.
    Graphical Lasso

    Witten, Daniela M., Jerome H. Friedman, and Noah Simon. "New
    insights and faster computations for the graphical lasso." Journal of
    Computational and Graphical Statistics 20.4 (2011): 892-900.
    sGMRFmix

    Idé, Tsuyoshi, Ankush Khandelwal, and Jayant Kalagnanam. "Sparse
    Gaussian Markov random field mixtures for anomaly detection." 2016
    IEEE 16th International Conference on Data Mining (ICDM). IEEE,
    2016.
    TVGL

    Hallac, David, et al. "Network inference via the time-varying graphical
    lasso." Proceedings of the 23rd ACM SIGKDD International
    Conference on Knowledge Discovery and Data Mining. 2017.

    View Slide

  15. 参考・出典

    15
    LSMI

    CMI

    PMI

    HSICLasso

    Jitkrittum, Wittawat, Hirotaka Hachiya, and Masashi Sugiyama. "Feature
    Selection via< mos00099. jpg> 1-Penalized Squared-Loss Mutual
    Information." IEICE TRANSACTIONS on Information and Systems 96.7
    (2013): 1513-1524.
    Novovičová, Jana, et al. "Conditional mutual information based feature
    selection for classification task." Iberoamerican Congress on Pattern
    Recognition. Springer, Berlin, Heidelberg, 2007.
    Mukherjee, Sudipto, Himanshu Asnani, and Sreeram Kannan. "CCMI:
    Classifier based conditional mutual information estimation." Uncertainty
    in Artificial Intelligence. PMLR, 2020.
    Zhao, Juan, et al. "Part mutual information for quantifying direct
    associations in networks." Proceedings of the National Academy of
    Sciences 113.18 (2016): 5130-5135.
    Yamada, Makoto, et al. "High-dimensional feature selection by
    feature-wise kernelized lasso." Neural computation 26.1 (2014):
    185-207.
    https://github.com/riken-aip/pyHSICLasso

    View Slide