Upgrade to Pro — share decks privately, control downloads, hide ads and more …

変数間の関係を捉えたいあなたへ

 変数間の関係を捉えたいあなたへ

A presentation for a meetup about statistics.
https://connpass.com/event/204931/

Topics:
Methods and their properties to capture relationships between variables

2c68dc672293cc3f8a7a57d3af86f15b?s=128

Hidehisa Arai

March 28, 2021
Tweet

Transcript

  1. 変数間の関係を捉えたいあなたへ
 統計学勉強会#2
 Hidehisa Arai (@kaggle_araisan)
 出典: https://scikit-learn.org/stable/auto_examples/applications/plot_stock_market.html 


  2. 自己紹介
 2 • Hidehisa Arai (Twitter: @kaggle_araisan) 
 
 •

    この春大学院(航空宇宙工学専攻)を卒業しました 
 
 • 大学院では表現学習の研究をしていました 
 
 • NABLASという会社で働いていました 
 ◦ 異常検知などをしていました
 ◦ 今日の話はそのときの調査内容が主です 
 
 • 趣味: Kaggle, 散歩...

  3. 背景
 3 多変数データ間の関係を捉えたいという需要は生物情報・ 経済・機械システムなど多くの分野にある 生物情報学での活用例: タンパク質の構造推定 
 (複雑な)機械システムでの活用例: 
 異常検知・原因特定補助

    
 タンパク質を構成するアミノ酸のうち近接している部 位は共進化†を起こすという仮説をもとに、近接部位 の予測を行う
 †共進化: ペアの片方が変異した際、構造を保つためもう片方のペアも変異する こと 
 アミノ酸配列 コンタクトマップ (よく知らない・・・)
 正常な変数間の関係を学習しておきそこからの乖 離を異常とみなす。異常はセンサの関係ネットワー クを伝播するという仮説から真因の特定に変数間 の関係を用いる
 直接相関グラフの構築 相関異常度による 異常検知 参考: https://www.pnas.org/content/108/49/E1293 参考: https://latent-dynamics.net/01/2010_LD_Ide.pdf
  4. おことわり
 4 • 因果は扱わない
 ◦ 因果探索という分野になる、難しい
 ◦ 仮定が強いことが多いので研究レベル?ビジネスでの運用はされているの だろうか?
 ◦

    NOTEARS†というやつが面白いらしい
 
 • 理論的な話はあんまりしない
 ◦ 私自身があまり理解していない部分も結構ある
 ◦ (むしろ教えて欲しい)
 
 • 網羅的ではない(と思う)
 ◦ 多分抜けがあるし、かなり偏っている
 ◦ こういうのもあるよ!というのはぜひ教えてください!
 † https://github.com/xunzheng/notears
  5. 5 相関
 偏相関
 HSIC
 Distance Correlation
 Partial Distance Correlation
 相互情報量(MI)


    MIC
 Squared-loss Mutual Information
 非線形
 Graphical Lasso 
 sGMRFmix 
 TVGL
 他の変数の影 響を除去
 時間発展を考慮
 線形
 HSICLasso 
 Overview l 1 -LSMI 
 スパース性
 CMI
 PMI

  6. 着目点① - 線形と非線形
 6 ピアソンの積率相関では下段のような関係は捉えられない 
 • 相互情報量ベースの手法 
 ◦

    Mutual Information
 ◦ Maximal Information Coefficient(MIC) 
 ▪ 「21世紀の相関」
 ◦ Squared-loss Mutual Information(SMI) 
 ◦ Conditional Mutual Information(CMI) 
 ◦ Part Mutual Information(PMI) 
 • カーネル法使うやつ(よく理解できてない) 
 ◦ Hilbert-Schmidt Information Criteria(HSIC) 
 • Distance 〇〇(よく理解できてない) 
 ◦ (Partial) Distance Correlation 
 ◦ (Partial) Distance Covariance 
 ◦ カーネル法使うやつの特殊ケースらしい †
 線形
 非線形
 • ピアソンの積率相関 
 • 偏相関
 • Graphical Lasso
 † https://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_6kernelMean.pdf
  7. 着目点① - 非線形な手法
 7 相互情報量をベースとするもの 
 データ点を別の空間に射影した上で共分散 (のようなもの)を評価する 
 離散


    連続
 密度推定
 連続な場合は適当な分割で離散化をした上で計 算をする、など
 離散化の恣意性を排除するために全ての分割を 試し一番いいものを選ぶ(MIC) 
 内積計算がカーネル関数の評価で行える空間で 共分散作用素のノルムを独立性の指標とする (=> HSIC)

  8. 着目点② - 他の変数の影響
 8 二変数の間の関係は他の変数の影響を受けて現れる「見せかけの関係」の場合がある 
 この例では、身長と算数の 点数が学年という変数の影 響を受けて高い相関を示す 


    出典: R for Biologists SchoolChildrenMathsデータセット https://www.ecarleton.ca/mod/folder/view.php?id=641 統計的消去(線形)
 条件付き独立性の検定(非線形) 
 学年に対する標準身長・標 準的な算数の点数を線形 回帰で求めて元の変数(身 長・算数の点数)から引き、 残差の間の相関を計算 
 参考 https://hoxo-m.hatenablog.com/entry/20130711/p1 条件付き相互情報量(Conditional Mutual Information)などを評価 

  9. 着目点② - 他の変数の影響 - 偏相関
 9 多変数(4以上とする)の場合、いちいち統計的消去を行えない→実は精度行列から求まる 
 分散共分散行列 精度行列

    逆行列の関係 相関行列(直接相関+疑似相関) 偏相関行列(直接相関) データから定義通り計算 1. 逆行列計算で得る 2. 最適化計算で直接計算 (後述) 分散共分散行列から計算 1. 精度行列から計算 2. 相関行列から計算
  10. 着目点③ - スパース性 - Graphical Lasso
 10 偏相関はノイズの影響により完全に0になることは少ない→正則化でスパースにする 
 データが多変量正規分布から生成されている、とい

    う仮定をおいて、最尤法でパラメータ(精度行列)を 推定
 正規分布のPDFは精度行列で表せる 
 尤度関数
 対数尤度関数
 と書くことにする
 定数
 とかける +L1正則化
 出典: scikit-learn document Sparse inverse covariance estimation https://scikit-learn.org/stable/auto_examples/covariance/plot_sparse_c ov.html#sphx-glr-auto-examples-covariance-plot-sparse-cov-py
  11. 着目点③ - スパース性 - 非線形な特徴選択法
 11 特徴選択などに用いることができる関連度自動決定(ARD)手法 
 HSICLasso
 (超)高次元(1,000~)、少データ(~数百)における特徴選択で効果を発揮

    
 Bioinformaticsなどでよくあるシナリオらしい 
 出典: https://ibisml.org/archive/ibis2012/D_day2.pdf
  12. 着目点④ - 時間発展
 12 機械システムなどではシステムの状態が変化することがある→変数の関係も変化 
 sGMRFmix
 Time-Varying Graphical Lasso(TVGL)

    
 複数のモードを持つようなシステム向けの異常検知手 法。Graphical Lasso + Gaussian Mixture Modelのよう な感じ。モードごとに疎な偏相関を計算できる 
 Graphical Lassoで推定される精度行列が各時刻で違 うものだとした上で、近接する精度行列が類似するよう にん制約を課して最適化 
 GLassoの目的関数
 時間発展の仕方に 関する制約
 出典: https://dl.acm.org/doi/10.1145/3097983.3098037 出典: https://ide-research.net/papers/2016_ICDM_Ide.pdf
  13. 13 手法
 非線形
 他の変数の影響除去 
 スパース性
 時間発展
 実装
 備考
 相関


    ❌
 ❌
 ❌
 ❌
 -
 -
 偏相関
 ❌
 ✔
 ❌
 ❌
 -
 次元が少ないとGLassoとほぼ同等の結果が得ら れる
 Graphical Lasso
 ❌
 ✔
 ✔
 ❌
 Python: sklearnにある
 R: glasso
 正規分布の仮定を逸脱すると計算が発散する (正則化を強めるといい)
 MI
 ✔
 ❌
 ❌
 ❌
 Python: 離散 , 連続
 R: infotheo
 -
 MIC
 ✔
 ❌
 ❌
 ❌
 Python: minepy
 R: minerva
 -
 (Partial) dCor
 ✔
 ✔
 ❌
 ❌
 Python: dcor
 R: energy
 False Positiveが多い 
 CMI
 ✔
 ✔
 ❌
 ❌
 Python: NPEET, CCMI
 R: infotheo
 False Negativeが多いらしい(使ったことがな い)
 HSIC
 ✔
 ❌
 ❌
 ❌
 Python: hyppo
 R: dHSIC
 データ点数が多い時はつらい,O(n 3)
 HSICLasso
 ✔
 ❌
 ✔
 ❌
 Python: pyHSICLasso, cdt
 割とよかった
 sGMRFmix
 ❌
 ✔
 ✔
 ✔
 Python: sGMRFmix
 R: sGMRFmix
 外れ値の処理などが重要っぽい 
 TVGL
 ❌
 ✔
 ✔
 ✔
 Python: tvgl
 なぜか実装がPython2 

  14. 参考・出典
 14 Reshef, David N., et al. "Detecting novel associations

    in large data sets." science 334.6062 (2011): 1518-1524. MIC
 HSIC
 https://www.jst.go.jp/kisoken/aip/program/inter/vol2_sympo/slides/par t1_2_yamada.pdf Gretton, Arthur, et al. "Measuring statistical dependence with Hilbert-Schmidt norms." International conference on algorithmic learning theory. Springer, Berlin, Heidelberg, 2005. https://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_6kernelMea n.pdf dCor
 https://towardsdatascience.com/introducing-distance-correlation-a-su perior-correlation-metric-d569dc8900c7 Székely, Gábor J., Maria L. Rizzo, and Nail K. Bakirov. "Measuring and testing dependence by correlation of distances." The annals of statistics 35.6 (2007): 2769-2794. Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. "Sparse inverse covariance estimation with the graphical lasso." Biostatistics 9.3 (2008): 432-441. Graphical Lasso
 Witten, Daniela M., Jerome H. Friedman, and Noah Simon. "New insights and faster computations for the graphical lasso." Journal of Computational and Graphical Statistics 20.4 (2011): 892-900. sGMRFmix
 Idé, Tsuyoshi, Ankush Khandelwal, and Jayant Kalagnanam. "Sparse Gaussian Markov random field mixtures for anomaly detection." 2016 IEEE 16th International Conference on Data Mining (ICDM). IEEE, 2016. TVGL
 Hallac, David, et al. "Network inference via the time-varying graphical lasso." Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2017.
  15. 参考・出典
 15 LSMI
 CMI
 PMI
 HSICLasso
 Jitkrittum, Wittawat, Hirotaka Hachiya,

    and Masashi Sugiyama. "Feature Selection via< mos00099. jpg> 1-Penalized Squared-Loss Mutual Information." IEICE TRANSACTIONS on Information and Systems 96.7 (2013): 1513-1524. Novovičová, Jana, et al. "Conditional mutual information based feature selection for classification task." Iberoamerican Congress on Pattern Recognition. Springer, Berlin, Heidelberg, 2007. Mukherjee, Sudipto, Himanshu Asnani, and Sreeram Kannan. "CCMI: Classifier based conditional mutual information estimation." Uncertainty in Artificial Intelligence. PMLR, 2020. Zhao, Juan, et al. "Part mutual information for quantifying direct associations in networks." Proceedings of the National Academy of Sciences 113.18 (2016): 5130-5135. Yamada, Makoto, et al. "High-dimensional feature selection by feature-wise kernelized lasso." Neural computation 26.1 (2014): 185-207. https://github.com/riken-aip/pyHSICLasso