変数間の関係を捉えたいあなたへ

変数間の関係を捉えたいあなたへ  統計学勉強会#2  Hidehisa Arai (@kaggle_araisan)  出典: https://scikit-learn.org/stable/auto_examples/applications/plot_stock_market.html  

自己紹介  2 • Hidehisa Arai (Twitter: @kaggle_araisan)     •
この春大学院(航空宇宙工学専攻)を卒業しました     • 大学院では表現学習の研究をしていました     • NABLASという会社で働いていました   ◦ 異常検知などをしていました  ◦ 今日の話はそのときの調査内容が主です     • 趣味: Kaggle, 散歩... 

背景  3 多変数データ間の関係を捉えたいという需要は生物情報・経済・機械システムなど多くの分野にある生物情報学での活用例: タンパク質の構造推定   (複雑な)機械システムでの活用例:   異常検知・原因特定補助
  タンパク質を構成するアミノ酸のうち近接している部位は共進化†を起こすという仮説をもとに、近接部位の予測を行う  †共進化: ペアの片方が変異した際、構造を保つためもう片方のペアも変異すること   アミノ酸配列コンタクトマップ (よく知らない・・・)  正常な変数間の関係を学習しておきそこからの乖離を異常とみなす。異常はセンサの関係ネットワークを伝播するという仮説から真因の特定に変数間の関係を用いる  直接相関グラフの構築相関異常度による異常検知参考: https://www.pnas.org/content/108/49/E1293 参考: https://latent-dynamics.net/01/2010_LD_Ide.pdf

おことわり  4 • 因果は扱わない  ◦ 因果探索という分野になる、難しい  ◦ 仮定が強いことが多いので研究レベル？ビジネスでの運用はされているのだろうか？  ◦
NOTEARS†というやつが面白いらしい    • 理論的な話はあんまりしない  ◦ 私自身があまり理解していない部分も結構ある  ◦ (むしろ教えて欲しい)    • 網羅的ではない(と思う)  ◦ 多分抜けがあるし、かなり偏っている  ◦ こういうのもあるよ！というのはぜひ教えてください！  † https://github.com/xunzheng/notears

5 相関  偏相関  HSIC  Distance Correlation  Partial Distance Correlation  相互情報量(MI) 
MIC  Squared-loss Mutual Information  非線形  Graphical Lasso   sGMRFmix   TVGL  他の変数の影響を除去  時間発展を考慮  線形  HSICLasso   Overview l 1 -LSMI   スパース性  CMI  PMI 

着目点① - 線形と非線形  6 ピアソンの積率相関では下段のような関係は捉えられない   • 相互情報量ベースの手法   ◦
Mutual Information  ◦ Maximal Information Coefficient(MIC)   ▪ 「21世紀の相関」  ◦ Squared-loss Mutual Information(SMI)   ◦ Conditional Mutual Information(CMI)   ◦ Part Mutual Information(PMI)   • カーネル法使うやつ(よく理解できてない)   ◦ Hilbert-Schmidt Information Criteria(HSIC)   • Distance 〇〇(よく理解できてない)   ◦ (Partial) Distance Correlation   ◦ (Partial) Distance Covariance   ◦ カーネル法使うやつの特殊ケースらしい †  線形  非線形  • ピアソンの積率相関   • 偏相関  • Graphical Lasso  † https://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_6kernelMean.pdf

着目点① - 非線形な手法  7 相互情報量をベースとするもの   データ点を別の空間に射影した上で共分散 (のようなもの)を評価する   離散 
連続  密度推定  連続な場合は適当な分割で離散化をした上で計算をする、など  離散化の恣意性を排除するために全ての分割を試し一番いいものを選ぶ(MIC)   内積計算がカーネル関数の評価で行える空間で共分散作用素のノルムを独立性の指標とする (=> HSIC) 

着目点② - 他の変数の影響  8 二変数の間の関係は他の変数の影響を受けて現れる「見せかけの関係」の場合がある   この例では、身長と算数の点数が学年という変数の影響を受けて高い相関を示す  
出典: R for Biologists SchoolChildrenMathsデータセット https://www.ecarleton.ca/mod/folder/view.php?id=641 統計的消去(線形)  条件付き独立性の検定(非線形)   学年に対する標準身長・標準的な算数の点数を線形回帰で求めて元の変数(身長・算数の点数)から引き、残差の間の相関を計算   参考 https://hoxo-m.hatenablog.com/entry/20130711/p1 条件付き相互情報量(Conditional Mutual Information)などを評価  

着目点② - 他の変数の影響 - 偏相関  9 多変数(4以上とする)の場合、いちいち統計的消去を行えない→実は精度行列から求まる   分散共分散行列精度行列
逆行列の関係相関行列(直接相関+疑似相関) 偏相関行列(直接相関) データから定義通り計算 1. 逆行列計算で得る 2. 最適化計算で直接計算 (後述) 分散共分散行列から計算 1. 精度行列から計算 2. 相関行列から計算

着目点③ - スパース性 - Graphical Lasso  10 偏相関はノイズの影響により完全に0になることは少ない→正則化でスパースにする   データが多変量正規分布から生成されている、とい
う仮定をおいて、最尤法でパラメータ(精度行列)を推定  正規分布のPDFは精度行列で表せる   尤度関数  対数尤度関数  と書くことにする  定数  とかける +L1正則化  出典: scikit-learn document Sparse inverse covariance estimation https://scikit-learn.org/stable/auto_examples/covariance/plot_sparse_c ov.html#sphx-glr-auto-examples-covariance-plot-sparse-cov-py

着目点③ - スパース性 - 非線形な特徴選択法  11 特徴選択などに用いることができる関連度自動決定(ARD)手法   HSICLasso  (超)高次元(1,000~)、少データ(~数百)における特徴選択で効果を発揮
  Bioinformaticsなどでよくあるシナリオらしい   出典: https://ibisml.org/archive/ibis2012/D_day2.pdf

着目点④ - 時間発展  12 機械システムなどではシステムの状態が変化することがある→変数の関係も変化   sGMRFmix  Time-Varying Graphical Lasso(TVGL)
  複数のモードを持つようなシステム向けの異常検知手法。Graphical Lasso + Gaussian Mixture Modelのような感じ。モードごとに疎な偏相関を計算できる   Graphical Lassoで推定される精度行列が各時刻で違うものだとした上で、近接する精度行列が類似するようにん制約を課して最適化   GLassoの目的関数  時間発展の仕方に関する制約  出典: https://dl.acm.org/doi/10.1145/3097983.3098037 出典: https://ide-research.net/papers/2016_ICDM_Ide.pdf

13 手法  非線形  他の変数の影響除去   スパース性  時間発展  実装  備考  相関 
❌  ❌  ❌  ❌  -  -  偏相関  ❌  ✔  ❌  ❌  -  次元が少ないとGLassoとほぼ同等の結果が得られる  Graphical Lasso  ❌  ✔  ✔  ❌  Python: sklearnにある  R: glasso  正規分布の仮定を逸脱すると計算が発散する (正則化を強めるといい)  MI  ✔  ❌  ❌  ❌  Python: 離散 , 連続  R: infotheo  -  MIC  ✔  ❌  ❌  ❌  Python: minepy  R: minerva  -  (Partial) dCor  ✔  ✔  ❌  ❌  Python: dcor  R: energy  False Positiveが多い   CMI  ✔  ✔  ❌  ❌  Python: NPEET, CCMI  R: infotheo  False Negativeが多いらしい(使ったことがない)  HSIC  ✔  ❌  ❌  ❌  Python: hyppo  R: dHSIC  データ点数が多い時はつらい,O(n 3)  HSICLasso  ✔  ❌  ✔  ❌  Python: pyHSICLasso, cdt  割とよかった  sGMRFmix  ❌  ✔  ✔  ✔  Python: sGMRFmix  R: sGMRFmix  外れ値の処理などが重要っぽい   TVGL  ❌  ✔  ✔  ✔  Python: tvgl  なぜか実装がPython2  

参考・出典  14 Reshef, David N., et al. "Detecting novel associations
in large data sets." science 334.6062 (2011): 1518-1524. MIC  HSIC  https://www.jst.go.jp/kisoken/aip/program/inter/vol2_sympo/slides/par t1_2_yamada.pdf Gretton, Arthur, et al. "Measuring statistical dependence with Hilbert-Schmidt norms." International conference on algorithmic learning theory. Springer, Berlin, Heidelberg, 2005. https://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_6kernelMea n.pdf dCor  https://towardsdatascience.com/introducing-distance-correlation-a-su perior-correlation-metric-d569dc8900c7 Székely, Gábor J., Maria L. Rizzo, and Nail K. Bakirov. "Measuring and testing dependence by correlation of distances." The annals of statistics 35.6 (2007): 2769-2794. Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. "Sparse inverse covariance estimation with the graphical lasso." Biostatistics 9.3 (2008): 432-441. Graphical Lasso  Witten, Daniela M., Jerome H. Friedman, and Noah Simon. "New insights and faster computations for the graphical lasso." Journal of Computational and Graphical Statistics 20.4 (2011): 892-900. sGMRFmix  Idé, Tsuyoshi, Ankush Khandelwal, and Jayant Kalagnanam. "Sparse Gaussian Markov random field mixtures for anomaly detection." 2016 IEEE 16th International Conference on Data Mining (ICDM). IEEE, 2016. TVGL  Hallac, David, et al. "Network inference via the time-varying graphical lasso." Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2017.

参考・出典  15 LSMI  CMI  PMI  HSICLasso  Jitkrittum, Wittawat, Hirotaka Hachiya,
and Masashi Sugiyama. "Feature Selection via< mos00099. jpg> 1-Penalized Squared-Loss Mutual Information." IEICE TRANSACTIONS on Information and Systems 96.7 (2013): 1513-1524. Novovičová, Jana, et al. "Conditional mutual information based feature selection for classification task." Iberoamerican Congress on Pattern Recognition. Springer, Berlin, Heidelberg, 2007. Mukherjee, Sudipto, Himanshu Asnani, and Sreeram Kannan. "CCMI: Classifier based conditional mutual information estimation." Uncertainty in Artificial Intelligence. PMLR, 2020. Zhao, Juan, et al. "Part mutual information for quantifying direct associations in networks." Proceedings of the National Academy of Sciences 113.18 (2016): 5130-5135. Yamada, Makoto, et al. "High-dimensional feature selection by feature-wise kernelized lasso." Neural computation 26.1 (2014): 185-207. https://github.com/riken-aip/pyHSICLasso

変数間の関係を捉えたいあなたへ

変数間の関係を捉えたいあなたへ

Hidehisa Arai

More Decks by Hidehisa Arai

Other Decks in Science

Featured

Transcript

変数間の関係を捉えたいあなたへ  統計学勉強会#2  Hidehisa Arai (@kaggle_araisan)  出典: https://scikit-learn.org/stable/auto_examples/applications/plot_stock_market.html

自己紹介  2 • Hidehisa Arai (Twitter: @kaggle_araisan)     •

背景  3 多変数データ間の関係を捉えたいという需要は生物情報・経済・機械システムなど多くの分野にある生物情報学での活用例: タンパク質の構造推定   (複雑な)機械システムでの活用例:   異常検知・原因特定補助

おことわり  4 • 因果は扱わない  ◦ 因果探索という分野になる、難しい  ◦ 仮定が強いことが多いので研究レベル？ビジネスでの運用はされているのだろうか？  ◦

5 相関  偏相関  HSIC  Distance Correlation  Partial Distance Correlation  相互情報量(MI)

着目点① - 線形と非線形  6 ピアソンの積率相関では下段のような関係は捉えられない   • 相互情報量ベースの手法   ◦

着目点① - 非線形な手法  7 相互情報量をベースとするもの   データ点を別の空間に射影した上で共分散 (のようなもの)を評価する   離散

着目点② - 他の変数の影響  8 二変数の間の関係は他の変数の影響を受けて現れる「見せかけの関係」の場合がある   この例では、身長と算数の点数が学年という変数の影響を受けて高い相関を示す

着目点② - 他の変数の影響 - 偏相関  9 多変数(4以上とする)の場合、いちいち統計的消去を行えない→実は精度行列から求まる   分散共分散行列精度行列

着目点③ - スパース性 - Graphical Lasso  10 偏相関はノイズの影響により完全に0になることは少ない→正則化でスパースにする   データが多変量正規分布から生成されている、とい

着目点③ - スパース性 - 非線形な特徴選択法  11 特徴選択などに用いることができる関連度自動決定(ARD)手法   HSICLasso  (超)高次元(1,000~)、少データ(~数百)における特徴選択で効果を発揮

着目点④ - 時間発展  12 機械システムなどではシステムの状態が変化することがある→変数の関係も変化   sGMRFmix  Time-Varying Graphical Lasso(TVGL)

13 手法  非線形  他の変数の影響除去   スパース性  時間発展  実装  備考  相関

参考・出典  14 Reshef, David N., et al. "Detecting novel associations

参考・出典  15 LSMI  CMI  PMI  HSICLasso  Jitkrittum, Wittawat, Hirotaka Hachiya,