[KDD2021 論文読み会] ControlBurn: Feature Selection by Sparse Forests

KDD2021 論文読み会 KDD ‘21 CONTROLBURN: Feature Selection by Sparse Forests
高柳慎一 / @_stakaya

- どんなもの？ - Weighted LASSOベースの特徴選択アルゴリズム - 先行研究と比べてどこがすごい？ - 相関した特徴量間の特徴量重要度を１つの特徴量に割り当て -
Tree系でありがちなCorrelation bias（後述）に頑健 - 計算効率が良 - 学習に必要なIterationは1回 - 何度も学習させる必要のある手法よりよい👍 - 論文の入手先（KDD本家からは取れない） - arXiv: https://arxiv.org/abs/2107.00219 - ResearchGate: https://www.researchgate.net/publication/353057015_ControlBurn_Feature_Selection_by_Sparse_Forests - 以下、図表は上記論文よりの引用要約

- 技術や手法のキモはどこ？ - 特徴量重要度の算出に対してLASSOを適用する - どうやって有効だと検証した？ - 相関のある特徴量を持つデータに対し同等の計算コストで他の特徴選択方法よりも優れていることを示した -
次に読むべき論文は？ - Louppe, Gilles. "Understanding random forests: From theory to practice." arXiv preprint arXiv:1407.7502 (2014). - Chzhen, E., Hebiri, M., Salmon, J., et al. On lasso refitting strategies. Bernoulli 25, 4A (2019), 3175–3200. - Zhou, Z., and Hooker, G. Unbiased measurement of feature importance in tree-based methods. arXiv preprint arXiv:1903.05179 (2019). - Nori, H., Jenkins, S., Koch, P., and Caruana, R. Interpretml: A unified framework for machine learning interpretability. arXiv preprint arXiv:1909.09223 (2019). 要約

- 論文中の特徴量重要度＝MDI - MDI = Mean Decrease Impurity - 要するにsklearnのhoge.feature_importances_
- MDA= Mean Decrease Accuracy - 要するにrandom permutation - Tree系の手法では、特徴量重要度に相関バイアス(correlation bias)が出てしまう - 相関ある特徴量間で特徴量重要度を分割してしまう（MDA・MDI共通） - Interpretable Machine Learning, Christoph Molnar, 5.5参照 - Random Forestで出した特徴量重要度 - 左図：Titanicデータ - 右図：age, sexに依存させた適当な人工的な特徴量（weight, height等）を追加した場合 - pclassがageの上へ！ - weight, heightがage, sexより上へ！ Introduction

- いらない特徴量を野焼き🔥して消す特徴量選択アルゴリズム - 野焼き＝ Control(led)Burn ControlBurn algorithm https://ja.wikipedia.org/wiki/野焼きより
- ご利益＆応用先 - Interpretable machine learning - Optimal experimental design - いらない特徴量を取得するコストを削れる - データ（特徴量）取得にコストがかかる分野を意識 - アルゴリズムの考え方 - 深い森（Forest）を作ると結局特徴量全部使われちゃってSparse にならないのでコツがいる（ココを工夫）

- 解く最適化問題 - m: サンプルサイズ - n: Tree🌴の数 - u_i:
Tree🌴iで使われている特徴量の数 - w_i: Tree🌴iのウェイト - 他の定義は心の目👀＋論文で理解しよう ControlBurn algorithm LASSO的Penalty Term

- 最大深さdmaxを指定しておく必要がある - これがハイパーパラメータになっている - 木の深さを順に深くしていく - 収束したら次の深さへ＜GO＞ - 収束＝N回Tree🌴作って、その時の”Train"誤差がε以内
- baggingは過学習しにくいし計算速いいいだろと - N=5, ε ~ 10^{-3} が経験的に良いらしい Incremental depth bagging (Algorithm 1) 色付き丸🔴🔵で特徴量を区別赤破線…が最終的な森 ※結局、これは使われない

- OOB error（残差）から最大深さは自動調整 - ハイパーパラメータチューニング不要！ - OOBが改善する限り（δ > 0),
Tree🌴を深くする - Incremental depth bag-boosting (Algorithm 2) データごとの誤差 ※OOBで計算した改善幅が真の改善幅に漸近する理論保証も論文中にあり（3.2.3 Theoretical guarantees）収束の定義は Algorithm 1同様

- 細かい最適化周りのテクニックもあり🐜 - 特徴量のGrouping、コスト計算の非均一化、行列のSketching - 損失関数はロジスティック損失 - アルゴリズムのポイント - 最適化問題を解いた後、重み0の特徴量を除去し、ランダムフォレス
ト分類器を再学習させる - 指定した特徴量数になるよう、2分法で最適なλを出す - ベースラインモデル＝ random forest baseline - MDIの上位k個の特徴量を選択して作ったrandom forest🌳🌳🌳 Optimization variants & Experimental setup

- 最終的なアルゴリズム - 結局、Algorithm 1は不要（経験的にAlgorithm 2の方が優秀のため） ControlBurn (Algorithm 3) RFE
= Recursive Feature Elimination ※特徴量重要度で Ranking→最下位特徴量削除 →再学習→特徴量重要度で Ranking…を繰り返し ※２分法でλを選定 ※Sparsity=最終的に特徴量の数で指定

- Chess dataset from UCI MLR - random forestのMDIを見て最も重要な特徴量のコピーを生成
with ガウシアンノイズ - 繰り返して特徴量を増やす Semi-synthetic dataset コピーされた特徴量での ROC-AUC劣化がほぼない

- random forest baselineに比較して同等・良好なパフォーマンス - データの詳細は本文参照 Case studies

- Bias from uninformative continuous features - MDIは”より分割できる”特徴量に対してBiasかかる - Binaryより連続値が重要
- 広く知られている話でscikit-learnにも解説有🐜 - Permutation Importance vs Random Forest Feature Importance (MDI) - 選ばれる特徴量が少ないほどuninformativeな奴の順位が下落 → Unbiasedできてる Discussion and future work - Limits of LASSO: big p, small m - LASSO 〜最大m特徴量 - Zou, H., and Hastie, T. Regularization and variable selection via the elastic net. Journal of the royal statistical society: series B (statistical methodology) 67, 2 (2005), 301–320. - Controlburn 〜最大m^2特徴量（Sparse性能に差が！） - Controlburnだとグループとして採用したい特徴量も１つになる - Group Elastic Net（L2も入れるということ）で解決する？ - Münch, M. M., Peeters, C. F., Van Der Vaart, A. W., and Van De Wiel, M. A. Adaptive group-regularized logistic elastic net regression. Biostatistics (2018)

- なんか楽そう＆早そうで良 - Permutation Importance（MDA）でやってないのはなんで？ 🤔 - 気になるので読んでおきたい - Zhou,
Z., and Hooker, G. Unbiased measurement of feature importance in tree-based methods. arXiv preprint arXiv:1903.05179 (2019). - Louppe, Gilles. "Understanding random forests: From theory to practice." arXiv preprint arXiv:1407.7502 (2014). - Nori, H., Jenkins, S., Koch, P., and Caruana, R. Interpretml: A unified framework for machine learning interpretability. arXiv preprint arXiv:1909.09223 (2019). - 各種古典系論文(Brieman 2001, 2002, Strobl 2007, 2008) 所感

[KDD2021 論文読み会] ControlBurn: Feature Selection ...

[KDD2021 論文読み会] ControlBurn: Feature Selection by Sparse Forests

Shinichi Takayanagi

More Decks by Shinichi Takayanagi

Other Decks in Research

Featured

Transcript

KDD2021 論文読み会 KDD ‘21 CONTROLBURN: Feature Selection by Sparse Forests

- どんなもの？ - Weighted LASSOベースの特徴選択アルゴリズム - 先行研究と比べてどこがすごい？ - 相関した特徴量間の特徴量重要度を１つの特徴量に割り当て -

- 技術や手法のキモはどこ？ - 特徴量重要度の算出に対してLASSOを適用する - どうやって有効だと検証した？ - 相関のある特徴量を持つデータに対し同等の計算コストで他の特徴選択方法よりも優れていることを示した -

- 論文中の特徴量重要度＝MDI - MDI = Mean Decrease Impurity - 要するにsklearnのhoge.feature_importances_

- いらない特徴量を野焼き🔥して消す特徴量選択アルゴリズム - 野焼き＝ Control(led)Burn ControlBurn algorithm https://ja.wikipedia.org/wiki/野焼きより

- 解く最適化問題 - m: サンプルサイズ - n: Tree🌴の数 - u_i:

- 最大深さdmaxを指定しておく必要がある - これがハイパーパラメータになっている - 木の深さを順に深くしていく - 収束したら次の深さへ＜GO＞ - 収束＝N回Tree🌴作って、その時の”Train"誤差がε以内

- OOB error（残差）から最大深さは自動調整 - ハイパーパラメータチューニング不要！ - OOBが改善する限り（δ > 0),

- 最終的なアルゴリズム - 結局、Algorithm 1は不要（経験的にAlgorithm 2の方が優秀のため） ControlBurn (Algorithm 3) RFE

- Chess dataset from UCI MLR - random forestのMDIを見て最も重要な特徴量のコピーを生成

- random forest baselineに比較して同等・良好なパフォーマンス - データの詳細は本文参照 Case studies

- Bias from uninformative continuous features - MDIは”より分割できる”特徴量に対してBiasかかる - Binaryより連続値が重要

- なんか楽そう＆早そうで良 - Permutation Importance（MDA）でやってないのはなんで？ 🤔 - 気になるので読んでおきたい - Zhou,

END