$30 off During Our Annual Pro Sale. View Details »

[KDD2021 論文読み会] ControlBurn: Feature Selection by Sparse Forests

[KDD2021 論文読み会] ControlBurn: Feature Selection by Sparse Forests

Shinichi Takayanagi

October 07, 2021
Tweet

More Decks by Shinichi Takayanagi

Other Decks in Research

Transcript

  1. KDD2021 論文読み会
    KDD ‘21
    CONTROLBURN: Feature Selection by Sparse Forests
    高柳慎一 / @_stakaya

    View Slide

  2. - どんなもの?
    - Weighted LASSOベースの特徴選択アルゴリズム
    - 先行研究と比べてどこがすごい?
    - 相関した特徴量間の特徴量重要度を1つの特徴量に割り当て
    - Tree系でありがちなCorrelation bias(後述)に頑健
    - 計算効率が良
    - 学習に必要なIterationは1回
    - 何度も学習させる必要のある手法よりよい👍
    - 論文の入手先(KDD本家からは取れない)
    - arXiv: https://arxiv.org/abs/2107.00219
    - ResearchGate: https://www.researchgate.net/publication/353057015_ControlBurn_Feature_Selection_by_Sparse_Forests
    - 以下、図表は上記論文よりの引用
    要約

    View Slide

  3. - 技術や手法のキモはどこ?
    - 特徴量重要度の算出に対してLASSOを適用する
    - どうやって有効だと検証した?
    - 相関のある特徴量を持つデータに対し同等の計算コストで他
    の特徴選択方法よりも優れていることを示した
    - 次に読むべき論文は?
    - Louppe, Gilles. "Understanding random forests: From theory to practice." arXiv preprint
    arXiv:1407.7502 (2014).
    - Chzhen, E., Hebiri, M., Salmon, J., et al. On lasso refitting strategies. Bernoulli 25, 4A
    (2019), 3175–3200.
    - Zhou, Z., and Hooker, G. Unbiased measurement of feature importance in tree-based
    methods. arXiv preprint arXiv:1903.05179 (2019).
    - Nori, H., Jenkins, S., Koch, P., and Caruana, R. Interpretml: A unified framework for
    machine learning interpretability. arXiv preprint arXiv:1909.09223 (2019).
    要約

    View Slide

  4. - 論文中の特徴量重要度=MDI
    - MDI = Mean Decrease Impurity
    - 要するにsklearnのhoge.feature_importances_
    - MDA= Mean Decrease Accuracy
    - 要するにrandom permutation
    - Tree系の手法では、特徴量重要度に相関バ
    イアス(correlation bias)が出てしまう
    - 相関ある特徴量間で特徴量重要度を分割
    してしまう(MDA・MDI共通)
    - Interpretable Machine Learning, Christoph Molnar, 5.5参照
    - Random Forestで出した特徴量重要度
    - 左図:Titanicデータ
    - 右図:age, sexに依存させた適当な人工的な特徴
    量(weight, height等)を追加した場合
    - pclassがageの上へ!
    - weight, heightがage, sexより上へ!
    Introduction

    View Slide

  5. - いらない特徴量を野焼き🔥して消す特徴量選択アルゴリズム
    - 野焼き = Control(led)Burn
    ControlBurn algorithm
    https://ja.wikipedia.org/wiki/野焼き より
    - ご利益&応用先
    - Interpretable machine learning
    - Optimal experimental design
    - いらない特徴量を取得するコストを削れる
    - データ(特徴量)取得にコストがかかる分野を意識
    - アルゴリズムの考え方
    - 深い森(Forest)を作ると結局特徴量全部使われちゃってSparse
    にならないのでコツがいる(ココを工夫)

    View Slide

  6. - 解く最適化問題
    - m: サンプルサイズ
    - n: Tree🌴の数
    - u_i: Tree🌴iで使われている特徴量の数
    - w_i: Tree🌴iのウェイト
    - 他の定義は心の目👀+論文で理解しよう
    ControlBurn algorithm
    LASSO的Penalty Term

    View Slide

  7. - 最大深さdmaxを指定しておく必要がある
    - これがハイパーパラメータになっている
    - 木の深さを順に深くしていく
    - 収束したら次の深さへ<GO>
    - 収束=N回Tree🌴作って、その時の”Train"誤差がε以内
    - baggingは過学習しにくいし計算速いいいだろと
    - N=5, ε ~ 10^{-3} が経験的に良いらしい
    Incremental depth bagging (Algorithm 1)
    色付き丸🔴🔵で特徴量を区別
    赤破線…が最終的な森
    ※結局、これは使われない

    View Slide

  8. - OOB error(残差)から最大深さは自動調整
    - ハイパーパラメータチューニング不要 !
    - OOBが改善する限り(δ > 0), Tree🌴を深くする
    -
    Incremental depth bag-boosting (Algorithm 2)
    データごとの誤差
    ※OOBで計算した改善幅が真の改善幅に漸近する理論保証も論文中にあり(3.2.3 Theoretical guarantees)
    収束の定義は
    Algorithm 1同様

    View Slide

  9. - 細かい最適化周りのテクニックもあり🐜
    - 特徴量のGrouping、コスト計算の非均一化、行列のSketching
    - 損失関数はロジスティック損失
    - アルゴリズムのポイント
    - 最適化問題を解いた後、重み0の特徴量を除去し、ランダムフォレス
    ト分類器を再学習させる
    - 指定した特徴量数になるよう、2分法で最適なλを出す
    - ベースラインモデル = random forest baseline
    - MDIの上位k個の特徴量を選択して作ったrandom forest🌳🌳🌳
    Optimization variants & Experimental setup

    View Slide

  10. - 最終的なアルゴリズム
    - 結局、Algorithm 1は不要(経験的にAlgorithm 2の方が優秀のため)
    ControlBurn (Algorithm 3)
    RFE = Recursive Feature Elimination
    ※特徴量重要度で
    Ranking→最下位特徴量削除
    →再学習→特徴量重要度で
    Ranking…を繰り返し
    ※2分法でλを選定
    ※Sparsity=最終的に特徴量の数で指定

    View Slide

  11. - Chess dataset from UCI MLR
    - random forestのMDIを見て最も重
    要な特徴量のコピーを生成 with ガ
    ウシアンノイズ
    - 繰り返して特徴量を増やす
    Semi-synthetic dataset
    コピーされた特徴量での ROC-AUC劣化がほぼない

    View Slide

  12. - random forest baselineに比較して同等・良好なパフォーマンス
    - データの詳細は本文参照
    Case studies

    View Slide

  13. - Bias from uninformative continuous features
    - MDIは”より分割できる”特徴量に対してBiasかかる
    - Binaryより連続値が重要
    - 広く知られている話でscikit-learnにも解説有🐜
    - Permutation Importance vs Random Forest Feature Importance (MDI)
    - 選ばれる特徴量が少ないほどuninformativeな奴の順
    位が下落 → Unbiasedできてる
    Discussion and future work
    - Limits of LASSO: big p, small m
    - LASSO 〜 最大m特徴量
    - Zou, H., and Hastie, T. Regularization and variable selection via the elastic net. Journal of the royal statistical society:
    series B (statistical methodology) 67, 2 (2005), 301–320.
    - Controlburn 〜 最大m^2特徴量(Sparse性能に差が!)
    - Controlburnだとグループとして採用したい特徴量も1つになる
    - Group Elastic Net(L2も入れるということ)で解決する?
    - Münch, M. M., Peeters, C. F., Van Der Vaart, A. W., and Van De Wiel, M. A. Adaptive group-regularized logistic elastic net regression. Biostatistics (2018)

    View Slide

  14. - なんか楽そう&早そうで良
    - Permutation Importance(MDA)でやってないのはなんで? 🤔
    - 気になるので読んでおきたい
    - Zhou, Z., and Hooker, G. Unbiased measurement of feature importance in
    tree-based methods. arXiv preprint arXiv:1903.05179 (2019).
    - Louppe, Gilles. "Understanding random forests: From theory to practice." arXiv
    preprint arXiv:1407.7502 (2014).
    - Nori, H., Jenkins, S., Koch, P., and Caruana, R. Interpretml: A unified framework
    for machine learning interpretability. arXiv preprint arXiv:1909.09223 (2019).
    - 各種古典系論文(Brieman 2001, 2002, Strobl 2007, 2008)
    所感

    View Slide

  15. END

    View Slide