Upgrade to Pro — share decks privately, control downloads, hide ads and more …

中規模の表形式データでTree-basedモデルがディープラーニングを上回るのはなぜか?3つの...

 中規模の表形式データでTree-basedモデルがディープラーニングを上回るのはなぜか?3つの見解を述べた論文を紹介

表形式データを使った推論でTree-basedモデルがディープラーニングをアウトパーフォームすることに対して3つの見解を述べた論文を紹介します。

Grinsztajn, Léo, Edouard Oyallon, and Gaël Varoquaux. "Why do tree-based models still outperform deep learning on tabular data?." arXiv preprint arXiv:2207.08815 (2022).

動画はこちら
https://www.youtube.com/watch?v=Os4bA9OlGss

More Decks by 西岡 賢一郎 (Kenichiro Nishioka)

Other Decks in Technology

Transcript

  1. 紹介する論文 • Why do tree-based models still outperform deep learning

    on tabular data? ◦ 日本語タイトル「表形式データにおいて、ツリーベースモデルが依然としてディープラーニングを上 回るのはなぜか?」 ◦ Grinsztajn, Léo, Edouard Oyallon, and Gaël Varoquaux. "Why do tree-based models still outperform deep learning on tabular data?." arXiv preprint arXiv:2207.08815 (2022). ◦ https://arxiv.org/abs/2207.08815 • 論文の内容を抜粋して紹介 (詳しい内容を知りたい方は元論文を参照) • サマリー ◦ 表形式データに対するベンチマークを提供 (対象データで、Tree-basedモデル > NN) ◦ 中規模データセットにおいて , Tree-based がNN を上回る原因は3つ ▪ NNは過度に滑らかな解に偏ってしまうから ▪ NNは情報を持たない変数に弱いから ▪ 表形式データは回転不変性を持たないから
  2. 実験概要 全45のデータセット (回帰&分類) Tree-based NN • 複数データセットでの性能を まとめて評価 • 表形式データに対する

    ベンチマークを作成 気になる点 ➢ どのようなデータか ➢ 前処理はどこまで行ったか ➢ 対象としたモデルは何か
  3. 使用データ • 特徴同士が異なる種類であること • 高次元でないこと (特徴量の数/サンプル数 < 1/10) • 利用可能な情報が十分にあること

    • 時系列データでないこと • 人工データでないこと • 小さすぎないこと (特徴量の数>=4, サンプル数>=3000) • 簡単すぎないこと (logistic regressionや単一の決定木だけでは解けない) • 決定論的でないこと
  4. 前処理・対象モデル・評価方法 前処理は最低限 • NNを使う時は各特徴を正規化 • 目的変数の分布に偏りがある場合は対数変換 • カテゴリ変数は one-hot encoding

    評価方法 • 分類タスク: Accuracy • 回帰タスク: R2 とし, 使用したデータセット間での平均的な性能 (0~1) を指標とする 対象モデル • tree-based ◦ RandomForest ◦ GBTs(Gradient Boosting Trees) ◦ XGBoost • NN ◦ MLP ◦ Resnet ◦ FT_Transformer ◦ SAINT どちらもtransformerベース
  5. 結果 ベンチマーク • 上: 数値変数のみ • 下: 数値&カテゴリ • 点線:

    デフォルトパラメータ • 実線: ランダムサーチのseedを15回 変えた時の平均精度
  6. まとめ • 多様なデータセットを利用して, パラメタ探索を考慮しながら両モデルの傾向を把握できた • 中規模データセットにおいてはtree-based はNN よりも簡潔かつ高速に精度を出せる • 原因は,

    出力が外れ値を含む場合が多いこと・不要な特徴が多いこと・表形式データの非回転 不変性にある 今後研究が必要なこと • 両モデルに差をつけているバイアスは他にあるか • 小規模, 大規模データセットではどうなるか • 副次的な影響を考慮した場合はどうなるか