中規模の表形式データでTree-basedモデルがディープラーニングを上回るのはなぜか？３つの見解を述べた論文を紹介

中規模の表形式データで Tree-basedモデルがディープラーニングを上回るのはなぜか？３つの見解を述べた論文を紹介

表形式データの推論 • NNが様々な分野でイノベーションを起こしている • 一方、業務で使う表形式のデータを用いた推論では、NNよりもTree-basedモデルのほうが計算が早く性能が良いということがよくある • 表形式データを用いた推論で、「Tree-basedモデルがNNよりも高い性能となる理由」を調査した論文を紹介表形式データ
Tree-basedモデル NN 性能が高い？

紹介する論文 • Why do tree-based models still outperform deep learning
on tabular data? ◦ 日本語タイトル「表形式データにおいて、ツリーベースモデルが依然としてディープラーニングを上回るのはなぜか？」 ◦ Grinsztajn, Léo, Edouard Oyallon, and Gaël Varoquaux. "Why do tree-based models still outperform deep learning on tabular data?." arXiv preprint arXiv:2207.08815 (2022). ◦ https://arxiv.org/abs/2207.08815 • 論文の内容を抜粋して紹介 (詳しい内容を知りたい方は元論文を参照) • サマリー ◦ 表形式データに対するベンチマークを提供（対象データで、Tree-basedモデル > NN) ◦ 中規模データセットにおいて , Tree-based がNN を上回る原因は3つ ▪ NNは過度に滑らかな解に偏ってしまうから ▪ NNは情報を持たない変数に弱いから ▪ 表形式データは回転不変性を持たないから

実験概要全45のデータセット (回帰&分類) Tree-based NN • 複数データセットでの性能をまとめて評価 • 表形式データに対する
ベンチマークを作成気になる点 ➢ どのようなデータか ➢ 前処理はどこまで行ったか ➢ 対象としたモデルは何か

使用データ • 特徴同士が異なる種類であること • 高次元でないこと (特徴量の数/サンプル数 < 1/10) • 利用可能な情報が十分にあること
• 時系列データでないこと • 人工データでないこと • 小さすぎないこと (特徴量の数>=4, サンプル数>=3000) • 簡単すぎないこと (logistic regressionや単一の決定木だけでは解けない) • 決定論的でないこと

副次的な影響を除く • 学習データを10000で打ち切る (中規模データに限定) • 欠損を除去 • 分類タスクの場合, クラス数は2かつ均衡にする •
20種以上のカテゴリを持つ特徴を除去 • 10種以下の値しか持たない数値変数を除去

前処理・対象モデル・評価方法前処理は最低限 • NNを使う時は各特徴を正規化 • 目的変数の分布に偏りがある場合は対数変換 • カテゴリ変数は one-hot encoding
評価方法 • 分類タスク: Accuracy • 回帰タスク: R2 とし, 使用したデータセット間での平均的な性能 (0~1) を指標とする対象モデル • tree-based ◦ RandomForest ◦ GBTs(Gradient Boosting Trees) ◦ XGBoost • NN ◦ MLP ◦ Resnet ◦ FT_Transformer ◦ SAINT どちらもtransformerベース

結果ベンチマーク • 上: 数値変数のみ • 下: 数値&カテゴリ • 点線:
デフォルトパラメータ • 実線: ランダムサーチのseedを15回変えた時の平均精度

ベンチマーク性能からわかること • パラメータをチューニングしてもNN はTree-based よりも性能が低い • カテゴリ変数の存在がNN の性能を悪化させている訳ではない → なぜこのような結果になるのか？
→ 表形式データのどのような特性がtree-based では学習しやすく, NN では　困難としているのか？ → 3つの実験と見解

１. 出力を平滑化させたときの影響ガウシアンカーネルを用いて出力を平滑化させ性能の変化を調査 • Tree-based モデルの性能は平滑化をおおきくすると著しく低下 • 一方、NNも性能も落ちるものの、 Tree-basedモデル
に比べると性能劣化が少ない元データ平滑化(sigma=1) 平滑化(sigma=2) 平滑化のイメージ NNは滑らかな解に偏っている

２. 特徴量を増減させたときの影響 • GBT では重要度 (RF Importance) に応じて特徴を減らしても性能が下がりにくい • 情報を持たない特徴を段階的に追加すると,
NN は tree-based よりも大きく性能が悪化する • NNは情報を持たない変数に弱い差が縮まる差が広がる

３. データセットを回転させたときの影響データセットの回転の有無による性能の変化 • Tree-baseモデルとNNで、回転後の性能が逆転 • 表形式データは1列ごとに意味を持つため、回転により誤った情報を生み出してしまう
• 表形式データは回転不変性を持たない

まとめ • 多様なデータセットを利用して, パラメタ探索を考慮しながら両モデルの傾向を把握できた • 中規模データセットにおいてはtree-based はNN よりも簡潔かつ高速に精度を出せる • 原因は,
出力が外れ値を含む場合が多いこと・不要な特徴が多いこと・表形式データの非回転不変性にある今後研究が必要なこと • 両モデルに差をつけているバイアスは他にあるか • 小規模, 大規模データセットではどうなるか • 副次的な影響を考慮した場合はどうなるか

中規模の表形式データでTree-basedモデルがディープラーニングを上回るのはなぜか？３つの...

中規模の表形式データでTree-basedモデルがディープラーニングを上回るのはなぜか？３つの見解を述べた論文を紹介

西岡賢一郎 (Kenichiro Nishioka)

More Decks by 西岡賢一郎 (Kenichiro Nishioka)

Other Decks in Technology

Featured

Transcript