中規模の表形式データでTree-basedモデルがディープラーニングを上回るのはなぜか？３つの見解を述べた論文を紹介

Slide 1

Slide 1 text

中規模の表形式データで Tree-basedモデルがディープラーニングを上回るのはなぜか？３つの見解を述べた論文を紹介

Slide 2

Slide 2 text

表形式データの推論 ● NNが様々な分野でイノベーションを起こしている ● 一方、業務で使う表形式のデータを用いた推論では、NNよりもTree-basedモデルのほうが計算が早く性能が良いということがよくある ● 表形式データを用いた推論で、「Tree-basedモデルがNNよりも高い性能となる理由」を調査した論文を紹介表形式データ Tree-basedモデル NN 性能が高い？

Slide 3

Slide 3 text

紹介する論文 ● Why do tree-based models still outperform deep learning on tabular data? ○ 日本語タイトル「表形式データにおいて、ツリーベースモデルが依然としてディープラーニングを上回るのはなぜか？」 ○ Grinsztajn, Léo, Edouard Oyallon, and Gaël Varoquaux. "Why do tree-based models still outperform deep learning on tabular data?." arXiv preprint arXiv:2207.08815 (2022). ○ https://arxiv.org/abs/2207.08815 ● 論文の内容を抜粋して紹介 (詳しい内容を知りたい方は元論文を参照) ● サマリー ○ 表形式データに対するベンチマークを提供（対象データで、Tree-basedモデル > NN) ○ 中規模データセットにおいて , Tree-based がNN を上回る原因は3つ ■ NNは過度に滑らかな解に偏ってしまうから ■ NNは情報を持たない変数に弱いから ■ 表形式データは回転不変性を持たないから

Slide 4

Slide 4 text

実験概要全45のデータセット (回帰&分類) Tree-based NN ● 複数データセットでの性能をまとめて評価 ● 表形式データに対するベンチマークを作成気になる点 ➢ どのようなデータか ➢ 前処理はどこまで行ったか ➢ 対象としたモデルは何か

Slide 5

Slide 5 text

使用データ ● 特徴同士が異なる種類であること ● 高次元でないこと (特徴量の数/サンプル数 < 1/10) ● 利用可能な情報が十分にあること ● 時系列データでないこと ● 人工データでないこと ● 小さすぎないこと (特徴量の数>=4, サンプル数>=3000) ● 簡単すぎないこと (logistic regressionや単一の決定木だけでは解けない) ● 決定論的でないこと

Slide 6

Slide 6 text

副次的な影響を除く ● 学習データを10000で打ち切る (中規模データに限定) ● 欠損を除去 ● 分類タスクの場合, クラス数は2かつ均衡にする ● 20種以上のカテゴリを持つ特徴を除去 ● 10種以下の値しか持たない数値変数を除去

Slide 7

Slide 7 text

前処理・対象モデル・評価方法前処理は最低限 ● NNを使う時は各特徴を正規化 ● 目的変数の分布に偏りがある場合は対数変換 ● カテゴリ変数は one-hot encoding 評価方法 ● 分類タスク: Accuracy ● 回帰タスク: R2 とし, 使用したデータセット間での平均的な性能 (0~1) を指標とする対象モデル ● tree-based ○ RandomForest ○ GBTs(Gradient Boosting Trees) ○ XGBoost ● NN ○ MLP ○ Resnet ○ FT_Transformer ○ SAINT どちらもtransformerベース

Slide 8

Slide 8 text

結果ベンチマーク ● 上: 数値変数のみ ● 下: 数値&カテゴリ ● 点線: デフォルトパラメータ ● 実線: ランダムサーチのseedを15回変えた時の平均精度

Slide 9

Slide 9 text

ベンチマーク性能からわかること ● パラメータをチューニングしてもNN はTree-based よりも性能が低い ● カテゴリ変数の存在がNN の性能を悪化させている訳ではない → なぜこのような結果になるのか？ → 表形式データのどのような特性がtree-based では学習しやすく, NN では　困難としているのか？ → 3つの実験と見解

Slide 10

Slide 10 text

１. 出力を平滑化させたときの影響ガウシアンカーネルを用いて出力を平滑化させ性能の変化を調査 ● Tree-based モデルの性能は平滑化をおおきくすると著しく低下 ● 一方、NNも性能も落ちるものの、 Tree-basedモデルに比べると性能劣化が少ない元データ平滑化(sigma=1) 平滑化(sigma=2) 平滑化のイメージ NNは滑らかな解に偏っている

Slide 11

Slide 11 text

２. 特徴量を増減させたときの影響 ● GBT では重要度 (RF Importance) に応じて特徴を減らしても性能が下がりにくい ● 情報を持たない特徴を段階的に追加すると, NN は tree-based よりも大きく性能が悪化する ● NNは情報を持たない変数に弱い差が縮まる差が広がる

Slide 12

Slide 12 text

３. データセットを回転させたときの影響データセットの回転の有無による性能の変化 ● Tree-baseモデルとNNで、回転後の性能が逆転 ● 表形式データは1列ごとに意味を持つため、回転により誤った情報を生み出してしまう ● 表形式データは回転不変性を持たない

Slide 13

Slide 13 text

まとめ ● 多様なデータセットを利用して, パラメタ探索を考慮しながら両モデルの傾向を把握できた ● 中規模データセットにおいてはtree-based はNN よりも簡潔かつ高速に精度を出せる ● 原因は, 出力が外れ値を含む場合が多いこと・不要な特徴が多いこと・表形式データの非回転不変性にある今後研究が必要なこと ● 両モデルに差をつけているバイアスは他にあるか ● 小規模, 大規模データセットではどうなるか ● 副次的な影響を考慮した場合はどうなるか