猫でもわかるTabNet

猫でもわかるTabNet 2021-07-26 poya

ಋೖ ͘͠Έ ਫ਼౓ ࣮૷ 概要 encoder decoder -Attentive transformer -Feature
transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning poya（ぽや）所属新卒よわよわデータサイエンティスト経歴数学科→情報系院趣味麻雀（天鳳）, お絵かき, 猫, ネコぱら（アイコンはネコぱらのバニラちゃん）本発表では、猫でもわかるようにTabNetの論文解説をします。決定木系モデル(ランダムフォレストやLGBMなど)と前回のLT会の内容 (Seq2Seq, Attentionなど)を理解している猫が望ましい

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning 目次導入 TabNetはテーブルデータ向けのすごいDNNモデル。 TabNetのしくみ決定木系のしくみも取り入れつつさらに改良した。実装方法 pytorch-tabnetというライブラリを使えば簡単に使える。精度いくつかのテーブルデータで他のモデルより高い精度を出した。 ̍

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning TabNetとはテーブルデータ向けのすごいDNNモデル 2019年に公開、Google CloudAIの研究チームによって開発されたテーブルデータに対する精度が高い場合が多い解釈性もあるデータをほぼ前処理なしで入れられ、特徴設計の負担が軽減 kaggleなどデーブルデータコンペで最近では当たり前のように使われている。

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning 背景ランダムフォレスト、LGBM、XGBoostなどテーブルデータに対して ※私が知らないだけで解釈性のあるDNNモデルはあるかもしれません一般的なDNNモデル △ × ※ △ 決定木系モデル ◯ ◯ ◯ 精度解釈性学習時間今まではテーブルデータには主に決定木系のモデルしか使われてなかった。 → 学習データ量が多い場合の精度向上 + end-to-end性のために、テーブルデータ向けのDNNモデルを作りたい

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning 背景ランダムフォレスト、LGBM、XGBoostなどテーブルデータに対して ◦ ※私が知らないだけで解釈性のあるDNNモデルはあるかもしれません学習データの量が多い場合やデータの種類によって決定木系モデルより精度期待できる一般的なDNNモデル △ × ※ △ 決定木系モデル ◯ ◯ ◯ 精度解釈性学習時間 TabNet ◯ ◯ △ △ end-to-end 今まではテーブルデータには主に決定木系のモデルしか使われてなかった。 → 学習データ量が多い場合の精度向上 + end-to-end性のために、テーブルデータ向けのDNNモデルを作りたい

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning end-to-endとはドメイン知識や専門性を活かして特徴量を設計する手法特徴設計デコード中間表現猫 or not 猫 or not end-to-endでない方法 end-to-end end-to-endモデルモデルにできるだけ生に近いデータを与えて、その関係性を見つけるのも1つのモデルで行う手法画像認識、音声認識、機械翻訳などでよく用いられている何段階もある場合も特徴設計の必要性が減る画像とテーブルデータが一体になったような複合データも処理できるストリーミングデータの学習表現学習(有用な特徴をデータから学習することを目的とした手法)によるさまざまな応用 end-to-endにより...

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning TabNetのイメージ入力された特徴量のうち関連した特徴量を取り出す(疎な特徴選択)ことを数回行い、予測に用いる職に関すること資産に関すること例人のデータから年収が50k$より多いか判断する問題

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning TabNetの工夫点教師なしの事前学習を用いることで特徴量同士の関係を調べる（テーブルデータに対して初めて実現）多段階のステップからなり、各ステップが予測に寄与多段階ステップ＋高次元化により、アンサンブルのような構造を実現特徴量の非線形処理 instance-wiseで疎な特徴選択（instance-wise : 入力データごとに用いる特徴量の組や度合いを適切に変える）どんな工夫によってそんなすごいモデルが実現できたのか？工夫① 工夫② 工夫③ 工夫④

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning fine tuningのイメージファインチューニングあり犬の画像データ猫の画像データファインチューニングなし猫種判別モデル犬種判別モデル猫の画像データ猫種判別モデル情報的なもの猫の画像データは大量にあるが犬のデータは少ない。→ 犬種の判別精度が低くなりがち。猫の種類判別で得られた情報を⽝の種類判別モデルに適応させることで、判別精度の向上を図る犬の画像データ犬種判別モデル画像や自然言語、音声の分野でよく用いられている。

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning fine tuningの流れ ①事前学習 ②ファインチューニング目的のデータで学習済みのネットワークの重みを初期値としてモデルの重みを再学習入力出力 ... ... ... ... 入力 ... ... ... ... ... ... 大量のデータ（前ページの例だと猫の画像データ）でネットワークの重みを学習 ... ... 学習済みモデル新しいモデル、層 ※学習済みのネットワークの重みを固定して用いるのが転移学習[8] 出力 ... ... 画像や自然言語、音声の分野でよく用いられている。 ...

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning TabNetの概要図この例は人の特徴から収入が50k$より多いか少ないか判断するタスク ①事前学習 ②ファインチューニング TabNet encoder TabNet decoder 表は[1]より引用データの一部を隠す(マスクする) マスクされた特徴を予測 TabNet encoder decision making ファインチューニングは画像や自然言語、音声の分野でよく用いられているが、 TabNetはこれをテーブルデータに適用工夫①

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning この例は人の特徴から収入が50k$より多いか少ないか判断するタスク TabNet encoder TabNet decoder 表は[1]より引用 TabNet encoder decision making ファインチューニングは画像や自然言語、音声の分野でよく用いられているが、 TabNetはこれをテーブルデータに適用 ②ファインチューニング ①事前学習 TabNetの概要図

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning TabNet encoder features Feature transformer Split Attentive transformer Mask ReLU Mask ReLU Split Split Feature transformer Attentive transformer Feature transformer + ... ... Output

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning features Feature transformer Split Attentive transformer Mask ReLU Mask ReLU Split Split Feature transformer Attentive transformer Feature transformer + ... ... Output Step1 Step2 Step3 ... 多段階のステップで構成される TabNet encoder 工夫②

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning features Feature transformer Split Attentive transformer Mask ReLU Mask ReLU Split Split Feature transformer Attentive transformer Feature transformer + ... ... Output Step1 Step2 Step3 ... どの特徴量をどのくらい使うのか決める（instance-wise, 疎な特徴選択）特徴量の非線形処理 TabNet encoder 工夫③ 工夫④

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning TabNet encoderの簡単ver 決定木でやると... a x1 x2 犬猫うさぎ鳥 d 特徴量：x1, x2 犬・猫・うさぎ・鳥に分類する問題 x1 > a か？ Yes No x2 > d か？ x2 > d か？ Yes No Yes No 猫鳥犬うさぎ 0

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning encoderでやると... a x1 x2 犬猫うさぎ鳥 d 特徴量：x1, x2 犬・猫・うさぎ・鳥に分類する問題 0 W : [C1, -C1, 0, 0] b : [-aC1, aC1, -1, -1] ReLU FC ReLU + Mask Mask [x1,x2] FC ⵙ[1,0] ⵙ[0,1] W :[0, 0, -C2, C2] b : [-1,-1,-dC2, dC2] TabNet encoderの簡単ver ※ C1, C2 > 0

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning W : [C1, -C1, 0, 0] b : [-aC1, aC1, -1, -1] ReLU FC ReLU + Mask ⵙ[1,0] Mask ⵙ[0,1] [x1,x2] FC W :[0, 0, -C2, C2] b : [-1,-1,-dC2, dC2] 0 x y y=x ReLU x1 ≥ a のとき [正, 0, 0, 0] x1 < a のとき [0, 正, 0, 0] [C1x1-C1a, -C1x1+C1a, -1,-1] ② ① ① ※ C1, C2 > 0 TabNet encoderの簡単ver

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning W : [C1, -C1, 0, 0] b : [-aC1, aC1, -1, -1] ReLU FC ReLU + Mask ⵙ[1,0] Mask ⵙ[0,1] [x1,x2] FC W :[0, 0, -C2, C2] b : [-1,-1,-dC2, dC2] ③ a x1 x2 d 0 [正, 0, 正, 0] [0, 正, 正, 0] [0, 正, 0, 正] [正, 0, 0, 正] ③ !④の結果、[正, 0, 正, 0]なら猫, [0, 正, 正, 0]なら鳥、...とすればよい x1 ≥ a のとき [正, 0, 0, 0] x1 < a のとき [0, 正, 0, 0] ② TabNet encoderの簡単ver

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning Attentive transformer Sparsemax FC BN ⵙ Sparsemax関数 2次元の場合 softmaxでは小さい値(>0)になるが、 sparsemaxでは0になり、重要な特徴だけを選ぶ疎な特徴選択を実現 Prior scales

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning Feature transformer FC BN GLU + + + √ 0.5 √ 0.5 √ 0.5 FC BN GLU FC BN GLU FC BN GLU 非線形処理により表現力を高めるゲーティングにより勾配消失問題を解消 GLU ⼊⼒Xに対し、Xⵙσ(X)を出⼒

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning decoder

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning 2通りの実装方法が公開されている。 ✔ googleによる公式実装 https://github.com/google-research/google-research/tree/master/tabnet ✔ pytorch_tabnet（非公式） https://github.com/dreamquark-ai/tabnet pytorch_tabnetによる実装方法

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning 2通りの実装方法が公開されている。 fitとpredictで簡単に使えるので、こちらを解説します ✔ googleによる公式実装 https://github.com/google-research/google-research/tree/master/tabnet ✔ pytorch_tabnet（非公式） https://github.com/dreamquark-ai/tabnet pytorch_tabnetによる実装方法

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning Step3 事前学習 Step4 ファインチューニング Step1 install, import Step2 データの用意 pytorch_tabnetによる実装方法 encoder decoder decision making encoder ②ファインチューニング ①事前学習

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning pytorch_tabnetによる実装方法 Step3 事前学習 Step4 ファインチューニング Step1 install, import Step2 データの用意 TabNetのinstall PyTorchとTabNetのimport その他必要に応じて

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning Step3 事前学習 Step4 ファインチューニング Step1 install, import Step2 データの用意前処理欠損値：補完必要カテゴリ変数：ラベルエンコーディング必要 pytorch_tabnetによる実装方法

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning Step3 事前学習 Step4 ファインチューニング Step1 install, import Step2 データの用意 TabNetPretrainerでインスタンス作成 → fit [13]より引用 pytorch_tabnetによる実装方法

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning Step3 事前学習 Step4 ファインチューニング Step1 install, import Step2 データの用意分類ならTabNetClassifier、回帰ならTabNetClassifierでインスタンス作成 → fit (from_unsupervised=pretrainerと指定) → predict 〜省略〜 [13]より引用 pytorch_tabnetによる実装方法

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning Local interpretability Mask 2種類の解釈性の出力方法 Global interpretability Feature Importance 最終的にどの特徴量がどのくらい予測に使われたか各Stepでどの特徴量がどのくらい予測に使われたか、特徴量同士で関係のあるものはどれか 5 2 0 1 3 6 4

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning 精度 [1]より引用 Performance for Forest Cover Type dataset Performance for Rossmann Store Sales dataset Model Test accuracy(%) XGBoost LightGBM CatBoost AutoML Tables TabNet 89.34 89.28 85.14 94.95 96.99 Model Test MSE XGBoost LightGBM CatBoost MLP TabNet 490.83 504.76 489.75 512.62 485.12

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning instance-wiseに関する精度 Syn1-Syn6：目的変数は一部の特徴量のみによって決まる。（この特徴量を重要な特徴量と書くことにする） Syn1-3：重要な特徴量は各入力データに依存しない。例）Syn2の目的変数は特徴量X3-X6のみによって決まる。 Syn4-6：重要な特徴量は各入力データに依存する。例）Syn4の目的変数はX11の値によってX1-X2またはX3-X6のみによって決まる。 instance-wiseな特徴選択が活きるSyn4-6においてTabNetの精度が特に良い。しかも、INVASEは3つのモデルを組み合わせていてパラメータ数101kになるが、 TabNetは1つのモデル、パラメータ数はSyn1-3は26kでSyn4-6は31k。 [1]より引用

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning まとめテーブルデータに対する精度が高い場合が多い解釈性もあるデータをほぼ前処理なしで入れられ、特徴設計の負担が軽減 TabNetはテーブルデータ向けのすごいDNNモデル教師なしの事前学習を用いて、マスクされた特徴を予測多段階のステップからなり、各ステップが予測に寄与多段階ステップ＋高次元化により、アンサンブルのような構造を実現特徴量の非線形処理 instance-wiseな特徴選択 TabNetの工夫 TabNetのすごさ

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning 参考文献 -論文と本編- [1]（TabNet）https://arxiv.org/abs/1908.07442 [2]（Sparsemax関数）https://arxiv.org/abs/1602.02068 [3]（GLU） https://arxiv.org/abs/1612.08083 [4]（Sequential Attention）https://www.aclweb.org/anthology/W17-2610/ [5]（Key-Value Memory Networks）https://arxiv.org/abs/1606.03126 [6]（BERT）https://arxiv.org/abs/1810.04805 [7]（Deep Learning Scaling Is Predictable, Empirically）https://arxiv.org/abs/1712.00409 [8]（INVASE）https://openreview.net/forum?id=BJg_roAcK7 [9]（BN）https://arxiv.org/abs/1502.03167 [10] PyTorchによる発展ディープラーニング小川雄太郎著 [11] BERTによる自然言語処理入門近江崇宏, 金田健太郎, 森長誠, 江間見亜利著 [12] ゼロから作るDeep Learning 2 自然言語処理編斎藤康毅著 [13] 機械学習プロフェッショナルシリーズ深層学習による自然言語処理坪井裕太ら著

transformer 背景 ·ͱΊ ࢀߟจݙ ͓ΘΓʹ -簡単ver ֶशɾਪ࿦ ղऍੑ end-to-end fine tuning 参考文献 -webページ編- [14]（特徴量設計）https://japanexchangegroup.github.io/J-Quants-Tutorial/ [15]（end-to-end）https://www.youtube.com/watch?v=ImUoubi_t7s [16]（BNの解説ブログ）https://qiita.com/omiita/items/01855ff13cc6d3720ea4 [17]（TabNetの解説ブログ1）https://www.guruguru.science/competitions/16/discussions/70f25f95- 4dcc-4733-9f9e-f7bc6472d7c0/ [18]（TabNetの解説ブログ2）https://zenn.dev/sinchir0/articles/9228eccebfbf579bfdf4 [19]（pytorch-tabnet作者による解説）https://www.youtube.com/watch?v=ysBaZO8YmX8 [20]（転移学習・ファインチューニングの記事）https://ledge.ai/transfer-learning/ [21]（googleによる公式実装）https://github.com/google-research/google-research/tree/master/tabnet [22]（pytorch-tabnet, 非公式）https://github.com/dreamquark-ai/tabnet このスライドのデザインはBeamer(LaTeXでスライド作れるやつ)のGoettingen themeを参考にしています。 https://deic-web.uab.cat/~iblanes/beamer_gallery/individual/Goettingen-default-default.html

猫でもわかるTabNet

猫でもわかるTabNet

More Decks by poya

Other Decks in Technology

Featured

Transcript