Kaggleで勝つデータ分析の技術輪読&勉強会 #3 〜第４章モデル作成〜

Kaggleで勝つデータ分析の技術輪読&勉強会 #3 〜第４章モデル作成〜 2020年4月1日横井一輝

目次 1. モデルとは何か 2. 分析コンペで使われるモデル 1. GBDT（勾配ブースティング木） 2. ニューラルネット 3.
線形モデル 3. モデルのその他ポイントとテクニック

モデルとは何か

モデルとは • 特徴量を入力データとし、予測値を出力する変換器のことモデルとは何かモデル f(x) 特徴量 x1, x2, x3
... 予測値 y

モデル作成の流れモデル作成の流れ • 作成：モデルの種類とハイパーパラメータを指定し、モデルを作成 • 学習・評価：学習データを与えてモデルを学習し、バリデーションで評価 • 予測：学習したモデルでテストデータに対して予測特徴量作成（3章）
モデル作成モデル学習・評価テストデータ予測・提出バリデーション枠組み作成（5章）フィードバック

テストデータ予測方法の問題以下の２つの方法がある各foldで学習したモデルを保存しておき、それらのモデルの予測値の平均値をとる方法学習データ全体に対して改めてモデルを学習させて、そのモデルで予測する方法クロスバリデーションでモデルの評価を行ったあと、テストデータに対してどのように予測を行うかの問題

テストデータ予測方法イメージ各FOLDで学習したモデルの予測値の平均をとる方法学習データ全体に対して再学習させて予測する方法 valid fold2 fold3 test
Model 1 fold1 valid fold3 test Model 2 fold1 fold2 valid test Model 3 平均 train test Model

テストデータ予測方法の特徴各FOLDで学習したモデルの予測値の平均をとる方法学習データ全体に対して再学習させて予測する方法追加の学習が不要学習データ全体の再学習が必要各foldで学習したデータを合わせると学習データ全体となり、後者と同じ精度が出ると言われている
前者よりわずかに精度が良いという意見があるアンサンブルの効果が効く学習データ数が異なるにもかかわらず、同じハイパーパラメータのままで良いのか懸念があるテストデータが大きい場合は予測に時間がかかる学習データ全体を再度学習する時間がかかる筆者結論：どちらを選んでも良い

分析コンペで使われるモデル

分析コンペでのモデルの選び方とりあえず初手 • GBDT（勾配ブースティング木）タスクによって次を検討 • ニューラルネット • 線形モデル多様性を求める
• K近傍法 • ランダムフォレスト/ERT • RFG • FFM

GBDT（勾配ブースティング木）特徴 • 特徴量は数値 • 欠損値を扱うことができる • 特徴量間の相互作用が反映される経験則での特徴 •
精度が高い • ハイパーパラメータチューニングをしなくても精度が出やすい • 不要な特徴量を追加しても精度が落ちにくい

GBDTの主なライブラリ Xgboost 2014年公開精度の高さと使いやすさからコンペで席巻 Lightgbm 2016年公開 Xgboostを改良しさらに高速化 2019年時点で最も人気
Catboost 2017年公開カテゴリ変数の扱い方を工夫左２つとは少し異なる

ニューラルネット特徴 • 特徴量は数値 • 欠損値を扱うことができない • 非線形性や特徴量間の相互作用が反映される • 特徴量を標準化するなどスケーリングする必要がある
経験則での特徴 • ハイパーパラメータ次第で精度が出ないことがある • 他クラス分類に比較的強い

ニューラルネットの主なライブラリ Keras Google社員が作成 TensorflowなどのAPI をラップして、簡単に使えることが特徴 Tensorflow Google製最も知名度が高い産業界でも人気
Pytorch Facebook製新興のライブラリ研究分野を中心に近年人気上昇中 Chainer Preferred Networks 製今後はPytorchに移行することを発表「Define-by-Run」というデファクトスタンダードを生み出した

線形モデル特徴 • 特徴量は数値 • 欠損値を扱うことはできない • GBDTやニューラルネットと比較して精度はよくない • 非線形性を表現するためには、明示的に特徴量を作成する必要がある
• 相互作用を表現するためには、明示的に特徴量を作成する必要がある • 基本的に標準化が必要 • 特徴量を作るときに丁寧な処理が必要主なライブラリ • Scikit-learnのlinear_modelモジュール • Vowpal wabbit

モデルのその他のポイントとテクニック

バリデーションとテストのスコアが違う場合過学習（オーバーフィッティング）を疑う • 過学習とは、学習データの性質やノイズに過剰に適合してしまっている状態過学習の対策 • バリデーション方法を再検討する（５章参照） • アーリーストッピング機能を使用する •
一定の間バリデーションスコアが上がらない場合、途中で学習を打ち切る機能 • ハイパーパラメータを調整する以下の可能性も検討する • 学習データとテストデータの分布が異なっている • テストデータのレコード数が少なすぎる

欠損値がある場合 GBDTなら問題なく扱うことが可能ニューラルネットや線形モデルなどは、欠損値補間が必要欠損値補間に関しては、第3章を参照

特徴量の数が多い場合少しずつ特徴量を増やしていき、どのくらいまでなら学習できるのか試す特徴選択により、特徴量を落とす方法もある • 相関係数などの統計量から求める方法 • GBDT系のモデルから出力されるFeature Importanceから求める方法 •
特徴量の組みを変えてモデル学習を繰り返し、探索していく方法

Pseudo labeling テストデータに対する予測値を目的変数の値とみなし、学習データに加えて再度学習するテクニック（半教師あり学習）テストデータの数が学習データの数より多い場合などに有効

コラム：分析コンペ用のクラスやフォルダ構成クラス構成 • Modelクラス • Runnerクラス • Utilクラス、Loggerクラスフォルダ構成
• input • code / code-analysys • model • sugmission

クラスやフォルダ構成の参考リンク「分析コンペ用のクラスやフォルダの構成」サンプルコード https://github.com/ghmagazine/kagglebook/tree/master/ch0 データサイエンスプロジェクトのディレクトリ構成どうするか問題 https://takuti.me/note/data-science-project-structure/ Patterns for Research in
Machine Learning http://arkitus.com/patterns-for-research-in-machine-learning/

まとめモデルとは • 特徴量を入力データとし、予測値を出力する変換器のこと • モデルは学習・評価・予測の流れで作成する分析コンペで使われるモデル • 初手はGBDT、特にlightgbmを使う場合が多い •
目的に応じて、ニューラルネットや線形モデルも使用するモデルのその他のポイントとテクニック • GBDTの使用。欠損値補間 • 特徴量選択 • Psudo labeling

Kaggleで勝つデータ分析の技術輪読&勉強会 #3 〜第４章モデル作成〜

Kaggleで勝つデータ分析の技術輪読&勉強会 #3 〜第４章モデル作成〜

Kazuki Yokoi

More Decks by Kazuki Yokoi

Other Decks in Programming

Featured

Transcript