PyCaretでKaggleの回帰問題に取り組む

はじめに Kaggle 問題にチームで取り組み奮闘記 Pycaret でかんたん AutoML 1

自己紹介須藤明洋すとうあきひろ 1984 年生まれ Power BI (2021 年 5
月～) Python (2021 年 9 月～) Rugby (1993 年～) Kendama (2020 年～) Qiita https://qiita.com/hanaseleb 2

Pycaret https://techninjahere. medium.com/best- opensource-automl- frameworks- 4e40820e2d79 3

Pycaret とは PyCaretは、機械学習のワークフローを自動化する Python 製のオープンソース、ローコード機械学習ライブラリです。エンドツーエンドの機械学習およびモデル管理ツールであり、実験サイクルを指数関数的に高速化し、生産性を高めます。他のオープンソース機械学習ライブラリと比較して、PyCaretは数百行のコードを数行だけで置き換えることができる、代替のローコード・ライブラリ
です。これにより、実験が飛躍的に速く、効率的になります。 PyCaret は基本的に、いくつかの機械学習ライブラリやフレームワークの Python ラッパーです。 5

機械学習ライブラリ scikit-learn 勾配ブースティング × 決定木 XGBoost LightGBM CatBoost 6

自然言語処理 spaCy ハイパーパラメーター最適化フレームワーク Optuna Hyperopt 分散実行フレームワーク Ray 7

分析開始 PyCaret の Regression モジュールは、25 以上のすぐに使えるアルゴリズムと、学習したモデルの性能を分析するためのいくつかのプロットが用意されています。 8

前処理は省略します 9

データセットの分割今回のコンクールでは、目的変数が3つあるため、3つの DataSet を作成します train_3 = train2.drop(columns = ['target_carbon_monoxide',
'target_benzene', 'target_nitrogen_oxides']) test_3 = test2.drop(columns = ['target_carbon_monoxide', 'target_benzene', 'target_nitrogen_oxides']) train_co = train2.drop(columns = ['target_benzene', 'target_nitrogen_oxides']) train_be = train2.drop(columns = ['target_carbon_monoxide', 'target_nitrogen_oxides']) train_no = train2.drop(columns = ['target_carbon_monoxide', 'target_benzene']) 10

Pycaret インストールとライブラリのインポート KaggleカーネルやGoogleColabにはプリインストールされていないので、 pip install をおこないます。 !pip install pycaret
from pycaret.regression import * 11

Pycaret Quick Start 回帰問題における Pycaret の最小の流れは、 1. setup() 2. create_model()
3. predict_model() の流れです。インスタンスを作成したあと、モデルも決め打ちで、ビジュアライズもとくになしで OK であれば、この 3 つの関数に最低限の引数およびデータを入れてあげればすぐに機械学習を実行することが可能です 12

このコードを実行するだけで、予測値が出力されます。 # Pycaretの最初単位 # !pip install pycaret from pycaret.datasets import
get_data from pycaret.regression import * data = get_data('insurance') # テストデータの取得 s = setup(data, target = 'charges') # インスタンスの作成 lr = create_model('lr') # モデルの作成 predictions = predict_model(lr, data=data) # 実行 13

scikit-learn での実装例データセットの分割特徴量の取捨グラフの作成などで多くのコードが必要 15

Pycaretでモデルを作成 Kaggleに戻ります。関数は下記を使用します。 1. setup() 2. compare_models() 3. blend_models() 4. tune_model()
5. plot_model() 6. evaluate_model() 7. predict_model() 8. finalize_model() 16

setup() この関数は学習環境を初期化し、変換パイプラインを作成します。Setup 関数は他の関数を実行する前に呼び出す必要があります。この関数は、data と target という 2
つの必須パラメーターを受け取ります。その他のパラメーターは任意です。 17

setup() exp = setup(data=train_co, target='target_carbon_monoxide') 上記コードを実行するとデータ・タイプの一覧が出力され、Enter を押すと処理が続行、Quitをテキスト入力すると処理が中止されます。 19

処理が終わるとデータセットの情報を出してくれる。 21

compare_models() 回帰用にモデル 20 個以上が使えるようになっている。それぞれのモデルで交差検証をして評価指数順に並び替えて表示。 top3 = compare_models(sort='RMSLE', n_select=3, fold
= 3) 22

blend_models() estimator_list パラメーターで渡されたモデルに対して、Voting Regressor を学習します。 blended = blend_models(estimator_list= top3, fold=3,
optimize='RMSLE') 24

tune_model() tuned_blended = tune_model(blended) 28

plot_model() モデルの性能をビジュアライズをして解析できます。 30

evaluate_model() 学習済みモデルの性能を分析するためのユーザインタフェースを表示します。内部で plot_model 関数を呼び出しています。 evaluate_model(tuned_blended) 35

finalize_model() データセット全体に対して学習させます。 final_model = finalize_model(tuned_blended) 38

predict_model() 学習されたモデルを用いて Label 列に予測を入れる。 pred_esb = predict_model(tuned_blended) 39

predict_model() pred_esb = predict_model(tuned_blended) 40

submit サブミット用データの作成をします。対数を元の数値に変換するため、 np.exp 関数を使用。 sub = pd.read_csv('../input/tabular-playground-series-jul-2021/sample_submission.csv') sub['target_carbon_monoxide'] =
np.exp(pred_esb['Label'])-1 41

AutoMLの関数化 def pycaret_model(train, target, test, n_select, fold, opt, exclude): print('Setup
Your Data....') setup(data=train, target=target, silent= True) print('Comparing Models....') top3 = compare_models(sort=opt, n_select=n_select, fold = fold, exclude = exclude) print('Blending Models....') blended = blend_models(estimator_list= top3, fold=fold) print('Tuning Models....') tuned_blended = tune_model(blended) print('Finallizing Models....') final_model = finalize_model(tuned_blended) print('Done...!!!') pred_esb = predict_model(final_model, test) re = pred_esb['Label'] 43

'target_benzene' と 'target_nitrogen_oxides' の予測 sub['target_benzene'] = np.exp( pycaret_model( train_be, 'target_benzene',
test_3, 3, 10, 'RMSLE', ['knn', 'xgboost']) )-1 sub['target_nitrogen_oxides'] = np.exp( pycaret_model( train_no, 'target_nitrogen_oxides', test_3, 3, 10, 'RMSLE', ['xgboost']) ) - 1 44

仕上げ ① leak_sub = pd.read_excel( '../input/air-quality-time-series-data-uci/AirQualityUCI.xlsx' ) [7110:].reset_index( drop =
True ) 45

仕上げ ② co_out = leak_sub[leak_sub['CO(GT)'] == -200].index be_out = leak_sub[leak_sub['C6H6(GT)']
== -200].index ni_out = leak_sub[leak_sub['NOx(GT)'] == -200].index leak_sub.loc[co_out, 'CO(GT)'] = sub.loc[co_out, 'target_carbon_monoxide'] leak_sub.loc[be_out, 'C6H6(GT)'] = sub.loc[be_out, 'target_benzene'] leak_sub.loc[ni_out, 'NOx(GT)'] = sub.loc[ni_out, 'target_nitrogen_oxides'] sub['target_carbon_monoxide'] = leak_sub['CO(GT)'] sub['target_benzene'] = leak_sub['C6H6(GT)'] sub['target_nitrogen_oxides'] = leak_sub['NOx(GT)'] 46

submit 用の csv を作成 sub.to_csv('sub.csv', index = 0) 47

試行錯誤の開始 48

setup() 引数追加 exp = setup(data=train_co, target='target_carbon_monoxide', normalize = True, #
数値列を標準化 numeric_imputation = 'mean', # 欠損値の穴埋め silent= True) # データ型の確認なし 49

blend_models() 引数追加 blended = blend_models( estimator_list= best, fold=10, # 交差検証の回数
optimize='RMSLE', # 評価指数 choose_better = True # 結果がよくなるときのみブレンドされたモデルを返す ) 50

サーチライブラリの変更ハイパーパラメーターのチューニングに optuna を使用。デフォルトは scikit-learn # !pip install optuna
tuned_blended = tune_model( blended, optimize='RMSLE', search_library="optuna", # optuna の使用 choose_better = True, n_iter=30 ) 52

tune_model()の使用順を変更 53

SCORE 54

まとめ Pycaretは導入から実行まで簡単便利。ドキュメントを読み、各関数の使用順引数でできることを確認すると機械学習の勉強の整理に役立つ。 55

appendix 56

ご清聴ありがとうございました。 61

PyCaretでKaggleの回帰問題に取り組む

PyCaretでKaggleの回帰問題に取り組む

More Decks by Akihiro Suto

Other Decks in Technology

Featured

Transcript