Slide 19
Slide 19 text
Feature
[1] 特徴量総当たり探索
統計値(mean, max, min, var 等)を、カテゴリや時間で区切られたデータごとに算出
(例:DAYS_CREDIT<1 year かつNAME_CONTRACT_TYPE=Consumer loansの、〜の平均)
それらの特徴をLightGBMに入れ、importanceが上位の特徴を機械的に採用。
[2] 次元削減
PCA, UMAPなどを特徴セットに対して使用。
application featureのみに特徴を絞って次元削減したり、
EXT_SOURCEに絞って使用したりするのも有効だった。
UMAP output on only_application features with mean imputation