早期停止
過学習を避けるために、学習データに対する学習を進めながら同時に Dev データに対する交差検証誤差をモニタリングし、こ
れが下がらなくなったら学習を打ち切る
Slide 41
Slide 41 text
パフォーマンスが低いときは。。
● スキーマを見直す
a. すべての列の型が正しいこと
b. ID 列といった予測されない列をトレーニングから除外
● データを見直す
a. null 値を許容しない列に 1 つでも値がないと、その行は無視されるので注意
b. データ内のエラーが多すぎないように
c. トレーニング データにできるだけ偏りがないように
● テスト データセットをエクスポートして調べる
● トレーニング データの量を増やす
● トレーニング時間を増やす
Slide 42
Slide 42 text
逆にほぼ完璧なときは。。
● ターゲットの漏出
a. ターゲットの漏出は、トレーニング時には把握できない、結果に基づいた特徴がトレーニング データに含まれて
いる場合に発生します。
b. たとえば、初めて購入を行うユーザーが実際に購入するかどうかを判断できるようトレーニングするモデルに常
連購入者番号を含めた場合、そのモデルの評価指標は非常に高くなります。しかし実際のデータでは常連購入
者番号を含められないため、パフォーマンスが低くなります。
● 時間列
a. データの時刻が重要な場合は、「時間」列または時間に基づく手動分割を使用していることを確認