データの分け方も色々
- プロ野球選手の年俸査定の記事では、
全データ94選手、うちTraining Data Setが89選手、Test Data Setが5選手
- ホールドアウト法 : もっともナイーブな方法
このデータの分け方の任意性のモヤモヤを解消するために・・・
- 交差確認法
- 一つ抜き法
- ブートストラップ法
詳しくはこちらの記事にて
Slide 9
Slide 9 text
まとめ
- 学習能力と汎化能力は違うもので、
ニューラルネットワークではトレードオフになりやすい
- 一般に機械学習ではTraining Data Set、Test Data Setで区別される
- ニューラルネットワークではハイパーパラメータのチューニングのためにValidation
Data Set が使われることがある
- ハイパーパラメータのチューニングでTest Data Setを使うのは「ズル」
- データをどう分割するかも重要