AI Human-in-the-Loop機械学習: 人間参加型AIのための能動学習とアノテーション Deep Learningのデータ+アノテーションに注目した本。良いことがいっぱい書いてある。 前半がHuman-in-the-loopの学習戦略の話、後半がアノテーションの評価の話。 今日は前半の紹介をします。後半はHuman-in-the-loopのイテレーションが回ってからでも良い。 図表の引用は特に指定なければこの本から。
学習に使うデータ 学習データ Train data 学習データ 過学習を検出するために使うデータ 検証データ Validation data 検証データ 最終的にモデルを評価するためのデータ 評価データ Test data テストデータ 本には最大4つの検証データが必要と書いてあるが、当面ランダムに選んだ1つの検証データで良い。 ・テストデータと同じ分布に従う検証データ ・各反復においてまだラベル付けしていないデータから作成された検証データ ・各反復で新たにサンプリングされたデータと同じ分布に従う検証データ ・これまでにサンプリングされたデータと同じ分布に従う検証データ