Upgrade to Pro — share decks privately, control downloads, hide ads and more …

KDD2021論文読み会

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Seiichi Kuroki Seiichi Kuroki
October 07, 2021
1.3k

 KDD2021論文読み会

Avatar for Seiichi Kuroki

Seiichi Kuroki

October 07, 2021
Tweet

Transcript

  1. Needle in a Haystack : Label- Efficient Evaluation under Extreme

    Class Imbalance 2021-10-07 KDD論文読み会 株式会社リクルート プロダクト統括本部 データ推進室 SaaS領域データソリューション2G 黒木 誠一
  2. ベースライン2: Importance sampling, Strafified sampling 9 推定値の分散を低減する手法としてImportance samplingや stratified samplingが提案されてきた。

    • Importance sampling (Sawade et al,. NeurIPS’10) • Stratified sampling (Druck & McCallum. CIKM’11) しかしながら… 1. 限られた評価指標のみに適用可能 (F1値だけだったり…) 2. テストデータをactiveに収集するケースに対応不可 3. 推定値の分散の観点で非効率 (特にstratified sampling) などの問題あり。
  3. 提案手法:Adaptive importance sampling (AIS) に基づくモデル評価 10 様々な評価指標に対して、ラベル効率の良いモデル評価が可能 目的 必要なラベル数を最小化しつつ、評価指標の推定 を正確に行う。

    アイデア 各ラベル付けを行うデータのサンプリングはAIS をベースに行う ◦ 重要度をもとにバイアスは補正 ◦ 評価用データ分布設定に漸近分散を 最小化させるような工夫を施す 評価用データ分布を更新していく(Adaptive)
  4. 理論解析(Asymptotic theory) 11 推定値の漸近的挙動に対して理論解析を行なった • 一致性の証明 ◦ 推定値が漸近的に母集団に対する値に収束することを保証 • 中心極限定理の証明

    ◦ 推定値の漸近信頼区間の導出 • 漸近的に最小分散をもたらす評価用データ分布導出 ◦ 母集団ベースで定義されているp(y|x)やDg(R)は有限標本で近似要 正例比率に依存しなくなってる!
  5. 所感 16 • Active learningにも使えそうだが、ありがちなヒューリスティックで はなく漸近分散最小化ベースのサンプリングは有用そう ◦ 実際は有限標本で推定する際にズレが生じることには注意したい。 • Active

    learningはモデルの学習に関する話だが本論文は任意のモデル に対するモデル評価の話であるという設定が面白かった • サンプル数が少ない話がモチベーションになっていたのに漸近的挙動 のみの議論になっていたので有限標本サイズの議論は気になった