Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
KDD2021論文読み会
Search
Seiichi Kuroki
October 07, 2021
0
1.2k
KDD2021論文読み会
Seiichi Kuroki
October 07, 2021
Tweet
Share
More Decks by Seiichi Kuroki
See All by Seiichi Kuroki
AAAI2022 読み会
seiichi_kuroki
0
860
ICML2021 論文読み会
seiichi_kuroki
0
980
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.9k
YesSQL, Process and Tooling at Scale
rocio
169
14k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
45
2.2k
We Have a Design System, Now What?
morganepeng
51
7.3k
The World Runs on Bad Software
bkeepers
PRO
65
11k
Mobile First: as difficult as doing things right
swwweet
222
9k
Designing for Performance
lara
604
68k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
5
440
Docker and Python
trallard
42
3.1k
Testing 201, or: Great Expectations
jmmastey
40
7.1k
Building Better People: How to give real-time feedback that sticks.
wjessup
365
19k
Transcript
Needle in a Haystack : Label- Efficient Evaluation under Extreme
Class Imbalance 2021-10-07 KDD論文読み会 株式会社リクルート プロダクト統括本部 データ推進室 SaaS領域データソリューション2G 黒木 誠一
自己紹介 2 黒木誠一です! 東大で 薬学部志望→経済学→機械学習研究 社会で アクチュアリー→データサイエンティスト やってます、要はホワイトノイズです!
本論文選定理由 3 • 実応用で良く出る不均衡データへのモデル評価法の提案 • 汎用性が高そう ◦ 様々なモデル評価指標に対して適用可能 • 一見簡単そうだった
◦ これは誤りだったことが後に判明する
本論文のContribution 4 • モデル評価に際し大量のラベルなしデータの中からどれをラベル 付けしたら精度よくモデル性能評価ができるかを提案 ◦ 漸近的な挙動に対する理論保証 ◦ ラベルデータは今までより少なくてもOK! ◦
不均衡データだとより効率向上が見込める! • 実験による性能向上の確認
モデルの評価 5 機械学習の応用においてモデル評価は必要不可欠 データ分析の標準プロセスであるCRISP-DMに おいてもモデル評価は主要ステップの一つ。 https://www.ibm.com/docs/ja/spss-modeler/SaaS?topic=dm-crisp-help-overview
正確なモデル評価における主要課題 6 モデル評価における主要課題として以下の3つが挙げられる。 • 当てはめたい未知のデータに対する手持ちデータのバイアス ◦ 選択バイアスなど • ラベルデータは入手不可能であったり、取得に高い費用がかかる •
不均衡データであることに起因する推定誤差 本論文で特に解決したい課題はこの下2つ
ベースライン1:Passive sampling 7 モデル評価のベースラインとして以下3ステップで構成されるpassive sampling で選択されたラベル無しデータにラベル付けを行いモデル評価を行う。 サイコロ振って選ぼう! 人生は冒険や! Step1:ランダムにデータ選択 Step2:ラベル付を行う
Step3:モデルと比較 precision recall accuracy 0.66 0.5 0.75
Passive samplingにおける問題 8 各モデル評価指標において漸近正規性は成立するが、Recallなど一部評価指標 推定においては不均衡データだと膨大なラベルを要してしまう。 Recallの推定値の漸近分布における分散の分母にあるεは正例の比率。 →不均衡データでは推定値を一定の分散に留めるために大量のデータが必要。
ベースライン2: Importance sampling, Strafified sampling 9 推定値の分散を低減する手法としてImportance samplingや stratified samplingが提案されてきた。
• Importance sampling (Sawade et al,. NeurIPS’10) • Stratified sampling (Druck & McCallum. CIKM’11) しかしながら… 1. 限られた評価指標のみに適用可能 (F1値だけだったり…) 2. テストデータをactiveに収集するケースに対応不可 3. 推定値の分散の観点で非効率 (特にstratified sampling) などの問題あり。
提案手法:Adaptive importance sampling (AIS) に基づくモデル評価 10 様々な評価指標に対して、ラベル効率の良いモデル評価が可能 目的 必要なラベル数を最小化しつつ、評価指標の推定 を正確に行う。
アイデア 各ラベル付けを行うデータのサンプリングはAIS をベースに行う ◦ 重要度をもとにバイアスは補正 ◦ 評価用データ分布設定に漸近分散を 最小化させるような工夫を施す 評価用データ分布を更新していく(Adaptive)
理論解析(Asymptotic theory) 11 推定値の漸近的挙動に対して理論解析を行なった • 一致性の証明 ◦ 推定値が漸近的に母集団に対する値に収束することを保証 • 中心極限定理の証明
◦ 推定値の漸近信頼区間の導出 • 漸近的に最小分散をもたらす評価用データ分布導出 ◦ 母集団ベースで定義されているp(y|x)やDg(R)は有限標本で近似要 正例比率に依存しなくなってる!
評価用データ分布の詳細 12 本論文では漸近最適な評価用データ分布の有限標本近似分布とその漸近最適性 の証明も行なっている。 有限標本で近似 ←オレンジの箇所は母集団ベースなので直接計算できない… • 一定の条件のもとでの漸近最適性を保証 • 本論文ではp(y|x)をBayesian
Dirichlet-tree modelで推定
実験での性能評価(収束速度の評価) 13 提案手法に基づく提案分布と漸近最適分布のKLダイバージェンス、および F1スコアの推測値の収束が早いことが実験的に示された。 水色実線および黄色点線が提案手法 →他手法と比較して少量ラベルでの収束が確認 された。
実験での性能評価(PR曲線の推定) 14 提案手法に基づいたPR曲線の推定が他手法と比較して安定的に真のPR曲線を 再現していることが可視化されている。 赤実線:全ラベルによる推定PR曲線 黒実線:100回のサンプリングに よる推定PR曲線 提案手法
論文のまとめ 15 • 漸近的な理論保証付きのモデル評価手法の提案 ◦ サンプリングを工夫しつつ一致性と両立! • 既存手法より推定値の漸近分散が低減されるサンプリングの提案 ◦ Passive
samplingの際にあった正例比率が提案手法では消滅 • 実験による性能向上の確認
所感 16 • Active learningにも使えそうだが、ありがちなヒューリスティックで はなく漸近分散最小化ベースのサンプリングは有用そう ◦ 実際は有限標本で推定する際にズレが生じることには注意したい。 • Active
learningはモデルの学習に関する話だが本論文は任意のモデル に対するモデル評価の話であるという設定が面白かった • サンプル数が少ない話がモチベーションになっていたのに漸近的挙動 のみの議論になっていたので有限標本サイズの議論は気になった
(上司の)宣伝 17 データサイエンスを実践する上で 最低限必要なプログラミングスキルを網羅できます! 論文の1億倍の効率で 実務に活かせるよ! (個人の感想です。)