Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読んだ「Class Imbalance, Redux」
Search
Shinichi Takayanagi
June 14, 2018
Science
4
3.4k
論文読んだ「Class Imbalance, Redux」
Shinichi Takayanagi
June 14, 2018
Tweet
Share
More Decks by Shinichi Takayanagi
See All by Shinichi Takayanagi
[NeurIPS 2023 論文読み会] Wasserstein Quantum Monte Carlo
stakaya
0
500
[KDD2021 論文読み会] ControlBurn: Feature Selection by Sparse Forests
stakaya
2
1.9k
[ICML2021 論文読み会] Mandoline: Model Evaluation under Distribution Shift
stakaya
0
2k
[情報検索/推薦 各社合同 論文読み祭 #1] KDD ‘20 "Embedding-based Retrieval in Facebook Search"
stakaya
2
590
【2020年新人研修資料】ナウでヤングなPython開発入門
stakaya
29
21k
論文読んだ「Simple and Deterministic Matrix Sketching」
stakaya
1
1.1k
Quick Introduction to Approximate Bayesian Computation (ABC) with R"
stakaya
3
320
The Road to Machine Learning Engineer from Data Scientist
stakaya
5
4.3k
論文読んだ「Winner’s Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments」
stakaya
1
4.7k
Other Decks in Science
See All in Science
Machine Learning for Materials (Challenge)
aronwalsh
0
270
01_篠原弘道_SIPガバニングボード座長_ポスコロSIPへの期待.pdf
sip3ristex
0
380
(論文読み)贈り物の交換による地位の競争と社会構造の変化 - 文化人類学への統計物理学的アプローチ -
__ymgc__
1
220
Quelles valorisations des logiciels vers le monde socio-économique dans un contexte de Science Ouverte ?
bluehats
1
330
システム数理と応用分野の未来を切り拓くロードマップ・エンターテインメント(スポーツ)への応用 / Applied mathematics for sports entertainment
konakalab
1
290
FRAM - 複雑な社会技術システムの理解と分析
__ymgc__
1
150
04_石井クンツ昌子_お茶の水女子大学理事_副学長_D_I社会実現へ向けて.pdf
sip3ristex
0
350
Healthcare Innovation through Business Entrepreneurship
clintwinters
0
210
応用心理学Ⅰテキストマイニング講義資料講義編(2024年度)
satocos135
0
150
07_浮世満理子_アイディア高等学院学院長_一般社団法人全国心理業連合会代表理事_紹介資料.pdf
sip3ristex
0
340
私たちのプロダクトにとってのよいテスト/good test for our products
camel_404
0
290
Snowflakeによる統合バイオインフォマティクス
ktatsuya
0
700
Featured
See All Featured
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
47
2.8k
Build The Right Thing And Hit Your Dates
maggiecrowley
35
2.7k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.3k
Adopting Sorbet at Scale
ufuk
76
9.4k
Six Lessons from altMBA
skipperchong
28
3.8k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.4k
Done Done
chrislema
184
16k
Git: the NoSQL Database
bkeepers
PRO
430
65k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
14
1.5k
VelocityConf: Rendering Performance Case Studies
addyosmani
329
24k
How GitHub (no longer) Works
holman
314
140k
For a Future-Friendly Web
brad_frost
177
9.7k
Transcript
Class Imbalance, Redux Byron C. Wallace, Kevin Small, Carla E.
Brodley, Thomas A. Trikalinos (ICDM 2011) 高柳慎一 @_stakaya 論文読んだ
本日のお持ち帰り • 不均衡クラス分類問題の理論が未確立(当時) • なので、確率論的な視点から問題を定式化 • “undersampling + bagging”が良い?という結論 –※undersampling
= balanced bootstrapで複数個レプリカ データ・セット生成 –論文中の表現:In almost all imbalanced scenarios, practitioners should bag classifiers induced over balanced bootstrap samples 2
準備 • 手元にある訓練データ – : から生成される”+”データ(Minority) – : から生成される”ー”データ(Majority) –“+”Classに属するデータ
が、”ー”Classに属する データ に比べ少ない • 2値クラス分類を考える 3
単純に分類した場合のBias 4 • 真の境界: • 推定された境界: • 直感的に左寄りになる • 部分特徴量空間:
• ※論文図1より
目的(損失)関数 • False Positive/Negativeの際の罰則: • Minority Class (“+”)の割合: • False
Positive/Negativeに対して罰を与える • 適当な”距離”じゃなくて、(経験分布として見 ると)個数になるのが理論のミソ何だと思う 5
目的(損失)関数 • False Positive/Negativeの際の罰則: • Minority Class (“+”)の割合: • その経験(実データ)版(個数で罰則)
6
よくある不均衡制御 • False Positive/Negativeの際の罰則: • この罰則を制御して目的関数をいい感じに • 所謂、”重みをつける”操作で対応 • これはあまり効果なし、特にデータが分離可能
な場合明らかに全く効果がない –これは目的関数の形の仮定から自明 –(これが言いたいために距離を使ってないのか?) 7
よくある不均衡制御(なんで駄目?) 8 • 赤矢印間で罰則C やωを変えても、 経験損失関数の値 は不変 • 意味がない •
※図1再掲
SMOTEについて • 不均衡データの調整によく使われる奴 • アルゴリズム –MinorityクラスのK近傍データをいくつか持ってきて –そのうちの1つをランダムに選んで、内挿して点を増やす • こいつはアルゴリズムとして内挿なので、 Minorityに属する点が外に拡大されて出ていくこ
とはない → さっきの図でいう”境界をMajor側に 向かわせる方向”に最適化はどのみち進まない 9
どうやるといいのだろうか? • Undersamplingを使お う –Majorityを減らす • 図からわかるようにバ イアスは明らかに減る • ただしωの分散が出る
• 論文図2より 10
どうやるといいのだろうか? • ωの分散をおさえるためにBaggingを使う • Baggingにおいて普通はBootstrap –完全Random選択 • 先行研究でもBalanceするように取ってるし、 いいだろ!わっはっは! 11
シミュレーション • 特徴量xは全部バイ ナリ変数 • 右側の箱は無意味 Featureの割合と データのSparse制御 • πyが不均衡比率
• 論文図3より 12
結果の図(論文図4) • F値 v.s. 次元 • 左から右にπy=5%, 10%, 20% •
次元があがるとデータが分割可になるので罰則付き 系の手法がパフォーマンス悪化 13
結果の図(論文図5) • F値 v.s. データサイズ • 左から右にπy=5%, 10%, 20% •
サンプルサイズが増えると、(境界を動かせるサン プルも増えるので)罰則付き系手法も精度良 14
結果の図(論文図6) 15 • 左・右:分離可・不可 なデータセットに対す るBase(SVM)から のF値向上具合 • 分離可なデータの場合 にはbaggingしか精度
向上ない
結果の図(論文図7) • 実データでも やった • Bagging強し • (あまり深く読 んでない…) 16