論文読んだ「Class Imbalance, Redux」

Class Imbalance, Redux Byron C. Wallace, Kevin Small, Carla E.
Brodley, Thomas A. Trikalinos (ICDM 2011) 高柳慎一 @_stakaya 論文読んだ

本日のお持ち帰り • 不均衡クラス分類問題の理論が未確立（当時） • なので、確率論的な視点から問題を定式化 • “undersampling + bagging”が良い？という結論 –※undersampling
= balanced bootstrapで複数個レプリカデータ・セット生成 –論文中の表現：In almost all imbalanced scenarios, practitioners should bag classifiers induced over balanced bootstrap samples 2

準備 • 手元にある訓練データ – ：から生成される”＋”データ(Minority) – ：から生成される”ー”データ(Majority) –“＋”Classに属するデータ
が、”ー”Classに属するデータに比べ少ない • ２値クラス分類を考える 3

単純に分類した場合のBias 4 • 真の境界： • 推定された境界： • 直感的に左寄りになる • 部分特徴量空間：
• ※論文図１より

目的（損失）関数 • False Positive/Negativeの際の罰則： • Minority Class (“+”)の割合： • False
Positive/Negativeに対して罰を与える • 適当な”距離”じゃなくて、（経験分布として見ると）個数になるのが理論のミソ何だと思う 5

目的（損失）関数 • False Positive/Negativeの際の罰則： • Minority Class (“+”)の割合： • その経験（実データ）版（個数で罰則）
6

よくある不均衡制御 • False Positive/Negativeの際の罰則： • この罰則を制御して目的関数をいい感じに • 所謂、”重みをつける”操作で対応 • これはあまり効果なし、特にデータが分離可能
な場合明らかに全く効果がない –これは目的関数の形の仮定から自明 –（これが言いたいために距離を使ってないのか？） 7

よくある不均衡制御（なんで駄目？） 8 • 赤矢印間で罰則C やωを変えても、経験損失関数の値は不変 • 意味がない •
※図１再掲

SMOTEについて • 不均衡データの調整によく使われる奴 • アルゴリズム –MinorityクラスのK近傍データをいくつか持ってきて –そのうちの１つをランダムに選んで、内挿して点を増やす • こいつはアルゴリズムとして内挿なので、 Minorityに属する点が外に拡大されて出ていくこ
とはない → さっきの図でいう”境界をMajor側に向かわせる方向”に最適化はどのみち進まない 9

どうやるといいのだろうか？ • Undersamplingを使おう –Majorityを減らす • 図からわかるようにバイアスは明らかに減る • ただしωの分散が出る
• 論文図２より 10

どうやるといいのだろうか？ • ωの分散をおさえるためにBaggingを使う • Baggingにおいて普通はBootstrap –完全Random選択 • 先行研究でもBalanceするように取ってるし、いいだろ！わっはっは！ 11

シミュレーション • 特徴量xは全部バイナリ変数 • 右側の箱は無意味 Featureの割合とデータのSparse制御 • πyが不均衡比率
• 論文図３より 12

結果の図（論文図４） • F値 v.s. 次元 • 左から右にπy=5%, 10%, 20% •
次元があがるとデータが分割可になるので罰則付き系の手法がパフォーマンス悪化 13

結果の図（論文図５） • F値 v.s. データサイズ • 左から右にπy=5%, 10%, 20% •
サンプルサイズが増えると、（境界を動かせるサンプルも増えるので）罰則付き系手法も精度良 14

結果の図（論文図６） 15 • 左・右：分離可・不可なデータセットに対するBase（SVM）からのF値向上具合 • 分離可なデータの場合にはbaggingしか精度
向上ない

結果の図（論文図７） • 実データでもやった • Bagging強し • （あまり深く読んでない…） 16

論文読んだ「Class Imbalance, Redux」

論文読んだ「Class Imbalance, Redux」

Shinichi Takayanagi

More Decks by Shinichi Takayanagi

Other Decks in Science

Featured

Transcript

Class Imbalance, Redux Byron C. Wallace, Kevin Small, Carla E.

本日のお持ち帰り • 不均衡クラス分類問題の理論が未確立（当時） • なので、確率論的な視点から問題を定式化 • “undersampling + bagging”が良い？という結論 –※undersampling

準備 • 手元にある訓練データ – ：から生成される”＋”データ(Minority) – ：から生成される”ー”データ(Majority) –“＋”Classに属するデータ

単純に分類した場合のBias 4 • 真の境界： • 推定された境界： • 直感的に左寄りになる • 部分特徴量空間：

目的（損失）関数 • False Positive/Negativeの際の罰則： • Minority Class (“+”)の割合： • False

目的（損失）関数 • False Positive/Negativeの際の罰則： • Minority Class (“+”)の割合： • その経験（実データ）版（個数で罰則）

よくある不均衡制御 • False Positive/Negativeの際の罰則： • この罰則を制御して目的関数をいい感じに • 所謂、”重みをつける”操作で対応 • これはあまり効果なし、特にデータが分離可能

よくある不均衡制御（なんで駄目？） 8 • 赤矢印間で罰則C やωを変えても、経験損失関数の値は不変 • 意味がない •

どうやるといいのだろうか？ • Undersamplingを使おう –Majorityを減らす • 図からわかるようにバイアスは明らかに減る • ただしωの分散が出る

どうやるといいのだろうか？ • ωの分散をおさえるためにBaggingを使う • Baggingにおいて普通はBootstrap –完全Random選択 • 先行研究でもBalanceするように取ってるし、いいだろ！わっはっは！ 11

シミュレーション • 特徴量xは全部バイナリ変数 • 右側の箱は無意味 Featureの割合とデータのSparse制御 • πyが不均衡比率

結果の図（論文図４） • F値 v.s. 次元 • 左から右にπy=5%, 10%, 20% •

結果の図（論文図５） • F値 v.s. データサイズ • 左から右にπy=5%, 10%, 20% •

結果の図（論文図６） 15 • 左・右：分離可・不可なデータセットに対するBase（SVM）からのF値向上具合 • 分離可なデータの場合にはbaggingしか精度

結果の図（論文図７） • 実データでもやった • Bagging強し • （あまり深く読んでない…） 16