論文読んだ「Class Imbalance, Redux」

Slide 1

Slide 1 text

Class Imbalance, Redux Byron C. Wallace, Kevin Small, Carla E. Brodley, Thomas A. Trikalinos (ICDM 2011) 高柳慎一 @_stakaya 論文読んだ

Slide 2

Slide 2 text

本日のお持ち帰り • 不均衡クラス分類問題の理論が未確立（当時） • なので、確率論的な視点から問題を定式化 • “undersampling + bagging”が良い？という結論 –※undersampling = balanced bootstrapで複数個レプリカデータ・セット生成 –論文中の表現：In almost all imbalanced scenarios, practitioners should bag classifiers induced over balanced bootstrap samples 2

Slide 3

Slide 3 text

準備 • 手元にある訓練データ – ：から生成される”＋”データ(Minority) – ：から生成される”ー”データ(Majority) –“＋”Classに属するデータが、”ー”Classに属するデータに比べ少ない • ２値クラス分類を考える 3

Slide 4

Slide 4 text

単純に分類した場合のBias 4 • 真の境界： • 推定された境界： • 直感的に左寄りになる • 部分特徴量空間： • ※論文図１より

Slide 5

Slide 5 text

目的（損失）関数 • False Positive/Negativeの際の罰則： • Minority Class (“+”)の割合： • False Positive/Negativeに対して罰を与える • 適当な”距離”じゃなくて、（経験分布として見ると）個数になるのが理論のミソ何だと思う 5

Slide 6

Slide 6 text

目的（損失）関数 • False Positive/Negativeの際の罰則： • Minority Class (“+”)の割合： • その経験（実データ）版（個数で罰則） 6

Slide 7

Slide 7 text

よくある不均衡制御 • False Positive/Negativeの際の罰則： • この罰則を制御して目的関数をいい感じに • 所謂、”重みをつける”操作で対応 • これはあまり効果なし、特にデータが分離可能な場合明らかに全く効果がない –これは目的関数の形の仮定から自明 –（これが言いたいために距離を使ってないのか？） 7

Slide 8

Slide 8 text

よくある不均衡制御（なんで駄目？） 8 • 赤矢印間で罰則C やωを変えても、経験損失関数の値は不変 • 意味がない • ※図１再掲

Slide 9

Slide 9 text

SMOTEについて • 不均衡データの調整によく使われる奴 • アルゴリズム –MinorityクラスのK近傍データをいくつか持ってきて –そのうちの１つをランダムに選んで、内挿して点を増やす • こいつはアルゴリズムとして内挿なので、 Minorityに属する点が外に拡大されて出ていくことはない → さっきの図でいう”境界をMajor側に向かわせる方向”に最適化はどのみち進まない 9

Slide 10

Slide 10 text

どうやるといいのだろうか？ • Undersamplingを使おう –Majorityを減らす • 図からわかるようにバイアスは明らかに減る • ただしωの分散が出る • 論文図２より 10

Slide 11

Slide 11 text

どうやるといいのだろうか？ • ωの分散をおさえるためにBaggingを使う • Baggingにおいて普通はBootstrap –完全Random選択 • 先行研究でもBalanceするように取ってるし、いいだろ！わっはっは！ 11

Slide 12

Slide 12 text

シミュレーション • 特徴量xは全部バイナリ変数 • 右側の箱は無意味 Featureの割合とデータのSparse制御 • πyが不均衡比率 • 論文図３より 12

Slide 13

Slide 13 text

結果の図（論文図４） • F値 v.s. 次元 • 左から右にπy=5%, 10%, 20% • 次元があがるとデータが分割可になるので罰則付き系の手法がパフォーマンス悪化 13

Slide 14

Slide 14 text

結果の図（論文図５） • F値 v.s. データサイズ • 左から右にπy=5%, 10%, 20% • サンプルサイズが増えると、（境界を動かせるサンプルも増えるので）罰則付き系手法も精度良 14

Slide 15

Slide 15 text

結果の図（論文図６） 15 • 左・右：分離可・不可なデータセットに対するBase（SVM）からのF値向上具合 • 分離可なデータの場合にはbaggingしか精度向上ない

Slide 16

Slide 16 text

結果の図（論文図７） • 実データでもやった • Bagging強し • （あまり深く読んでない…） 16