論文読んだ「Class Imbalance, Redux」

論文読んだ「Class Imbalance, Redux」

8a7e83d2e447783ab6d824f553429a09?s=128

Shinichi Takayanagi

June 14, 2018
Tweet

Transcript

  1. Class Imbalance, Redux Byron C. Wallace, Kevin Small, Carla E.

    Brodley, Thomas A. Trikalinos (ICDM 2011) 高柳慎一 @_stakaya 論文読んだ
  2. 本日のお持ち帰り • 不均衡クラス分類問題の理論が未確立(当時) • なので、確率論的な視点から問題を定式化 • “undersampling + bagging”が良い?という結論 –※undersampling

    = balanced bootstrapで複数個レプリカ データ・セット生成 –論文中の表現:In almost all imbalanced scenarios, practitioners should bag classifiers induced over balanced bootstrap samples 2
  3. 準備 • 手元にある訓練データ – : から生成される”+”データ(Minority) – : から生成される”ー”データ(Majority) –“+”Classに属するデータ

    が、”ー”Classに属する データ に比べ少ない • 2値クラス分類を考える 3
  4. 単純に分類した場合のBias 4 • 真の境界: • 推定された境界: • 直感的に左寄りになる • 部分特徴量空間:

    • ※論文図1より
  5. 目的(損失)関数 • False Positive/Negativeの際の罰則: • Minority Class (“+”)の割合: • False

    Positive/Negativeに対して罰を与える • 適当な”距離”じゃなくて、(経験分布として見 ると)個数になるのが理論のミソ何だと思う 5
  6. 目的(損失)関数 • False Positive/Negativeの際の罰則: • Minority Class (“+”)の割合: • その経験(実データ)版(個数で罰則)

    6
  7. よくある不均衡制御 • False Positive/Negativeの際の罰則: • この罰則を制御して目的関数をいい感じに • 所謂、”重みをつける”操作で対応 • これはあまり効果なし、特にデータが分離可能

    な場合明らかに全く効果がない –これは目的関数の形の仮定から自明 –(これが言いたいために距離を使ってないのか?) 7
  8. よくある不均衡制御(なんで駄目?) 8 • 赤矢印間で罰則C やωを変えても、 経験損失関数の値 は不変 • 意味がない •

    ※図1再掲
  9. SMOTEについて • 不均衡データの調整によく使われる奴 • アルゴリズム –MinorityクラスのK近傍データをいくつか持ってきて –そのうちの1つをランダムに選んで、内挿して点を増やす • こいつはアルゴリズムとして内挿なので、 Minorityに属する点が外に拡大されて出ていくこ

    とはない → さっきの図でいう”境界をMajor側に 向かわせる方向”に最適化はどのみち進まない 9
  10. どうやるといいのだろうか? • Undersamplingを使お う –Majorityを減らす • 図からわかるようにバ イアスは明らかに減る • ただしωの分散が出る

    • 論文図2より 10
  11. どうやるといいのだろうか? • ωの分散をおさえるためにBaggingを使う • Baggingにおいて普通はBootstrap –完全Random選択 • 先行研究でもBalanceするように取ってるし、 いいだろ!わっはっは! 11

  12. シミュレーション • 特徴量xは全部バイ ナリ変数 • 右側の箱は無意味 Featureの割合と データのSparse制御 • πyが不均衡比率

    • 論文図3より 12
  13. 結果の図(論文図4) • F値 v.s. 次元 • 左から右にπy=5%, 10%, 20% •

    次元があがるとデータが分割可になるので罰則付き 系の手法がパフォーマンス悪化 13
  14. 結果の図(論文図5) • F値 v.s. データサイズ • 左から右にπy=5%, 10%, 20% •

    サンプルサイズが増えると、(境界を動かせるサン プルも増えるので)罰則付き系手法も精度良 14
  15. 結果の図(論文図6) 15 • 左・右:分離可・不可 なデータセットに対す るBase(SVM)から のF値向上具合 • 分離可なデータの場合 にはbaggingしか精度

    向上ない
  16. 結果の図(論文図7) • 実データでも やった • Bagging強し • (あまり深く読 んでない…) 16