Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文読んだ「Class Imbalance, Redux」

論文読んだ「Class Imbalance, Redux」

Shinichi Takayanagi

June 14, 2018
Tweet

More Decks by Shinichi Takayanagi

Other Decks in Science

Transcript

  1. Class Imbalance, Redux
    Byron C. Wallace, Kevin Small, Carla E. Brodley, Thomas A.
    Trikalinos
    (ICDM 2011)
    高柳慎一
    @_stakaya
    論文読んだ

    View Slide

  2. 本日のお持ち帰り
    • 不均衡クラス分類問題の理論が未確立(当時)
    • なので、確率論的な視点から問題を定式化
    • “undersampling + bagging”が良い?という結論
    –※undersampling = balanced bootstrapで複数個レプリカ
    データ・セット生成
    –論文中の表現:In almost all imbalanced scenarios,
    practitioners should bag classifiers induced over balanced
    bootstrap samples
    2

    View Slide

  3. 準備
    • 手元にある訓練データ
    – : から生成される”+”データ(Minority)
    – : から生成される”ー”データ(Majority)
    –“+”Classに属するデータ が、”ー”Classに属する
    データ に比べ少ない
    • 2値クラス分類を考える
    3

    View Slide

  4. 単純に分類した場合のBias
    4
    • 真の境界:
    • 推定された境界:
    • 直感的に左寄りになる
    • 部分特徴量空間:
    • ※論文図1より

    View Slide

  5. 目的(損失)関数
    • False Positive/Negativeの際の罰則:
    • Minority Class (“+”)の割合:
    • False Positive/Negativeに対して罰を与える
    • 適当な”距離”じゃなくて、(経験分布として見
    ると)個数になるのが理論のミソ何だと思う
    5

    View Slide

  6. 目的(損失)関数
    • False Positive/Negativeの際の罰則:
    • Minority Class (“+”)の割合:
    • その経験(実データ)版(個数で罰則)
    6

    View Slide

  7. よくある不均衡制御
    • False Positive/Negativeの際の罰則:
    • この罰則を制御して目的関数をいい感じに
    • 所謂、”重みをつける”操作で対応
    • これはあまり効果なし、特にデータが分離可能
    な場合明らかに全く効果がない
    –これは目的関数の形の仮定から自明
    –(これが言いたいために距離を使ってないのか?) 7

    View Slide

  8. よくある不均衡制御(なんで駄目?)
    8
    • 赤矢印間で罰則C
    やωを変えても、
    経験損失関数の値
    は不変
    • 意味がない
    • ※図1再掲

    View Slide

  9. SMOTEについて
    • 不均衡データの調整によく使われる奴
    • アルゴリズム
    –MinorityクラスのK近傍データをいくつか持ってきて
    –そのうちの1つをランダムに選んで、内挿して点を増やす
    • こいつはアルゴリズムとして内挿なので、
    Minorityに属する点が外に拡大されて出ていくこ
    とはない → さっきの図でいう”境界をMajor側に
    向かわせる方向”に最適化はどのみち進まない
    9

    View Slide

  10. どうやるといいのだろうか?
    • Undersamplingを使お

    –Majorityを減らす
    • 図からわかるようにバ
    イアスは明らかに減る
    • ただしωの分散が出る
    • 論文図2より
    10

    View Slide

  11. どうやるといいのだろうか?
    • ωの分散をおさえるためにBaggingを使う
    • Baggingにおいて普通はBootstrap
    –完全Random選択
    • 先行研究でもBalanceするように取ってるし、
    いいだろ!わっはっは!
    11

    View Slide

  12. シミュレーション
    • 特徴量xは全部バイ
    ナリ変数
    • 右側の箱は無意味
    Featureの割合と
    データのSparse制御
    • πyが不均衡比率
    • 論文図3より
    12

    View Slide

  13. 結果の図(論文図4)
    • F値 v.s. 次元
    • 左から右にπy=5%, 10%, 20%
    • 次元があがるとデータが分割可になるので罰則付き
    系の手法がパフォーマンス悪化
    13

    View Slide

  14. 結果の図(論文図5)
    • F値 v.s. データサイズ
    • 左から右にπy=5%, 10%, 20%
    • サンプルサイズが増えると、(境界を動かせるサン
    プルも増えるので)罰則付き系手法も精度良
    14

    View Slide

  15. 結果の図(論文図6)
    15
    • 左・右:分離可・不可
    なデータセットに対す
    るBase(SVM)から
    のF値向上具合
    • 分離可なデータの場合
    にはbaggingしか精度
    向上ない

    View Slide

  16. 結果の図(論文図7)
    • 実データでも
    やった
    • Bagging強し
    • (あまり深く読
    んでない…)
    16

    View Slide