Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文読んだ「Class Imbalance, Redux」

論文読んだ「Class Imbalance, Redux」

Shinichi Takayanagi

June 14, 2018
Tweet

More Decks by Shinichi Takayanagi

Other Decks in Science

Transcript

  1. Class Imbalance, Redux Byron C. Wallace, Kevin Small, Carla E.

    Brodley, Thomas A. Trikalinos (ICDM 2011) 高柳慎一 @_stakaya 論文読んだ
  2. 本日のお持ち帰り • 不均衡クラス分類問題の理論が未確立(当時) • なので、確率論的な視点から問題を定式化 • “undersampling + bagging”が良い?という結論 –※undersampling

    = balanced bootstrapで複数個レプリカ データ・セット生成 –論文中の表現:In almost all imbalanced scenarios, practitioners should bag classifiers induced over balanced bootstrap samples 2
  3. 目的(損失)関数 • False Positive/Negativeの際の罰則: • Minority Class (“+”)の割合: • False

    Positive/Negativeに対して罰を与える • 適当な”距離”じゃなくて、(経験分布として見 ると)個数になるのが理論のミソ何だと思う 5
  4. よくある不均衡制御 • False Positive/Negativeの際の罰則: • この罰則を制御して目的関数をいい感じに • 所謂、”重みをつける”操作で対応 • これはあまり効果なし、特にデータが分離可能

    な場合明らかに全く効果がない –これは目的関数の形の仮定から自明 –(これが言いたいために距離を使ってないのか?) 7
  5. 結果の図(論文図4) • F値 v.s. 次元 • 左から右にπy=5%, 10%, 20% •

    次元があがるとデータが分割可になるので罰則付き 系の手法がパフォーマンス悪化 13
  6. 結果の図(論文図5) • F値 v.s. データサイズ • 左から右にπy=5%, 10%, 20% •

    サンプルサイズが増えると、(境界を動かせるサン プルも増えるので)罰則付き系手法も精度良 14