[Journal club] Influence-Balanced Loss for Imbalanced Visual Classification

慶應義塾大学杉浦孔明研究室髙木裕輔 INFLUENCE-BALANCED LOSS FOR IMBALANCED VISUAL CLASSIFICATION Seulki
Park Jongin Lim Younghan Jeon Jin Young Choi ASRI, Dept. of Electrical and Computer Engineering, Seoul National University ICCV 2021 Seulki Park, Jongin Lim, Younghan Jeon, and Jin Young Choi. "Influence-Balanced Loss for Imbalanced Visual Classification." In Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021.

2 概要背景 ✓ 多くの現実世界のデータは分布が偏っている ✓ 不均衡なデータで学習されたモデルは多数派クラスの影響が大きい提案 ✓ 本研究では、クラス不均衡に対処可能な誤差関数
Influence-balanced loss を提案 ✓ サンプルが決定境界に与える影響を影響関数で推定し、誤差をスケーリング ✓ タスク・モデル・学習手法にかかわらず導入可能結果 ✓ 複数のインバランスにおけるベンチマークにて、既存の損失関数を上回る性能 2 既存手法提案手法：過学習された境界：滑らかになった境界

3 背景: 多くの現実世界のデータは分布が偏っている 3 ◼ 現実世界のデータは多くの場合、クラス間にサンプル数の不均衡が存在 ◼ 医療診断、異常検知などで少数派クラスが重要 ◼ クラス不均衡はモデルの決定境界に影響を及ぼし、少数派クラスの判別精度が低下
◼ 学習時にクラス不均衡への対処が不可欠 SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems Ochal: Few-Shot Learning with Class Imbalance

4 関連研究(1/3): Data-level approach ◼ 学習データの分布を直接的に均等化 ◼ リサンプリング ◼ 多数派クラスをアンダーサンプリング
 重要な情報を見逃すリスク ◼ 少数派クラスをオーバーサンプリング  過学習のリスク ◼ 合成サンプルの生成 [Byrd+, NeurIPS19]  計算コスト・学習時間の増加 Oversampling and Undersampling: ADASYN vs ENN | by Giorgio Pilotti | Quantyca | Medium [Byrd+, NeurIPS19]

5 関連研究(2/3): Cost-sensitive re-weighting approach ◼ 損失計算時に異なる重みを付与クラスベースの重みづけ (𝜆𝑘: クラスの重み,
𝑛𝑘: サンプル数) ◼ サンプル数に反比例する重み [Wang+, NIPS17] : 𝜆𝑘 ∝ 1 𝑛𝑘 ◼ サンプル数の平方根に反比例する重み [Cao+, NeurIPS19] : 𝜆𝑘 ∝ 1 𝑛𝑘 ◼ Effective Samples (情報の重複を考慮) [Cui+, CVPR19] : 𝜆𝑘 ∝ 1−𝛽 1−𝛽𝑛𝑘 , 𝛽: ハイパラサンプルベースの重みづけ ◼ 誤分類されやすい“hard sample”に大きな重み ◼ e.g., Focal Loss [Lin+, ICCV17] : 1 − 𝑝𝑡 𝛾 , 𝑝𝑡: 予測確率, 𝛾: ハイパラ [Cui+, CVPR19]

6 関連研究(3/3): Meta-learning approach ◼ 学習過程自体そのものを学習する ◼ 重み関数のメタ最適化 [Shu+, NeurIPS19]
: サンプル毎の重みをメタ学習で最適化 ◼ メタサンプリング [Ren+, NeurIPS20] : サンプリング戦略自体を学習  検証用データが必要・計算コストが高い Meta-weight-net [Shu+, NeurIPS19] ConvNP [Ren+, NeurIPS20]

7 提案手法：Influence-Balanced Loss (IB Loss) 7 ◼ サンプル毎の影響度を利用して損失関数を重みづけ ◼ 多数派クラスの影響を抑制し、決定境界への過学習を防止
◼ 追加データや複雑な構造が不要で既存のモデルに容易に適用可能既存手法提案手法：少数派クラスのサンプル：多数派クラスのサンプル：決定境界に強い影響をもつサンプル：過学習された境界：影響を弱められたサンプル：滑らかになった境界多数派クラスの影響を抑制

8 提案手法(1/5)：手法において重要な考え方 8 ◼ DNNの表現力が高い  過学習のリスク ◼ 決定境界に過学習されるとき ◼
多数派クラスのサンプルが少数派クラスのサンプルの中に入り込む ◼ 重なり領域で多数派サンプルが支配的に ◼ ：決定境界の形成に強い影響をもつサンプル ◼ 決定境界を滑らかにしたい ◼ ：重みを下げられたサンプル提案手法 influence function(影響関数)を用いてサンプルの影響度を測定：過学習された境界：滑らかになった境界：少数派クラスのサンプル：多数派クラスのサンプル

9 ※ はヘッセ行列提案手法(2/5)：影響関数の導出 9 ◼ 定義 ◼ モデル： ◼
パラメータ： ◼ 訓練データのサンプル： ◼ 経験損失： ◼ 最適なパラメータ： ◼ あるサンプルを除いたときの新たなパラメータ ◼ 影響関数がの近傍にあるとき

10 提案手法(3/5)：Influence-Balanced weighting factor （再掲) 影響関数  影響関数においてヘッセ行列の逆行列の計算コストが大きい ◼ サンプル間の相対的な影響度がわかればよい
絶対値は不要 ◼ ヘッセ行列はすべてのに共通 ◼ IB weighting factorの定義

11 ◼ クロスエントロピー誤差 ▪ 最後の中間層のノード : ▪ 出力 : ▪
最後の全結合層の重み : ▪ 出力の計算 : ▪ GT : ◼ 誤差関数の微分 (誤差逆伝播法) ◼ IB weighting factorの計算 IB Loss : IB weighting factorの逆数に比例提案手法(4/5)：Influence-Balanced Loss σ: ソフトマックス関数

12 提案手法(5/5)：クラス重み・fine-tuningフェーズ提案する最終的な誤差関数 ◼ ：クラスのサンプル数の逆数をクラス重みとして乗算 ◼ は調整用のハイパーパラメータ ◼ 多数派クラスの損失最小化を抑制 ◼
学習手法 ◼ 学習の前半：通常の誤差関数を用いて学習 ◼ 後半(fine-tuning フェーズ)：IB lossを適用して学習

13 実験設定：複数の不均衡データの画像分類タスクで検証 ◼ データセット ※訓練集合 + テスト集合 ◼ 学習設定 ※BS
: バッチサイズデータセットクラス数サンプル数※ データセットの特徴概要 CIFAR-10/CIFAR-100 10 / 100 50k + 10k 生活・自然画像などの低解像度画像人工的にlong-tailed分布かstep分布に加工 Tiny ImageNet 200 100k + 10k 実世界の物体や自然画像 iNaturalist 2018 8142 437k + 24k 動植物の種別識別が目的の自然界の画像もともとlong-tailed分布データセットモデル epoch数 BS※ 最適化手法アクセラレータ CIFAR ResNet-32 200 128 SGD + Momentum 0.9, LR: 0.1→decay NVIDIA GTX 1080 Ti ×1 Tiny ImageNet ResNet-18 100 128 SGD + Momentum 0.9, LR: 0.1→decay NVIDIA GTX 1080 Ti ×1 iNaturalist ResNet-50 200 256 SGD + Momentum 0.9, LR: 0.01→decay NVIDIA GTX 1080 Ti ×4

14 ☺ 提案手法が少数派クラスにおいて既存手法より高い精度 ☺ サンプル数による精度の差が小さい定量的結果(1/2):クラス別の分類精度 CIFAR-10におけるクラス別の分類精度比較 ◼ long-tailed分布
◼ サンプル数が指数関数的に減少する分布 ◼ step分布 ◼ 多数派・少数派の2グループに分ける ◼ 不均衡比(ρ) = 50 ◼ (最大サンプル数) / (最小サンプル数)

15 ☺ すべてのデータセットにおいて既存手法より精度が向上 Tiny ImageNetにおける分類精度比較 CIFAR-10/ CIFAR-100における分類精度比較 iNaturalist 2018における分類精度比較定量的結果(2/2):全体の分類精度

16 追試 : 太陽フレアのクラス不均衡のある4クラス分類問題に適用 ☺ テストセットにおいてクラス不均衡を考慮した評価指標で上回る誤差関数 GMGS BSS-M TSS-M
混同行列 w/o IB loss 0.3962 0.2996 0.2398 [5211 645 58 54] [ 737 808 155 233] [ 162 142 26 88] [ 0 34 0 33] w/ IB loss 0.4136 0.4257 0.2933 [5146 681 85 56] [ 658 736 301 238] [ 143 133 54 88] [ 1 24 11 31] ◼ 太陽フレアクラスの発生頻度は不均衡 ◼ 評価尺度 ▪ GMGS ▪ BSS-M ▪ TSS-M クラス O C M X 観測数 5968 1933 418 67 IB loss・BSS lossに影響関数を導入した損失を用いたフレア予測モデルをMIRU25にて発表 C(23.1%) M(5.0%) X(0.8%) O(71.2%)

17 まとめ背景 ✓ 多くの現実世界のデータは分布が偏っている ✓ 不均衡なデータで学習されたモデルは多数派クラスの影響が大きい提案 ✓ 本研究では、クラス不均衡に対処可能な誤差関数
Influence-balanced loss を提案 ✓ サンプルが決定境界に与える影響を影響関数で推定し、誤差をスケーリング ✓ タスク・モデル・学習手法にかかわらず導入可能結果 ✓ 複数のインバランスにおけるベンチマークにて、既存の損失関数を上回る性能 1 既存手法提案手法：過学習された境界：滑らかになった境界

18 ◼ は切り替えタイミング ◼ 局所的極小値に収束し始めた時点 ◼ 一般的には全体の半分にすることが推奨 ◼ 不均衡データを扱うあらゆるタスクに容易に導入可能
Appendix(1/2)：アルゴリズム

19 損失関数 ◼ なぜL1ノルムなのか ◼ 実験で最良の結果 ◼ 微小な影響も反映できる ◼ 分母のεの値
◼ 実験からε=1e-3が最良 Appendix(2/2):ノルム・εの検討 +𝜺 数値的安定性を確保するため実装時には分母にεを足す

[Journal club] Influence-Balanced Loss for Imba...

[Journal club] Influence-Balanced Loss for Imbalanced Visual Classification

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学杉浦孔明研究室髙木裕輔 INFLUENCE-BALANCED LOSS FOR IMBALANCED VISUAL CLASSIFICATION Seulki

2 概要背景 ✓ 多くの現実世界のデータは分布が偏っている ✓ 不均衡なデータで学習されたモデルは多数派クラスの影響が大きい提案 ✓ 本研究では、クラス不均衡に対処可能な誤差関数

4 関連研究(1/3): Data-level approach ◼ 学習データの分布を直接的に均等化 ◼ リサンプリング ◼ 多数派クラスをアンダーサンプリング

5 関連研究(2/3): Cost-sensitive re-weighting approach ◼ 損失計算時に異なる重みを付与クラスベースの重みづけ (𝜆𝑘: クラスの重み,

6 関連研究(3/3): Meta-learning approach ◼ 学習過程自体そのものを学習する ◼ 重み関数のメタ最適化 [Shu+, NeurIPS19]

7 提案手法：Influence-Balanced Loss (IB Loss) 7 ◼ サンプル毎の影響度を利用して損失関数を重みづけ ◼ 多数派クラスの影響を抑制し、決定境界への過学習を防止

8 提案手法(1/5)：手法において重要な考え方 8 ◼ DNNの表現力が高い  過学習のリスク ◼ 決定境界に過学習されるとき ◼

9 ※ はヘッセ行列提案手法(2/5)：影響関数の導出 9 ◼ 定義 ◼ モデル： ◼

10 提案手法(3/5)：Influence-Balanced weighting factor （再掲) 影響関数  影響関数においてヘッセ行列の逆行列の計算コストが大きい ◼ サンプル間の相対的な影響度がわかればよい

11 ◼ クロスエントロピー誤差 ▪ 最後の中間層のノード : ▪ 出力 : ▪

12 提案手法(5/5)：クラス重み・fine-tuningフェーズ提案する最終的な誤差関数 ◼ ：クラスのサンプル数の逆数をクラス重みとして乗算 ◼ は調整用のハイパーパラメータ ◼ 多数派クラスの損失最小化を抑制 ◼

13 実験設定：複数の不均衡データの画像分類タスクで検証 ◼ データセット ※訓練集合 + テスト集合 ◼ 学習設定 ※BS

14 ☺ 提案手法が少数派クラスにおいて既存手法より高い精度 ☺ サンプル数による精度の差が小さい定量的結果(1/2):クラス別の分類精度 CIFAR-10におけるクラス別の分類精度比較 ◼ long-tailed分布

15 ☺ すべてのデータセットにおいて既存手法より精度が向上 Tiny ImageNetにおける分類精度比較 CIFAR-10/ CIFAR-100における分類精度比較 iNaturalist 2018における分類精度比較定量的結果(2/2):全体の分類精度

16 追試 : 太陽フレアのクラス不均衡のある4クラス分類問題に適用 ☺ テストセットにおいてクラス不均衡を考慮した評価指標で上回る誤差関数 GMGS BSS-M TSS-M

17 まとめ背景 ✓ 多くの現実世界のデータは分布が偏っている ✓ 不均衡なデータで学習されたモデルは多数派クラスの影響が大きい提案 ✓ 本研究では、クラス不均衡に対処可能な誤差関数

18 ◼ は切り替えタイミング ◼ 局所的極小値に収束し始めた時点 ◼ 一般的には全体の半分にすることが推奨 ◼ 不均衡データを扱うあらゆるタスクに容易に導入可能

19 損失関数 ◼ なぜL1ノルムなのか ◼ 実験で最良の結果 ◼ 微小な影響も反映できる ◼ 分母のεの値