[Journal club] OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses

𝑅𝑜𝑏𝑖𝑘 𝑆ℎ𝑟𝑒𝑠𝑡ℎ𝑎1, 𝐾𝑢𝑠ℎ𝑎𝑙 𝐾𝑎𝑓𝑙𝑒2, 𝑎𝑛𝑑 𝐶ℎ𝑟𝑖𝑠𝑡𝑜𝑝ℎ𝑒𝑟 𝐾𝑎𝑛𝑎𝑛1.3 1𝑅𝑜𝑐ℎ𝑒𝑠𝑡𝑒𝑟 𝐼𝑛𝑠𝑡𝑖𝑡𝑢𝑡𝑒 𝑜𝑓
𝑇𝑒𝑐ℎ𝑛𝑜𝑙𝑜𝑔𝑦, 2𝐴𝑑𝑜𝑏𝑒 𝑅𝑒𝑠𝑒𝑎𝑟𝑐ℎ, 3𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑖𝑡𝑦 𝑜𝑓 𝑅𝑜𝑐ℎ𝑒𝑠𝑡𝑒𝑟 ECCV 2022 OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses 慶應義塾大学杉浦孔明研究室平野慎之助

2 • データセットバイアスや疑似相関はモデルの汎化性能に悪影響 • 一般的なモデルでは、すべてのサンプルについて同じ深さで推論 − サンプルによっては不必要な層が存在 − 不必要な層はデータセットバイアスに対する汎化性能を下げる •
データセットバイアスとは − データセットに推論に本来無関係な特徴が含まれること例) クラス分類データセットにおいて船の画像がすべて水上の船である場合背景: データセットバイアスによる汎化性能の低下 Biased MNIST [Shrestha+, WACV22]

3 関連研究: 既存手法特徴や問題等 [Kim+, CVPR19] 正則化と敵対的ネットワークを用いたモデルによりデータセットバイアスに対応データセットバイアスの要因がわかっている必要がある [Wolczyk+,
NeurIPS21] 難度の低いサンプルについて早期終了を行うことで推論時間を削減データセットバイアスに対応できていない [Kim+, CVPR19] [Wolczyk+, NeurIPS21]

4 提案手法: OccamNets 既存のCNN モデルに接続するモジュールを提案新規性 • Early exit −
Exit Module を導入 ✓ CNNの各層にExit Moduleを接続 ✓ Exit Module で推論を早期終了を判断 • Visual Constraint − オッカムの剃刀に則る ✓ 少ない領域から推論が可能になるように学習

5 主要モジュール Suppressed CAM Predictor, Output Predictor, Exit Decision Gate
Exit Module: 3つのモジュールから構成

6 Suppressed CAM Predictor: activation mapの生成 GTへ寄与全画素のGTへの寄与の平均 : KL-divergence
loss • 入力: 中間特徴量 • 出力: class activation map • CAM [Zhou+, CVPR 16] によりclass activation mapを生成 − 注目領域を狭めるように学習 • Suppressed CAM Predictorの損失: − 推論への寄与が小さい画素の重みを抑制 : クラス数

7 • class activation map を用いて推論 − class activation map
にGlobal Average Poolingを適用 Output Predictor: class activation mapから推論 • 入力: class activation map • 出力: 推論クラス • Output Predictor の損失: − 前のブロックで精度が低いサンプルの重みが大きくなるように学習 j-1番目ブロックの Exit decision score 推論クラス GTクラス

8 • 早期終了の是非を判断 − 入力: 中間特徴量 − 出力: Exit decision
score • Exit decision score − ReLU層+Sigmoid層で計算 ✓ 0.5以上なら終了 ✓ 0.5未満なら次のブロックに続く Exit Decision Gate: 早期終了を判断 Exit decision score • Exit decision Gateの損失: − 推論が正しい場合にExit decision scoreが大きくなるように学習

9 • Biased MNIST − MNISTにテキストの色や背景の柄、無駄書きなど、推論に無関係な要素を付与 • COCO-on-Places [Ahmed+,
ICLR21] − 物体を無関係な背景に配置 • BAR [Nam+, NeurIPS20] − 同じ対象に対して訓練データとテストデータで背景の異なるデータセット実験設定: データセット Biased MNIST COCO-on-Places BAR[Nam+, NeurIPS20]

10 定量的結果: Biased MNISTの精度を大きく上回る • Biased MNIST および COCO-on-Places で既存手法を上回る性能
• BARで既存手法に匹敵する性能 • 構造変更のみでデータセットバイアスの影響が軽減できることを確認 [Pezeshki+, NeurIPS20] [Sagawa+, ICLR20] [Ahmed+, ICLR21]

• BARで既存手法に匹敵する性能 • 構造変更のみでデータセットバイアスの影響が軽減できることを確認 [Pezeshki+, NeurIPS20] Shrestha [Sagawa+, ICLR20] [Ahmed+, ICLR21] +13.9 +0.7

• BARで既存手法に匹敵する性能 • 構造変更のみでデータセットバイアスの影響が軽減できることを確認 [Pezeshki+, NeurIPS20] [Sagawa+, ICLR20] [Ahmed+, ICLR21]

• BARで既存手法に匹敵する性能 • 構造変更のみでデータセットバイアスの影響を軽減できることを確認 [Pezeshki+, NeurIPS20] [Sagawa+, ICLR20] [Ahmed+, ICLR21]

14 • 既存手法にGrad-CAM [Selvaraju+, ICCV 17] を適用し、注目領域を可視化定性的結果: 適切な領域に注目

15 • 既存手法にGrad-CAM [Selvaraju+, ICCV 17] を適用し、注目領域を可視化定性的結果: 適切な領域に注目無駄書き付近に注目

16 • 既存手法にGrad-CAM [Selvaraju+, ICCV 17] を適用し、注目領域を可視化定性的結果: 適切な領域に注目適切な領域に注目

17 • 既存手法にGrad-CAM [Selvaraju+, ICCV 17] を適用し、注目領域を可視化定性的結果: 適切な領域に注目注目箇所が不適切
注目領域が広すぎる

18 • 既存手法にGrad-CAM [Selvaraju+, ICCV 17] を適用し、注目領域を可視化定性的結果: 適切な領域に注目適切な限られた領域に注目

19 Ablation Study: 各構造の有効性を検証

22 Ablation Study: 各構造の有効性を検証 • 早期終了しない場合、性能が低下 • CAM suppression loss
を使用しなかった場合、性能が低下 • Output Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの性能が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性

23 • attention map が不適切 • GTが9のサンプルを0と予測 • 背景のバイアスが強いサンプルでも適切に注目
Biased MNISTにおける追試 (左: 成功例、右: 失敗例) original OccamNet 予測: 0 OccamNet original 予測: 7 original OccamNet 予測: 7

24 • attention map が不適切 • GTが9のサンプルを0と予測 • 背景のバイアスが強いサンプルでも適切に注目
Biased MNISTにおける追試 (左: 成功例、右: 失敗例) original OccamNet 予測: 0 OccamNet original 予測: 7 original OccamNet 予測: 7

25 • attention map が不適切 • ラベルが9のサンプルを0と予測 • 背景のバイアスが強いサンプルでも適切に注目
Biased MNISTにおける追試 (左: 成功例、右: 失敗例) original OccamNet 予測: 0 OccamNet original 予測: 7 original OccamNet 予測: 7 「０」部分付近に注目

26 • 背景： − データセットバイアスや疑似相関が汎化性能に悪影響を与えることがある • 提案手法：OccamNets − サンプルごとに層の早期終了を行う ✓
各層で推論が不十分と判断されたサンプルのみ次の層に進む • 結果： − バイアスのあるデータセットで既存手法を上回る性能 − 既存手法と組み合わせることで性能がより向上まとめ

27 Appendix

28 • 既存手法と組み合わせることによってすべての手法で性能が向上 • Biased MNIST で特に大きく性能が向上定量的結果: 既存手法との組み合せで精度が向上既存手法と組み合わせた結果

29 • 既存手法と組み合わせることによってすべての手法で性能が向上 • Biased MNIST で特に大きく性能が向上定量的結果: 既存手法との組み合せで精度が向上既存手法と組み合わせた結果
Robik Shrestha

30 • 早期終了しない場合、性能が低下 • CAM suppression loss を使用しなかった場合、性能が低下 • Output
Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの性能が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性 Ablation Study: 各構造の有効性を検証

Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの精度が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性 Ablation Study: 各構造の有効性を検証

36 Appendix: 損失関数 Output Predictor Suppressed CAM Predictor Exit Decision
Gate • 各モジュールの損失の合計を全体の損失関数とする : ハイパーパラメータ

[Journal club] OccamNets: Mitigating Dataset Bi...

[Journal club] OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript