Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] OccamNets: Mitigating Dataset Bi...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
July 28, 2023
Technology
0
21
[Journal club] OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses
Semantic Machine Intelligence Lab., Keio Univ.
PRO
July 28, 2023
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
Machine Intelligence for Vision, Language, and Actions
keio_smilab
PRO
0
590
[Journal club] V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization
keio_smilab
PRO
0
140
[Journal club] Model Alignment as Prospect Theoretic Optimization
keio_smilab
PRO
0
160
[Journal club] DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models
keio_smilab
PRO
0
80
[Journal club] LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
keio_smilab
PRO
2
110
Will multimodal language processing change the world?
keio_smilab
PRO
4
630
[Journal club] MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting
keio_smilab
PRO
0
200
[Journal club] Seeing the Unseen: Visual Common Sense for Semantic Placement
keio_smilab
PRO
0
180
[Journal club] Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot
keio_smilab
PRO
0
190
Other Decks in Technology
See All in Technology
Uniadex__公開版_20250617-AIxIoTビジネス共創ラボ_ツナガルチカラ_.pdf
iotcomjpadmin
0
160
PHP開発者のためのSOLID原則再入門 #phpcon / PHP Conference Japan 2025
shogogg
4
730
Javaで作る RAGを活用した Q&Aアプリケーション
recruitengineers
PRO
1
110
Snowflake Summit 2025全体振り返り / Snowflake Summit 2025 Overall Review
mtpooh
2
400
AWS Summit Japan 2025 Community Stage - App workflow automation by AWS Step Functions
matsuihidetoshi
1
260
PostgreSQL 18 cancel request key長の変更とRailsへの関連
yahonda
0
120
CI/CD/IaC 久々に0から環境を作ったらこうなりました
kaz29
1
170
本が全く読めなかった過去の自分へ
genshun9
0
270
_第3回__AIxIoTビジネス共創ラボ紹介資料_20250617.pdf
iotcomjpadmin
0
150
米国国防総省のDevSecOpsライフサイクルをAWSのセキュリティサービスとOSSで実現
syoshie
2
1.1k
Clineを含めたAIエージェントを 大規模組織に導入し、投資対効果を考える / Introducing AI agents into your organization
i35_267
4
1.6k
Node-RED × MCP 勉強会 vol.1
1ftseabass
PRO
0
140
Featured
See All Featured
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.3k
Adopting Sorbet at Scale
ufuk
77
9.4k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.4k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
138
34k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
48
2.8k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.1k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
5
210
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
The Invisible Side of Design
smashingmag
299
51k
Transcript
𝑅𝑜𝑏𝑖𝑘 𝑆ℎ𝑟𝑒𝑠𝑡ℎ𝑎1, 𝐾𝑢𝑠ℎ𝑎𝑙 𝐾𝑎𝑓𝑙𝑒2, 𝑎𝑛𝑑 𝐶ℎ𝑟𝑖𝑠𝑡𝑜𝑝ℎ𝑒𝑟 𝐾𝑎𝑛𝑎𝑛1.3 1𝑅𝑜𝑐ℎ𝑒𝑠𝑡𝑒𝑟 𝐼𝑛𝑠𝑡𝑖𝑡𝑢𝑡𝑒 𝑜𝑓
𝑇𝑒𝑐ℎ𝑛𝑜𝑙𝑜𝑔𝑦, 2𝐴𝑑𝑜𝑏𝑒 𝑅𝑒𝑠𝑒𝑎𝑟𝑐ℎ, 3𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑖𝑡𝑦 𝑜𝑓 𝑅𝑜𝑐ℎ𝑒𝑠𝑡𝑒𝑟 ECCV 2022 OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses 慶應義塾大学 杉浦孔明研究室 平野慎之助
2 • データセットバイアスや疑似相関はモデルの汎化性能に悪影響 • 一般的なモデルでは、すべてのサンプルについて同じ深さで推論 − サンプルによっては不必要な層が存在 − 不必要な層はデータセットバイアスに対する汎化性能を下げる •
データセットバイアスとは − データセットに推論に本来無関係な特徴が含まれること 例) クラス分類データセットにおいて船の画像がすべて水上の船である場合 背景: データセットバイアスによる汎化性能の低下 Biased MNIST [Shrestha+, WACV22]
3 関連研究: 既存手法 特徴や問題等 [Kim+, CVPR19] 正則化と敵対的ネットワークを用いたモデルによりデータセット バイアスに対応 データセットバイアスの要因がわかっている必要がある [Wolczyk+,
NeurIPS21] 難度の低いサンプルについて早期終了を行うことで推論時間を削減 データセットバイアスに対応できていない [Kim+, CVPR19] [Wolczyk+, NeurIPS21]
4 提案手法: OccamNets 既存のCNN モデルに接続するモジュールを提案 新規性 • Early exit −
Exit Module を導入 ✓ CNNの各層にExit Moduleを接続 ✓ Exit Module で推論を早期終了を判断 • Visual Constraint − オッカムの剃刀に則る ✓ 少ない領域から推論が可能になる ように学習
5 主要モジュール Suppressed CAM Predictor, Output Predictor, Exit Decision Gate
Exit Module: 3つのモジュールから構成
6 Suppressed CAM Predictor: activation mapの生成 GTへ寄与 全画素のGTへの寄与の平均 : KL-divergence
loss • 入力: 中間特徴量 • 出力: class activation map • CAM [Zhou+, CVPR 16] によりclass activation mapを生成 − 注目領域を狭めるように学習 • Suppressed CAM Predictorの損失: − 推論への寄与が小さい画素の重みを抑制 : クラス数
7 • class activation map を用いて推論 − class activation map
にGlobal Average Poolingを適用 Output Predictor: class activation mapから推論 • 入力: class activation map • 出力: 推論クラス • Output Predictor の損失: − 前のブロックで精度が低いサンプルの 重みが大きくなるように学習 j-1番目ブロックの Exit decision score 推論クラス GTクラス
8 • 早期終了の是非を判断 − 入力: 中間特徴量 − 出力: Exit decision
score • Exit decision score − ReLU層+Sigmoid層で計算 ✓ 0.5以上なら終了 ✓ 0.5未満なら次のブロックに続く Exit Decision Gate: 早期終了を判断 Exit decision score • Exit decision Gateの損失: − 推論が正しい場合にExit decision scoreが 大きくなるように学習
9 • Biased MNIST − MNISTにテキストの色や背景の柄、無駄書き など、推論に無関係な要素を付与 • COCO-on-Places [Ahmed+,
ICLR21] − 物体を無関係な背景に配置 • BAR [Nam+, NeurIPS20] − 同じ対象に対して訓練データとテストデータ で背景の異なるデータセット 実験設定: データセット Biased MNIST COCO-on-Places BAR[Nam+, NeurIPS20]
10 定量的結果: Biased MNISTの精度を大きく上回る • Biased MNIST および COCO-on-Places で既存手法を上回る性能
• BARで既存手法に匹敵する性能 • 構造変更のみでデータセットバイアスの影響が軽減できることを確認 [Pezeshki+, NeurIPS20] [Sagawa+, ICLR20] [Ahmed+, ICLR21]
11 定量的結果: Biased MNISTの精度を大きく上回る • Biased MNIST および COCO-on-Places で既存手法を上回る性能
• BARで既存手法に匹敵する性能 • 構造変更のみでデータセットバイアスの影響が軽減できることを確認 [Pezeshki+, NeurIPS20] Shrestha [Sagawa+, ICLR20] [Ahmed+, ICLR21] +13.9 +0.7
12 定量的結果: Biased MNISTの精度を大きく上回る • Biased MNIST および COCO-on-Places で既存手法を上回る性能
• BARで既存手法に匹敵する性能 • 構造変更のみでデータセットバイアスの影響が軽減できることを確認 [Pezeshki+, NeurIPS20] [Sagawa+, ICLR20] [Ahmed+, ICLR21]
13 定量的結果: Biased MNISTの精度を大きく上回る • Biased MNIST および COCO-on-Places で既存手法を上回る性能
• BARで既存手法に匹敵する性能 • 構造変更のみでデータセットバイアスの影響を軽減できることを確認 [Pezeshki+, NeurIPS20] [Sagawa+, ICLR20] [Ahmed+, ICLR21]
14 • 既存手法にGrad-CAM [Selvaraju+, ICCV 17] を適用し、注目領域を可視化 定性的結果: 適切な領域に注目
15 • 既存手法にGrad-CAM [Selvaraju+, ICCV 17] を適用し、注目領域を可視化 定性的結果: 適切な領域に注目 無駄書き付近に注目
16 • 既存手法にGrad-CAM [Selvaraju+, ICCV 17] を適用し、注目領域を可視化 定性的結果: 適切な領域に注目 適切な領域に注目
17 • 既存手法にGrad-CAM [Selvaraju+, ICCV 17] を適用し、注目領域を可視化 定性的結果: 適切な領域に注目 注目箇所が不適切
注目領域が広すぎる
18 • 既存手法にGrad-CAM [Selvaraju+, ICCV 17] を適用し、注目領域を可視化 定性的結果: 適切な領域に注目 適切な限られた領域に注目
19 Ablation Study: 各構造の有効性を検証
20 Ablation Study: 各構造の有効性を検証
21 Ablation Study: 各構造の有効性を検証
22 Ablation Study: 各構造の有効性を検証 • 早期終了しない場合、性能が低下 • CAM suppression loss
を使用しなかった場合、性能が低下 • Output Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの性能が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性
23 • attention map が不適切 • GTが9のサンプルを0と予測 • 背景のバイアスが強いサンプルでも 適切に注目
Biased MNISTにおける追試 (左: 成功例、右: 失敗例) original OccamNet 予測: 0 OccamNet original 予測: 7 original OccamNet 予測: 7
24 • attention map が不適切 • GTが9のサンプルを0と予測 • 背景のバイアスが強いサンプルでも 適切に注目
Biased MNISTにおける追試 (左: 成功例、右: 失敗例) original OccamNet 予測: 0 OccamNet original 予測: 7 original OccamNet 予測: 7
25 • attention map が不適切 • ラベルが9のサンプルを0と予測 • 背景のバイアスが強いサンプルでも 適切に注目
Biased MNISTにおける追試 (左: 成功例、右: 失敗例) original OccamNet 予測: 0 OccamNet original 予測: 7 original OccamNet 予測: 7 「0」部分付近に 注目
26 • 背景: − データセットバイアスや疑似相関が汎化性能に悪影響を与えることがある • 提案手法:OccamNets − サンプルごとに層の早期終了を行う ✓
各層で推論が不十分と判断されたサンプルのみ次の層に進む • 結果: − バイアスのあるデータセットで既存手法を上回る性能 − 既存手法と組み合わせることで性能がより向上 まとめ
27 Appendix
28 • 既存手法と組み合わせることによってすべての手法で性能が向上 • Biased MNIST で特に大きく性能が向上 定量的結果: 既存手法との組み合せで精度が向上 既存手法と組み合わせた結果
29 • 既存手法と組み合わせることによってすべての手法で性能が向上 • Biased MNIST で特に大きく性能が向上 定量的結果: 既存手法との組み合せで精度が向上 既存手法と組み合わせた結果
Robik Shrestha
30 • 早期終了しない場合、性能が低下 • CAM suppression loss を使用しなかった場合、性能が低下 • Output
Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの性能が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性 Ablation Study: 各構造の有効性を検証
31 • 早期終了しない場合、性能が低下 • CAM suppression loss を使用しなかった場合、性能が低下 • Output
Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの性能が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性 Ablation Study: 各構造の有効性を検証
32 • 早期終了しない場合、性能が低下 • CAM suppression loss を使用しなかった場合、性能が低下 • Output
Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの性能が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性 Ablation Study: 各構造の有効性を検証
33 • 早期終了しない場合、性能が低下 • CAM suppression loss を使用しなかった場合、性能が低下 • Output
Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの精度が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性 Ablation Study: 各構造の有効性を検証
34 • 早期終了しない場合、性能が低下 • CAM suppression loss を使用しなかった場合、性能が低下 • Output
Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの精度が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性 Ablation Study: 各構造の有効性を検証
35 • 早期終了しない場合、性能が低下 • CAM suppression loss を使用しなかった場合、性能が低下 • Output
Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの性能が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性 Ablation Study: 各構造の有効性を検証
36 Appendix: 損失関数 Output Predictor Suppressed CAM Predictor Exit Decision
Gate • 各モジュールの損失の合計を全体の損失関数とする : ハイパーパラメータ