$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] OccamNets: Mitigating Dataset Bi...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
July 28, 2023
Technology
0
22
[Journal club] OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses
Semantic Machine Intelligence Lab., Keio Univ.
PRO
July 28, 2023
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] MemER: Scaling Up Memory for Robot Control via Experience Retrieval
keio_smilab
PRO
0
6
[Journal club] Flow Matching for Generative Modeling
keio_smilab
PRO
0
5
Multimodal AI Driving Solutions to Societal Challenges
keio_smilab
PRO
1
150
[Journal club] Re-thinking Temporal Search for Long-Form Video Understanding
keio_smilab
PRO
0
28
[Journal club] EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations
keio_smilab
PRO
0
62
[Journal club] FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction
keio_smilab
PRO
0
87
[Journal club] Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
keio_smilab
PRO
0
130
[Journal club] GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering
keio_smilab
PRO
0
81
[RSJ25] Feasible RAG: Hierarchical Multimodal Retrieval with Feasibility-Aware Embodied Memory for Mobile Manipulation
keio_smilab
PRO
0
190
Other Decks in Technology
See All in Technology
形式手法特論:CEGAR を用いたモデル検査の状態空間削減 #kernelvm / Kernel VM Study Hokuriku Part 8
ytaka23
2
460
【AWS re:Invent 2025速報】AIビルダー向けアップデートをまとめて解説!
minorun365
4
520
生成AIでテスト設計はどこまでできる? 「テスト粒度」を操るテーラリング術
shota_kusaba
0
750
5分で知るMicrosoft Ignite
taiponrock
PRO
0
360
モダンデータスタック (MDS) の話とデータ分析が起こすビジネス変革
sutotakeshi
0
490
Gemini でコードレビュー知見を見える化
zozotech
PRO
1
250
AIと二人三脚で育てた、個人開発アプリグロース術
zozotech
PRO
1
730
2025年 開発生産「可能」性向上報告 サイロ解消からチームが能動性を獲得するまで/ 20251216 Naoki Takahashi
shift_evolve
PRO
1
120
初めてのDatabricks AI/BI Genie
taka_aki
0
150
IAMユーザーゼロの運用は果たして可能なのか
yama3133
1
150
Kubernetes Multi-tenancy: Principles and Practices for Large Scale Internal Platforms
hhiroshell
0
120
コンテキスト情報を活用し個社最適化されたAI Agentを実現する4つのポイント
kworkdev
PRO
0
1.1k
Featured
See All Featured
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.6k
We Have a Design System, Now What?
morganepeng
54
7.9k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
The Pragmatic Product Professional
lauravandoore
37
7.1k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
37
2.6k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
7.9k
Site-Speed That Sticks
csswizardry
13
1k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Transcript
𝑅𝑜𝑏𝑖𝑘 𝑆ℎ𝑟𝑒𝑠𝑡ℎ𝑎1, 𝐾𝑢𝑠ℎ𝑎𝑙 𝐾𝑎𝑓𝑙𝑒2, 𝑎𝑛𝑑 𝐶ℎ𝑟𝑖𝑠𝑡𝑜𝑝ℎ𝑒𝑟 𝐾𝑎𝑛𝑎𝑛1.3 1𝑅𝑜𝑐ℎ𝑒𝑠𝑡𝑒𝑟 𝐼𝑛𝑠𝑡𝑖𝑡𝑢𝑡𝑒 𝑜𝑓
𝑇𝑒𝑐ℎ𝑛𝑜𝑙𝑜𝑔𝑦, 2𝐴𝑑𝑜𝑏𝑒 𝑅𝑒𝑠𝑒𝑎𝑟𝑐ℎ, 3𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑖𝑡𝑦 𝑜𝑓 𝑅𝑜𝑐ℎ𝑒𝑠𝑡𝑒𝑟 ECCV 2022 OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses 慶應義塾大学 杉浦孔明研究室 平野慎之助
2 • データセットバイアスや疑似相関はモデルの汎化性能に悪影響 • 一般的なモデルでは、すべてのサンプルについて同じ深さで推論 − サンプルによっては不必要な層が存在 − 不必要な層はデータセットバイアスに対する汎化性能を下げる •
データセットバイアスとは − データセットに推論に本来無関係な特徴が含まれること 例) クラス分類データセットにおいて船の画像がすべて水上の船である場合 背景: データセットバイアスによる汎化性能の低下 Biased MNIST [Shrestha+, WACV22]
3 関連研究: 既存手法 特徴や問題等 [Kim+, CVPR19] 正則化と敵対的ネットワークを用いたモデルによりデータセット バイアスに対応 データセットバイアスの要因がわかっている必要がある [Wolczyk+,
NeurIPS21] 難度の低いサンプルについて早期終了を行うことで推論時間を削減 データセットバイアスに対応できていない [Kim+, CVPR19] [Wolczyk+, NeurIPS21]
4 提案手法: OccamNets 既存のCNN モデルに接続するモジュールを提案 新規性 • Early exit −
Exit Module を導入 ✓ CNNの各層にExit Moduleを接続 ✓ Exit Module で推論を早期終了を判断 • Visual Constraint − オッカムの剃刀に則る ✓ 少ない領域から推論が可能になる ように学習
5 主要モジュール Suppressed CAM Predictor, Output Predictor, Exit Decision Gate
Exit Module: 3つのモジュールから構成
6 Suppressed CAM Predictor: activation mapの生成 GTへ寄与 全画素のGTへの寄与の平均 : KL-divergence
loss • 入力: 中間特徴量 • 出力: class activation map • CAM [Zhou+, CVPR 16] によりclass activation mapを生成 − 注目領域を狭めるように学習 • Suppressed CAM Predictorの損失: − 推論への寄与が小さい画素の重みを抑制 : クラス数
7 • class activation map を用いて推論 − class activation map
にGlobal Average Poolingを適用 Output Predictor: class activation mapから推論 • 入力: class activation map • 出力: 推論クラス • Output Predictor の損失: − 前のブロックで精度が低いサンプルの 重みが大きくなるように学習 j-1番目ブロックの Exit decision score 推論クラス GTクラス
8 • 早期終了の是非を判断 − 入力: 中間特徴量 − 出力: Exit decision
score • Exit decision score − ReLU層+Sigmoid層で計算 ✓ 0.5以上なら終了 ✓ 0.5未満なら次のブロックに続く Exit Decision Gate: 早期終了を判断 Exit decision score • Exit decision Gateの損失: − 推論が正しい場合にExit decision scoreが 大きくなるように学習
9 • Biased MNIST − MNISTにテキストの色や背景の柄、無駄書き など、推論に無関係な要素を付与 • COCO-on-Places [Ahmed+,
ICLR21] − 物体を無関係な背景に配置 • BAR [Nam+, NeurIPS20] − 同じ対象に対して訓練データとテストデータ で背景の異なるデータセット 実験設定: データセット Biased MNIST COCO-on-Places BAR[Nam+, NeurIPS20]
10 定量的結果: Biased MNISTの精度を大きく上回る • Biased MNIST および COCO-on-Places で既存手法を上回る性能
• BARで既存手法に匹敵する性能 • 構造変更のみでデータセットバイアスの影響が軽減できることを確認 [Pezeshki+, NeurIPS20] [Sagawa+, ICLR20] [Ahmed+, ICLR21]
11 定量的結果: Biased MNISTの精度を大きく上回る • Biased MNIST および COCO-on-Places で既存手法を上回る性能
• BARで既存手法に匹敵する性能 • 構造変更のみでデータセットバイアスの影響が軽減できることを確認 [Pezeshki+, NeurIPS20] Shrestha [Sagawa+, ICLR20] [Ahmed+, ICLR21] +13.9 +0.7
12 定量的結果: Biased MNISTの精度を大きく上回る • Biased MNIST および COCO-on-Places で既存手法を上回る性能
• BARで既存手法に匹敵する性能 • 構造変更のみでデータセットバイアスの影響が軽減できることを確認 [Pezeshki+, NeurIPS20] [Sagawa+, ICLR20] [Ahmed+, ICLR21]
13 定量的結果: Biased MNISTの精度を大きく上回る • Biased MNIST および COCO-on-Places で既存手法を上回る性能
• BARで既存手法に匹敵する性能 • 構造変更のみでデータセットバイアスの影響を軽減できることを確認 [Pezeshki+, NeurIPS20] [Sagawa+, ICLR20] [Ahmed+, ICLR21]
14 • 既存手法にGrad-CAM [Selvaraju+, ICCV 17] を適用し、注目領域を可視化 定性的結果: 適切な領域に注目
15 • 既存手法にGrad-CAM [Selvaraju+, ICCV 17] を適用し、注目領域を可視化 定性的結果: 適切な領域に注目 無駄書き付近に注目
16 • 既存手法にGrad-CAM [Selvaraju+, ICCV 17] を適用し、注目領域を可視化 定性的結果: 適切な領域に注目 適切な領域に注目
17 • 既存手法にGrad-CAM [Selvaraju+, ICCV 17] を適用し、注目領域を可視化 定性的結果: 適切な領域に注目 注目箇所が不適切
注目領域が広すぎる
18 • 既存手法にGrad-CAM [Selvaraju+, ICCV 17] を適用し、注目領域を可視化 定性的結果: 適切な領域に注目 適切な限られた領域に注目
19 Ablation Study: 各構造の有効性を検証
20 Ablation Study: 各構造の有効性を検証
21 Ablation Study: 各構造の有効性を検証
22 Ablation Study: 各構造の有効性を検証 • 早期終了しない場合、性能が低下 • CAM suppression loss
を使用しなかった場合、性能が低下 • Output Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの性能が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性
23 • attention map が不適切 • GTが9のサンプルを0と予測 • 背景のバイアスが強いサンプルでも 適切に注目
Biased MNISTにおける追試 (左: 成功例、右: 失敗例) original OccamNet 予測: 0 OccamNet original 予測: 7 original OccamNet 予測: 7
24 • attention map が不適切 • GTが9のサンプルを0と予測 • 背景のバイアスが強いサンプルでも 適切に注目
Biased MNISTにおける追試 (左: 成功例、右: 失敗例) original OccamNet 予測: 0 OccamNet original 予測: 7 original OccamNet 予測: 7
25 • attention map が不適切 • ラベルが9のサンプルを0と予測 • 背景のバイアスが強いサンプルでも 適切に注目
Biased MNISTにおける追試 (左: 成功例、右: 失敗例) original OccamNet 予測: 0 OccamNet original 予測: 7 original OccamNet 予測: 7 「0」部分付近に 注目
26 • 背景: − データセットバイアスや疑似相関が汎化性能に悪影響を与えることがある • 提案手法:OccamNets − サンプルごとに層の早期終了を行う ✓
各層で推論が不十分と判断されたサンプルのみ次の層に進む • 結果: − バイアスのあるデータセットで既存手法を上回る性能 − 既存手法と組み合わせることで性能がより向上 まとめ
27 Appendix
28 • 既存手法と組み合わせることによってすべての手法で性能が向上 • Biased MNIST で特に大きく性能が向上 定量的結果: 既存手法との組み合せで精度が向上 既存手法と組み合わせた結果
29 • 既存手法と組み合わせることによってすべての手法で性能が向上 • Biased MNIST で特に大きく性能が向上 定量的結果: 既存手法との組み合せで精度が向上 既存手法と組み合わせた結果
Robik Shrestha
30 • 早期終了しない場合、性能が低下 • CAM suppression loss を使用しなかった場合、性能が低下 • Output
Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの性能が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性 Ablation Study: 各構造の有効性を検証
31 • 早期終了しない場合、性能が低下 • CAM suppression loss を使用しなかった場合、性能が低下 • Output
Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの性能が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性 Ablation Study: 各構造の有効性を検証
32 • 早期終了しない場合、性能が低下 • CAM suppression loss を使用しなかった場合、性能が低下 • Output
Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの性能が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性 Ablation Study: 各構造の有効性を検証
33 • 早期終了しない場合、性能が低下 • CAM suppression loss を使用しなかった場合、性能が低下 • Output
Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの精度が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性 Ablation Study: 各構造の有効性を検証
34 • 早期終了しない場合、性能が低下 • CAM suppression loss を使用しなかった場合、性能が低下 • Output
Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの精度が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性 Ablation Study: 各構造の有効性を検証
35 • 早期終了しない場合、性能が低下 • CAM suppression loss を使用しなかった場合、性能が低下 • Output
Predictorにおいて精度が低いと判断されたサンプルの重みを大きくない場合、 Biased MNISTの性能が上昇 − Biased MNIST において多くのサンプルが早い段階で早期終了 ✓ 深いノードで十分な学習ができなかった可能性 Ablation Study: 各構造の有効性を検証
36 Appendix: 損失関数 Output Predictor Suppressed CAM Predictor Exit Decision
Gate • 各モジュールの損失の合計を全体の損失関数とする : ハイパーパラメータ