Upgrade to Pro — share decks privately, control downloads, hide ads and more …

解説: Metadata Normalization

Naoto Inoue
August 01, 2021

解説: Metadata Normalization

CVPR2021論文読み会(後編)

Naoto Inoue

August 01, 2021
Tweet

More Decks by Naoto Inoue

Other Decks in Research

Transcript

  1. ⾃⼰紹介 1 現職: CyberAgent AI Lab 研究員 (2021.4~) 現研究:広告クリエティブの制作⽀援と⾃動⽣成 •

    Multi-modal data, vector format data • CVPR2021論⽂まとめブログ を書きました 前職(?):博⼠@相澤⼭﨑松井研(東⼤) (~2021.3) Domain adaptation や image-to-image translation 周りの研究 • Domain adaptation for object detection [Inoue+, CVPR’18] • Reinforcement learning for low-level image processing [Furuta+, AAAI‘19] • Line drawing generation from a single RGB image [Inoue+, Pacific Graphics’19] • Ambient occlusion generation from a single RGB image [Inoue+, EuroGraphics’20]
  2. 対策 固定効果対策にダミー変数を⼊れる (𝑦 = 𝑎𝑥 + 𝑏 + 𝑚# )

    5 ブランドA ブランドB ブランドC 温度 𝑥 売り上げ 𝑦 ブランドごとに固定の値
  3. CVでの応⽤可能性? ⾮⾃明 • ピクセル⼊⼒かつ⼤規模データだと計算量が厳しい・ピクセル間相関がある • 事前に特徴量抽出するのは可能だが,多くの問題はNNでの特徴抽出と分 類・回帰を同時に⾏うので精度が保証できない・そのまま使えない 実在 6 タスク

    入力 出力 メタデータ 引用 性別認識 画像 性別(男/女) 人種(肌の色) [Yang+, FAT’20] 行動認識 映像 行動ラベル シーンラベル [Choi+, NeurIPS’19] 病気認識 3D MRI scan 病気ラベル 撮影機械 [Brookhart+, Med. Care’10]
  4. 簡単な場合 (Full-batch) Full-batch (全データを⼀気に⾒ることができる) 𝒙# ∈ ℝ$: 𝑖番⽬のサンプルが持つメタデータ 𝑿 =

    [𝒙% , 𝒙& , … , 𝒙' ](:全Nサンプルのメタデータの⾏列 𝒇 = [𝑓%, 𝑓&, … , 𝑓'] ∈ ℝ':あるレイヤで抽出された全Nサンプルの特徴 𝒇 = 𝑿𝛽 + 𝒓で 𝒓 𝟐 を最⼩化する𝛽を求める(ordinary least square estimator for GLM) → 閉形式の解が解析的に求まり,𝛽と𝒓が簡単に計算できる 9 𝒓 = 𝒇 − 𝑿𝛽 出力 入力 メタデータ
  5. 難しい場合 (Mini-batch) Mini-batch (NNと組み合わせる場合⼤体これ) 𝑀:ミニバッチ内のデータ数 (𝑀 ≪ 𝑁) ; 𝑿

    ∈ ℝ*×$:ミニバッチ内のメタデータの⾏列 < 𝒇 ∈ ℝ*:あるレイヤで抽出された全Mサンプルの特徴 逆⾏列(K×K)計算が重い・𝛽の推定が不正確 10 𝒓 = 𝒇 − 𝑿𝛽 出力 入力 メタデータ
  6. 実験(実データ,GS-PPB) 18 データ:GS-PPB dataset • サンプル数:1.2k • ⼊⼒:顔画像 • 出⼒:性別(男・⼥)

    • メタデータ:明暗情報 1 (lighter) to type 6 (darker) モデル:ImageNet-pretrained VGG16 • Shadeバイアスがかかっていることが知られている [Yang+, FAT’20]
  7. 実験(実データ,HVU) 20 データ:GS-PPB dataset • サンプル数:572k clips of 882 actions

    • ⼊⼒:ビデオ • 出⼒:⾏動認識のラベル(882種) • メタデータ:シーンラベル(282個) モデル:3D-resnet18 • 背景情報だけでそこそこ解けてしまう=バイアスがある [Choi+, NeurIPS’19]
  8. 実験(実データ,Multi-site Medical Data) 22 データ: Multi-site Medical Data • ⼊⼒:3D

    MRI scans • 出⼒:病気ラベル(2種 × {yes, no} → 4通り) • メタデータ:どのマシンで取得したか
  9. 議論(個⼈の感想) ⼊⼒にconcatじゃだめ? • CNNでは⼤変そうだけどTransformerだとtokenで素直に表現出来る気も? • 実験結果が欲しかった 回帰問題では使えるのか? • 丁度良いデータがなかったのか不都合なのか読み取れなかった Invariant

    feature learning (e.g., [Moyer+, NeurIPS’18])との⽐較実験がないのは何故? • バイアスを明⽰的に使ってるし↑なので多分⼤丈夫とは思うが.. Domain adaptation / generalization系との⽐較実験がないのは何故? • これも⼿法毎に適切な実装とチューニングがいるので⼤変かつ微妙そうだが 24