Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition

maguro27
June 14, 2020

SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition

ICLR2020読み会で発表した "SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition" の発表資料になります。

maguro27

June 14, 2020
Tweet

More Decks by maguro27

Other Decks in Research

Transcript

  1. 自己紹介 2 綱島 秀樹 (@maguroIsland ) ◆所属 早稲田大学 博士1年-森島繁生研究室 産総研

    (AIST) Research Assistant ◆研究テーマ 修士課程:深層画像生成モデルの計算量・パラメータ削減 博士課程:深層画像生成モデルを用いた画像編集 ◆趣味 筋トレ、アメフト、読書、音楽ゲーム (弐寺) (音楽ゲームの知り合いが全然いないので、誰かお話しましょう、、、)
  2. Contents ⚫ Object-aware Representation Learningとは ⚫ SPACEの概説、実験結果 ⚫ Spatial Attention

    ⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 3
  3. Contents ⚫ Object-aware Representation Learningとは ⚫ SPACEの概説、実験結果 ⚫ Spatial Attention

    ⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 4 SPACEの詳細
  4. Contents ⚫ Object-aware Representation Learningとは ⚫ SPACEの概説、実験結果 ⚫ Spatial Attention

    ⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 9
  5. SPACEの概説、実験結果 12 SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention

    and Decomposition Spatial Attention:画像空間でのマスクを生成して前景を個々に分離 Decomposition :画像から獲得した潜在変数から背景を個々に生成
  6. SPACEの概説、実験結果 16 Spatial Attention:画像空間でのマスクを生成して前景を個々に分離 Decomposition :画像から獲得した潜在変数から背景を個々に生成 Spatial Attentionの該当分野は  Unsupervised

    Object Detection Decompositionの該当分野は  Unsupervised Panoptic Segmentation  Unsupervised Segmentation ただし、Object-aware Rep.の論文以外では扱われていないテーマで あるため、本スライドの著者が仮に命名しています Unsupervised Segmentationは存在します。ご興味があれば論文を ご紹介するので、お問い合わせお願いいたします
  7. Contents ⚫ Object-aware Representation Learningとは ⚫ SPACEの概説、実験結果 ⚫ Spatial Attention

    ⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 21
  8. ρ Spatial Attention 25 μℎ, σℎ μℎ, σℎ ℎ ℎ

    ※ ℎはさらに2つの潜在変数から構成 されているが、簡略化のためこのように表記
  9. ρ Spatial Attention 26 μℎ, σℎ μℎ, σℎ ℎ ℎ

    ※ ℎはさらに2つの潜在変数から構成 されているが、簡略化のためこのように表記
  10. Spatial Attention 29 <Notation> , :セルの番号 :セルのサイズ ෨ :セルの端から対象物の中心 までの距離

    :画像の端から対象物の中心 までの距離 ℎ :対象物を中心としたb-box の大きさ 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks
  11. Spatial Attention 30 <Notation> , :セルの番号 :セルのサイズ ෨ :セルの端から対象物の中心 までの距離

    :画像の端から対象物の中心 までの距離 ℎ :対象物を中心としたb-box の大きさ 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks
  12. Spatial Attention 31 <Notation> , :セルの番号 :セルのサイズ ෨ :セルの端から対象物の中心 までの距離

    :画像の端から対象物の中心 までの距離 ℎ :対象物を中心としたb-box の大きさ 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks
  13. Spatial Attention 32 <Notation> , :セルの番号 :セルのサイズ ෨ :セルの端から対象物の中心 までの距離

    :画像の端から対象物の中心 までの距離 ℎ :対象物を中心としたb-box の大きさ 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks
  14. Spatial Attention 33 <Notation> , :セルの番号 :セルのサイズ ෨ :セルの端から対象物の中心 までの距離

    :画像の端から対象物の中心 までの距離 ℎ :対象物を中心としたb-box の大きさ 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks
  15. Spatial Attention 37 SPACEは平均場近似を使ってセルごと にパラレルで処理を行う 平均場近似とは沢山絡み合ってると めんどくさいから全部独立と仮定して しまおう!というもの (物理学のお話) そのためSPAIRではセルサイズを16x16

    としていたが、SPACEでは32x32を採用 (セル内に物体を収めるため※) ※学習序盤はセルを跨ぐ前景は無視 するように学習し、収束したらセル を跨ぐ前景も検知します ご興味ある方は質問お願いします ෨ ෨ ℎ ℎ
  16. Scene Decomposition 39 先行研究 (MONet) MONet: Unsupervised Scene Decomposition and

    Representation 1. 画像をscope を使いマスク生成 大きな領域からマスク生成する
  17. Scene Decomposition 40 先行研究 (MONet) MONet: Unsupervised Scene Decomposition and

    Representation 1. 画像をscope を使いマスク生成 大きな領域からマスク生成する 2. マスクごとの画像をVAEで エンコード、デコード
  18. Scene Decomposition 41 先行研究 (MONet) MONet: Unsupervised Scene Decomposition and

    Representation 1. 画像をscope を使いマスク生成 大きな領域からマスク生成する 2. マスクごとの画像をVAEで エンコード、デコード 3. 全ての画像をconcatしてELBO※ を計算 ※ELBOはEvidence Lower Boundの 略で、変分下界とも呼ばれます 再構成誤差 (MSEやBinary Cross Entropy)とKL Divergenceで構成
  19. Scene Decomposition 42 先行研究 (MONet) MONet: Unsupervised Scene Decomposition and

    Representation しかし、VAE中の潜在変数同士の 相互影響が考慮できていないため、 表現力が低い (うまく分解できない)
  20. Scene Decomposition 43 先行研究 (GENESIS) GENESIS: Generative Scene Inference and

    Sampling with Object-Centric Latent Representations VAEを2つスタックした構造で前半で潜在変数同士の相互関係を考慮 (LSTMでシーケンシャルに処理を行う)
  21. Contents ⚫ Object-aware Representation Learningとは ⚫ SPACEの概説、実験結果 ⚫ Spatial Attention

    ⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 47
  22. Future Work 52 著者が論文とgithubで言及しているコメントを抜粋 ⚫ Seedにかなり敏感 (物体検出も背景分離もUnsupervisedなので、そりゃ 不安定だろうという当たり前感) ⚫ 3D

    roomやAtari Gameでは背景と前景が明確に分かれているが、実際 は綺麗に分かれていないなので、そのようなデータにも対応可能にする ⚫ オブジェクトサイズが大きく変化するようなデータセットには弱い ⚫ 強化学習への応用 (SPACEを基に強化学習の下流タスクを解く)