SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition

24181c881290162bdd810014c5b880d9?s=47 maguro27
June 14, 2020

SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition

ICLR2020読み会で発表した "SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition" の発表資料になります。

24181c881290162bdd810014c5b880d9?s=128

maguro27

June 14, 2020
Tweet

Transcript

  1. 早稲田大学、AIST (産総研) 綱島秀樹 SPACE: Unsupervised Object- Oriented Scene Representation via

    Spatial Attention and Decomposition
  2. 自己紹介 2 綱島 秀樹 (@maguroIsland ) ◆所属 早稲田大学 博士1年-森島繁生研究室 産総研

    (AIST) Research Assistant ◆研究テーマ 修士課程:深層画像生成モデルの計算量・パラメータ削減 博士課程:深層画像生成モデルを用いた画像編集 ◆趣味 筋トレ、アメフト、読書、音楽ゲーム (弐寺) (音楽ゲームの知り合いが全然いないので、誰かお話しましょう、、、)
  3. Contents ⚫ Object-aware Representation Learningとは ⚫ SPACEの概説、実験結果 ⚫ Spatial Attention

    ⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 3
  4. Contents ⚫ Object-aware Representation Learningとは ⚫ SPACEの概説、実験結果 ⚫ Spatial Attention

    ⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 4 SPACEの詳細
  5. Contents ⚫ Object-aware Representation Learningとは 5

  6. Object-aware Representation Learning 6 直訳すると、オブジェクトを意識した表現学習※ 表現学習 入力データから出力データにする過程で、特徴空間で意味がある ベクトルを獲得する学習方法 NNの学習は必ず特徴空間が生じるため、NNの学習は全て表現学習 オブジェクトを意識した

    NNの中間層で獲得されている表現として入力画像のオブジェクトの 個別の分離を行う ※ Object-oriented Representation Learningや Object-centric Representation Learningとも呼ばれたりします
  7. None
  8. Object-aware Representation Learning 8 オブジェクトを意識した NNの中間層で獲得されている表現として入力画像のオブジェクトの 個別の分離を行う 背景分離 前景分離

  9. Contents ⚫ Object-aware Representation Learningとは ⚫ SPACEの概説、実験結果 ⚫ Spatial Attention

    ⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 9
  10. Contents ⚫ SPACEの概説、実験結果 10

  11. SPACEの概説、実験結果 11 SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention

    and Decomposition Spatial Attention Decomposition
  12. SPACEの概説、実験結果 12 SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention

    and Decomposition Spatial Attention:画像空間でのマスクを生成して前景を個々に分離 Decomposition :画像から獲得した潜在変数から背景を個々に生成
  13. SPACEの概説、実験結果 13 Spatial Attention:画像空間でのマスクを生成して前景を個々に分離 Decomposition :画像から獲得した潜在変数から背景を個々に生成 Decomposition Spatial Attention

  14. SPACEの概説、実験結果 14 SPACEは前景背景を分離後再構成して、前景背景を個々に獲得可能 <貢献> ✓ Object-aware Rep.において、前景の物体検出と背景の分離生成の 組み合わせが有効であることを証明 ✓ オブジェクト数が増加するにつれて計算量が増加する問題を解決

    ✓ 先行研究を超える定性、定量性能を示した
  15. SPACEの概説、実験結果 15 Spatial Attention:画像空間でのマスクを生成して前景を個々に分離 Decomposition :画像から獲得した潜在変数から背景を個々に生成 Spatial Attentionの該当分野は  Unsupervised

    Object Detection Decompositionの該当分野は  Unsupervised Panoptic Segmentation  Unsupervised Segmentation
  16. SPACEの概説、実験結果 16 Spatial Attention:画像空間でのマスクを生成して前景を個々に分離 Decomposition :画像から獲得した潜在変数から背景を個々に生成 Spatial Attentionの該当分野は  Unsupervised

    Object Detection Decompositionの該当分野は  Unsupervised Panoptic Segmentation  Unsupervised Segmentation ただし、Object-aware Rep.の論文以外では扱われていないテーマで あるため、本スライドの著者が仮に命名しています Unsupervised Segmentationは存在します。ご興味があれば論文を ご紹介するので、お問い合わせお願いいたします
  17. SPACEの概説、実験結果 17 入力画像 再構成画像 物体検出 前景マスク 再構成背景 分離後背景

  18. SPACEの概説、実験結果 18 SPAIRでは前景はうまく物体検知できるが、背景は扱えない IODINE、GENESISはマスクは扱えるが、切り抜いていないのでボヤける

  19. SPACEの概説、実験結果 19 SPAIRでは物体の検知ミスにより背景と前景が混ざっている IODINE、GENESISは3D roomと同様にボヤけている

  20. SPACEの概説、実験結果 20 SPACEはバッチ当たりのlatencyも少ない (手法は後述) MSEを縦軸にした収束速度もほぼ最速 処理速度 収束速度

  21. Contents ⚫ Object-aware Representation Learningとは ⚫ SPACEの概説、実験結果 ⚫ Spatial Attention

    ⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 21
  22. Contents ⚫ Spatial Attention ⚫ Scene Decomposition 22

  23. Spatial Attention 23 前景は下図のように画像を細かく分断して処理 (1つ1つをセルと呼ぶ) セルのサイズはSPACEは32x32

  24. Spatial Attention 24 <Notation> :ピクセルに前景が存在するか しないかの2値{0, 1}の潜在変数 ℎ :前景の深度を推定する潜在変数 ℎ:前景の座標と大きさの潜在変数

  25. ρ Spatial Attention 25 μℎ, σℎ μℎ, σℎ ℎ ℎ

    ※ ℎはさらに2つの潜在変数から構成 されているが、簡略化のためこのように表記
  26. ρ Spatial Attention 26 μℎ, σℎ μℎ, σℎ ℎ ℎ

    ※ ℎはさらに2つの潜在変数から構成 されているが、簡略化のためこのように表記
  27. ここで一度先行研究のお話

  28. Spatial Attention 28 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection

    with Convolutional Neural Networks
  29. Spatial Attention 29 <Notation> , :セルの番号 :セルのサイズ ෨ :セルの端から対象物の中心 までの距離

    :画像の端から対象物の中心 までの距離 ℎ :対象物を中心としたb-box の大きさ 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks
  30. Spatial Attention 30 <Notation> , :セルの番号 :セルのサイズ ෨ :セルの端から対象物の中心 までの距離

    :画像の端から対象物の中心 までの距離 ℎ :対象物を中心としたb-box の大きさ 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks
  31. Spatial Attention 31 <Notation> , :セルの番号 :セルのサイズ ෨ :セルの端から対象物の中心 までの距離

    :画像の端から対象物の中心 までの距離 ℎ :対象物を中心としたb-box の大きさ 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks
  32. Spatial Attention 32 <Notation> , :セルの番号 :セルのサイズ ෨ :セルの端から対象物の中心 までの距離

    :画像の端から対象物の中心 までの距離 ℎ :対象物を中心としたb-box の大きさ 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks
  33. Spatial Attention 33 <Notation> , :セルの番号 :セルのサイズ ෨ :セルの端から対象物の中心 までの距離

    :画像の端から対象物の中心 までの距離 ℎ :対象物を中心としたb-box の大きさ 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks
  34. Spatial Attention 34 これらが正しく獲得できれば 再構成もうまく行くので、自動的 にこれらの値が獲得される →明示的な帰納バイアス →要するにNNへのお気持ち表明 先行研究 (SPAIR)

    Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks
  35. SPACEに戻ります

  36. Spatial Attention 36 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection

    with Convolutional Neural Networks ෨ ෨ ℎ ℎ
  37. Spatial Attention 37 SPACEは平均場近似を使ってセルごと にパラレルで処理を行う 平均場近似とは沢山絡み合ってると めんどくさいから全部独立と仮定して しまおう!というもの (物理学のお話) そのためSPAIRではセルサイズを16x16

    としていたが、SPACEでは32x32を採用 (セル内に物体を収めるため※) ※学習序盤はセルを跨ぐ前景は無視 するように学習し、収束したらセル を跨ぐ前景も検知します ご興味ある方は質問お願いします ෨ ෨ ℎ ℎ
  38. 次はDecompositionですが またまた先行研究のお話

  39. Scene Decomposition 39 先行研究 (MONet) MONet: Unsupervised Scene Decomposition and

    Representation 1. 画像をscope を使いマスク生成 大きな領域からマスク生成する
  40. Scene Decomposition 40 先行研究 (MONet) MONet: Unsupervised Scene Decomposition and

    Representation 1. 画像をscope を使いマスク生成 大きな領域からマスク生成する 2. マスクごとの画像をVAEで エンコード、デコード
  41. Scene Decomposition 41 先行研究 (MONet) MONet: Unsupervised Scene Decomposition and

    Representation 1. 画像をscope を使いマスク生成 大きな領域からマスク生成する 2. マスクごとの画像をVAEで エンコード、デコード 3. 全ての画像をconcatしてELBO※ を計算 ※ELBOはEvidence Lower Boundの 略で、変分下界とも呼ばれます 再構成誤差 (MSEやBinary Cross Entropy)とKL Divergenceで構成
  42. Scene Decomposition 42 先行研究 (MONet) MONet: Unsupervised Scene Decomposition and

    Representation しかし、VAE中の潜在変数同士の 相互影響が考慮できていないため、 表現力が低い (うまく分解できない)
  43. Scene Decomposition 43 先行研究 (GENESIS) GENESIS: Generative Scene Inference and

    Sampling with Object-Centric Latent Representations VAEを2つスタックした構造で前半で潜在変数同士の相互関係を考慮 (LSTMでシーケンシャルに処理を行う)
  44. SPACEに戻ります

  45. Scene Decomposition 45 背景は先行研究であるGENESISを用いて分離を行う

  46. SPACE 46 SPACEは前景背景を分離後再構成して、前景背景を個々に獲得可能 <貢献> ✓ Object-aware Rep.において、前景の物体検出と背景の分離生成の 組み合わせが有効であることを証明 ✓ オブジェクト数が増加するにつれて計算量が増加する問題を解決

    ✓ 先行研究を超える定性、定量性能を示した
  47. Contents ⚫ Object-aware Representation Learningとは ⚫ SPACEの概説、実験結果 ⚫ Spatial Attention

    ⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 47
  48. Contents ⚫ 実際に動かしてみた ⚫ Future Work 48

  49. 実際に動かしてみた 49 Project Page (https://sites.google.com/view/space-project-page) 公式実装 (https://github.com/zhixuan-lin/SPACE) 3D room smallという一番スケールの小さなデータセットを訓練

    NVIDIA Tesla V100 1台で数時間~1日 (ちゃんと測ってなかったです、、、)
  50. 実際に動かしてみた 50 Project Page (https://sites.google.com/view/space-project-page) 公式実装 (https://github.com/zhixuan-lin/SPACE) 入力画像 物体検出 分離後前景

    再構成背景 分離後背景 再構成画像
  51. 実際に動かしてみた 51 Project Page (https://sites.google.com/view/space-project-page) 公式実装 (https://github.com/zhixuan-lin/SPACE) 物体検知は定性的にはかなりうまく行っている! しかし、背景については再構成はできているが、個々の分離が微妙、、、

  52. Future Work 52 著者が論文とgithubで言及しているコメントを抜粋 ⚫ Seedにかなり敏感 (物体検出も背景分離もUnsupervisedなので、そりゃ 不安定だろうという当たり前感) ⚫ 3D

    roomやAtari Gameでは背景と前景が明確に分かれているが、実際 は綺麗に分かれていないなので、そのようなデータにも対応可能にする ⚫ オブジェクトサイズが大きく変化するようなデータセットには弱い ⚫ 強化学習への応用 (SPACEを基に強化学習の下流タスクを解く)