Slide 1

Slide 1 text

早稲田大学、AIST (産総研) 綱島秀樹 SPACE: Unsupervised Object- Oriented Scene Representation via Spatial Attention and Decomposition

Slide 2

Slide 2 text

自己紹介 2 綱島 秀樹 (@maguroIsland ) ◆所属 早稲田大学 博士1年-森島繁生研究室 産総研 (AIST) Research Assistant ◆研究テーマ 修士課程:深層画像生成モデルの計算量・パラメータ削減 博士課程:深層画像生成モデルを用いた画像編集 ◆趣味 筋トレ、アメフト、読書、音楽ゲーム (弐寺) (音楽ゲームの知り合いが全然いないので、誰かお話しましょう、、、)

Slide 3

Slide 3 text

Contents ⚫ Object-aware Representation Learningとは ⚫ SPACEの概説、実験結果 ⚫ Spatial Attention ⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 3

Slide 4

Slide 4 text

Contents ⚫ Object-aware Representation Learningとは ⚫ SPACEの概説、実験結果 ⚫ Spatial Attention ⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 4 SPACEの詳細

Slide 5

Slide 5 text

Contents ⚫ Object-aware Representation Learningとは 5

Slide 6

Slide 6 text

Object-aware Representation Learning 6 直訳すると、オブジェクトを意識した表現学習※ 表現学習 入力データから出力データにする過程で、特徴空間で意味がある ベクトルを獲得する学習方法 NNの学習は必ず特徴空間が生じるため、NNの学習は全て表現学習 オブジェクトを意識した NNの中間層で獲得されている表現として入力画像のオブジェクトの 個別の分離を行う ※ Object-oriented Representation Learningや Object-centric Representation Learningとも呼ばれたりします

Slide 7

Slide 7 text

No content

Slide 8

Slide 8 text

Object-aware Representation Learning 8 オブジェクトを意識した NNの中間層で獲得されている表現として入力画像のオブジェクトの 個別の分離を行う 背景分離 前景分離

Slide 9

Slide 9 text

Contents ⚫ Object-aware Representation Learningとは ⚫ SPACEの概説、実験結果 ⚫ Spatial Attention ⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 9

Slide 10

Slide 10 text

Contents ⚫ SPACEの概説、実験結果 10

Slide 11

Slide 11 text

SPACEの概説、実験結果 11 SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition Spatial Attention Decomposition

Slide 12

Slide 12 text

SPACEの概説、実験結果 12 SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition Spatial Attention:画像空間でのマスクを生成して前景を個々に分離 Decomposition :画像から獲得した潜在変数から背景を個々に生成

Slide 13

Slide 13 text

SPACEの概説、実験結果 13 Spatial Attention:画像空間でのマスクを生成して前景を個々に分離 Decomposition :画像から獲得した潜在変数から背景を個々に生成 Decomposition Spatial Attention

Slide 14

Slide 14 text

SPACEの概説、実験結果 14 SPACEは前景背景を分離後再構成して、前景背景を個々に獲得可能 <貢献> ✓ Object-aware Rep.において、前景の物体検出と背景の分離生成の 組み合わせが有効であることを証明 ✓ オブジェクト数が増加するにつれて計算量が増加する問題を解決 ✓ 先行研究を超える定性、定量性能を示した

Slide 15

Slide 15 text

SPACEの概説、実験結果 15 Spatial Attention:画像空間でのマスクを生成して前景を個々に分離 Decomposition :画像から獲得した潜在変数から背景を個々に生成 Spatial Attentionの該当分野は  Unsupervised Object Detection Decompositionの該当分野は  Unsupervised Panoptic Segmentation  Unsupervised Segmentation

Slide 16

Slide 16 text

SPACEの概説、実験結果 16 Spatial Attention:画像空間でのマスクを生成して前景を個々に分離 Decomposition :画像から獲得した潜在変数から背景を個々に生成 Spatial Attentionの該当分野は  Unsupervised Object Detection Decompositionの該当分野は  Unsupervised Panoptic Segmentation  Unsupervised Segmentation ただし、Object-aware Rep.の論文以外では扱われていないテーマで あるため、本スライドの著者が仮に命名しています Unsupervised Segmentationは存在します。ご興味があれば論文を ご紹介するので、お問い合わせお願いいたします

Slide 17

Slide 17 text

SPACEの概説、実験結果 17 入力画像 再構成画像 物体検出 前景マスク 再構成背景 分離後背景

Slide 18

Slide 18 text

SPACEの概説、実験結果 18 SPAIRでは前景はうまく物体検知できるが、背景は扱えない IODINE、GENESISはマスクは扱えるが、切り抜いていないのでボヤける

Slide 19

Slide 19 text

SPACEの概説、実験結果 19 SPAIRでは物体の検知ミスにより背景と前景が混ざっている IODINE、GENESISは3D roomと同様にボヤけている

Slide 20

Slide 20 text

SPACEの概説、実験結果 20 SPACEはバッチ当たりのlatencyも少ない (手法は後述) MSEを縦軸にした収束速度もほぼ最速 処理速度 収束速度

Slide 21

Slide 21 text

Contents ⚫ Object-aware Representation Learningとは ⚫ SPACEの概説、実験結果 ⚫ Spatial Attention ⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 21

Slide 22

Slide 22 text

Contents ⚫ Spatial Attention ⚫ Scene Decomposition 22

Slide 23

Slide 23 text

Spatial Attention 23 前景は下図のように画像を細かく分断して処理 (1つ1つをセルと呼ぶ) セルのサイズはSPACEは32x32

Slide 24

Slide 24 text

Spatial Attention 24 <Notation> :ピクセルに前景が存在するか しないかの2値{0, 1}の潜在変数 ℎ :前景の深度を推定する潜在変数 ℎ:前景の座標と大きさの潜在変数

Slide 25

Slide 25 text

ρ Spatial Attention 25 μℎ, σℎ μℎ, σℎ ℎ ℎ ※ ℎはさらに2つの潜在変数から構成 されているが、簡略化のためこのように表記

Slide 26

Slide 26 text

ρ Spatial Attention 26 μℎ, σℎ μℎ, σℎ ℎ ℎ ※ ℎはさらに2つの潜在変数から構成 されているが、簡略化のためこのように表記

Slide 27

Slide 27 text

ここで一度先行研究のお話

Slide 28

Slide 28 text

Spatial Attention 28 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks

Slide 29

Slide 29 text

Spatial Attention 29 <Notation> , :セルの番号 :セルのサイズ ෨ :セルの端から対象物の中心 までの距離 :画像の端から対象物の中心 までの距離 ℎ :対象物を中心としたb-box の大きさ 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks

Slide 30

Slide 30 text

Spatial Attention 30 <Notation> , :セルの番号 :セルのサイズ ෨ :セルの端から対象物の中心 までの距離 :画像の端から対象物の中心 までの距離 ℎ :対象物を中心としたb-box の大きさ 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks

Slide 31

Slide 31 text

Spatial Attention 31 <Notation> , :セルの番号 :セルのサイズ ෨ :セルの端から対象物の中心 までの距離 :画像の端から対象物の中心 までの距離 ℎ :対象物を中心としたb-box の大きさ 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks

Slide 32

Slide 32 text

Spatial Attention 32 <Notation> , :セルの番号 :セルのサイズ ෨ :セルの端から対象物の中心 までの距離 :画像の端から対象物の中心 までの距離 ℎ :対象物を中心としたb-box の大きさ 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks

Slide 33

Slide 33 text

Spatial Attention 33 <Notation> , :セルの番号 :セルのサイズ ෨ :セルの端から対象物の中心 までの距離 :画像の端から対象物の中心 までの距離 ℎ :対象物を中心としたb-box の大きさ 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks

Slide 34

Slide 34 text

Spatial Attention 34 これらが正しく獲得できれば 再構成もうまく行くので、自動的 にこれらの値が獲得される →明示的な帰納バイアス →要するにNNへのお気持ち表明 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks

Slide 35

Slide 35 text

SPACEに戻ります

Slide 36

Slide 36 text

Spatial Attention 36 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks ෨ ෨ ℎ ℎ

Slide 37

Slide 37 text

Spatial Attention 37 SPACEは平均場近似を使ってセルごと にパラレルで処理を行う 平均場近似とは沢山絡み合ってると めんどくさいから全部独立と仮定して しまおう!というもの (物理学のお話) そのためSPAIRではセルサイズを16x16 としていたが、SPACEでは32x32を採用 (セル内に物体を収めるため※) ※学習序盤はセルを跨ぐ前景は無視 するように学習し、収束したらセル を跨ぐ前景も検知します ご興味ある方は質問お願いします ෨ ෨ ℎ ℎ

Slide 38

Slide 38 text

次はDecompositionですが またまた先行研究のお話

Slide 39

Slide 39 text

Scene Decomposition 39 先行研究 (MONet) MONet: Unsupervised Scene Decomposition and Representation 1. 画像をscope を使いマスク生成 大きな領域からマスク生成する

Slide 40

Slide 40 text

Scene Decomposition 40 先行研究 (MONet) MONet: Unsupervised Scene Decomposition and Representation 1. 画像をscope を使いマスク生成 大きな領域からマスク生成する 2. マスクごとの画像をVAEで エンコード、デコード

Slide 41

Slide 41 text

Scene Decomposition 41 先行研究 (MONet) MONet: Unsupervised Scene Decomposition and Representation 1. 画像をscope を使いマスク生成 大きな領域からマスク生成する 2. マスクごとの画像をVAEで エンコード、デコード 3. 全ての画像をconcatしてELBO※ を計算 ※ELBOはEvidence Lower Boundの 略で、変分下界とも呼ばれます 再構成誤差 (MSEやBinary Cross Entropy)とKL Divergenceで構成

Slide 42

Slide 42 text

Scene Decomposition 42 先行研究 (MONet) MONet: Unsupervised Scene Decomposition and Representation しかし、VAE中の潜在変数同士の 相互影響が考慮できていないため、 表現力が低い (うまく分解できない)

Slide 43

Slide 43 text

Scene Decomposition 43 先行研究 (GENESIS) GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations VAEを2つスタックした構造で前半で潜在変数同士の相互関係を考慮 (LSTMでシーケンシャルに処理を行う)

Slide 44

Slide 44 text

SPACEに戻ります

Slide 45

Slide 45 text

Scene Decomposition 45 背景は先行研究であるGENESISを用いて分離を行う

Slide 46

Slide 46 text

SPACE 46 SPACEは前景背景を分離後再構成して、前景背景を個々に獲得可能 <貢献> ✓ Object-aware Rep.において、前景の物体検出と背景の分離生成の 組み合わせが有効であることを証明 ✓ オブジェクト数が増加するにつれて計算量が増加する問題を解決 ✓ 先行研究を超える定性、定量性能を示した

Slide 47

Slide 47 text

Contents ⚫ Object-aware Representation Learningとは ⚫ SPACEの概説、実験結果 ⚫ Spatial Attention ⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 47

Slide 48

Slide 48 text

Contents ⚫ 実際に動かしてみた ⚫ Future Work 48

Slide 49

Slide 49 text

実際に動かしてみた 49 Project Page (https://sites.google.com/view/space-project-page) 公式実装 (https://github.com/zhixuan-lin/SPACE) 3D room smallという一番スケールの小さなデータセットを訓練 NVIDIA Tesla V100 1台で数時間~1日 (ちゃんと測ってなかったです、、、)

Slide 50

Slide 50 text

実際に動かしてみた 50 Project Page (https://sites.google.com/view/space-project-page) 公式実装 (https://github.com/zhixuan-lin/SPACE) 入力画像 物体検出 分離後前景 再構成背景 分離後背景 再構成画像

Slide 51

Slide 51 text

実際に動かしてみた 51 Project Page (https://sites.google.com/view/space-project-page) 公式実装 (https://github.com/zhixuan-lin/SPACE) 物体検知は定性的にはかなりうまく行っている! しかし、背景については再構成はできているが、個々の分離が微妙、、、

Slide 52

Slide 52 text

Future Work 52 著者が論文とgithubで言及しているコメントを抜粋 ⚫ Seedにかなり敏感 (物体検出も背景分離もUnsupervisedなので、そりゃ 不安定だろうという当たり前感) ⚫ 3D roomやAtari Gameでは背景と前景が明確に分かれているが、実際 は綺麗に分かれていないなので、そのようなデータにも対応可能にする ⚫ オブジェクトサイズが大きく変化するようなデータセットには弱い ⚫ 強化学習への応用 (SPACEを基に強化学習の下流タスクを解く)