SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition

早稲田大学、AIST (産総研) 綱島秀樹 SPACE: Unsupervised Object- Oriented Scene Representation via
Spatial Attention and Decomposition

自己紹介 2 綱島秀樹 (@maguroIsland ) ◆所属早稲田大学博士1年－森島繁生研究室産総研
(AIST) Research Assistant ◆研究テーマ修士課程：深層画像生成モデルの計算量・パラメータ削減博士課程：深層画像生成モデルを用いた画像編集 ◆趣味筋トレ、アメフト、読書、音楽ゲーム (弐寺) (音楽ゲームの知り合いが全然いないので、誰かお話しましょう、、、)

Contents ⚫ Object-aware Representation Learningとは ⚫ SPACEの概説、実験結果 ⚫ Spatial Attention
⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 3

⚫ Scene Decomposition ⚫ 実際に動かしてみた ⚫ Future Work 4 SPACEの詳細

Contents ⚫ Object-aware Representation Learningとは 5

Object-aware Representation Learning 6 直訳すると、オブジェクトを意識した表現学習※ 表現学習入力データから出力データにする過程で、特徴空間で意味があるベクトルを獲得する学習方法 NNの学習は必ず特徴空間が生じるため、NNの学習は全て表現学習オブジェクトを意識した
NNの中間層で獲得されている表現として入力画像のオブジェクトの個別の分離を行う ※ Object-oriented Representation Learningや Object-centric Representation Learningとも呼ばれたりします

Object-aware Representation Learning 8 オブジェクトを意識した NNの中間層で獲得されている表現として入力画像のオブジェクトの個別の分離を行う背景分離前景分離

Contents ⚫ SPACEの概説、実験結果 10

SPACEの概説、実験結果 11 SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention
and Decomposition Spatial Attention Decomposition

SPACEの概説、実験結果 12 SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention
and Decomposition Spatial Attention：画像空間でのマスクを生成して前景を個々に分離 Decomposition ：画像から獲得した潜在変数から背景を個々に生成

SPACEの概説、実験結果 13 Spatial Attention：画像空間でのマスクを生成して前景を個々に分離 Decomposition ：画像から獲得した潜在変数から背景を個々に生成 Decomposition Spatial Attention

SPACEの概説、実験結果 14 SPACEは前景背景を分離後再構成して、前景背景を個々に獲得可能＜貢献＞ ✓ Object-aware Rep.において、前景の物体検出と背景の分離生成の組み合わせが有効であることを証明 ✓ オブジェクト数が増加するにつれて計算量が増加する問題を解決
✓ 先行研究を超える定性、定量性能を示した

SPACEの概説、実験結果 15 Spatial Attention：画像空間でのマスクを生成して前景を個々に分離 Decomposition ：画像から獲得した潜在変数から背景を個々に生成 Spatial Attentionの該当分野は  Unsupervised
Object Detection Decompositionの該当分野は  Unsupervised Panoptic Segmentation  Unsupervised Segmentation

SPACEの概説、実験結果 16 Spatial Attention：画像空間でのマスクを生成して前景を個々に分離 Decomposition ：画像から獲得した潜在変数から背景を個々に生成 Spatial Attentionの該当分野は  Unsupervised
Object Detection Decompositionの該当分野は  Unsupervised Panoptic Segmentation  Unsupervised Segmentation ただし、Object-aware Rep.の論文以外では扱われていないテーマであるため、本スライドの著者が仮に命名しています Unsupervised Segmentationは存在します。ご興味があれば論文をご紹介するので、お問い合わせお願いいたします

SPACEの概説、実験結果 17 入力画像再構成画像物体検出前景マスク再構成背景分離後背景

SPACEの概説、実験結果 18 SPAIRでは前景はうまく物体検知できるが、背景は扱えない IODINE、GENESISはマスクは扱えるが、切り抜いていないのでボヤける

SPACEの概説、実験結果 19 SPAIRでは物体の検知ミスにより背景と前景が混ざっている IODINE、GENESISは3D roomと同様にボヤけている

SPACEの概説、実験結果 20 SPACEはバッチ当たりのlatencyも少ない (手法は後述) MSEを縦軸にした収束速度もほぼ最速処理速度収束速度

Contents ⚫ Spatial Attention ⚫ Scene Decomposition 22

Spatial Attention 23 前景は下図のように画像を細かく分断して処理 (1つ1つをセルと呼ぶ) セルのサイズはSPACEは32x32

Spatial Attention 24 ＜Notation＞：ピクセルに前景が存在するかしないかの2値{0, 1}の潜在変数 ℎ ：前景の深度を推定する潜在変数 ℎ：前景の座標と大きさの潜在変数

ρ Spatial Attention 25 μℎ, σℎ μℎ, σℎ ℎ ℎ
※ ℎはさらに2つの潜在変数から構成されているが、簡略化のためこのように表記

ρ Spatial Attention 26 μℎ, σℎ μℎ, σℎ ℎ ℎ
※ ℎはさらに2つの潜在変数から構成されているが、簡略化のためこのように表記

ここで一度先行研究のお話

Spatial Attention 28 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection
with Convolutional Neural Networks

Spatial Attention 29 ＜Notation＞ , ：セルの番号：セルのサイズ ෨ ：セルの端から対象物の中心までの距離
：画像の端から対象物の中心までの距離 ℎ ：対象物を中心としたb-box の大きさ先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks

Spatial Attention 34 これらが正しく獲得できれば再構成もうまく行くので、自動的にこれらの値が獲得される →明示的な帰納バイアス →要するにNNへのお気持ち表明先行研究 (SPAIR)
Spatially Invariant Unsupervised Object Detection with Convolutional Neural Networks

SPACEに戻ります

Spatial Attention 36 先行研究 (SPAIR) Spatially Invariant Unsupervised Object Detection
with Convolutional Neural Networks ෨ ෨ ℎ ℎ

Spatial Attention 37 SPACEは平均場近似を使ってセルごとにパラレルで処理を行う平均場近似とは沢山絡み合ってるとめんどくさいから全部独立と仮定してしまおう！というもの (物理学のお話) そのためSPAIRではセルサイズを16x16
としていたが、SPACEでは32x32を採用 (セル内に物体を収めるため※) ※学習序盤はセルを跨ぐ前景は無視するように学習し、収束したらセルを跨ぐ前景も検知しますご興味ある方は質問お願いします ෨ ෨ ℎ ℎ

次はDecompositionですがまたまた先行研究のお話

Scene Decomposition 39 先行研究 (MONet) MONet: Unsupervised Scene Decomposition and
Representation 1. 画像をscope を使いマスク生成大きな領域からマスク生成する

Representation 1. 画像をscope を使いマスク生成大きな領域からマスク生成する 2. マスクごとの画像をVAEでエンコード、デコード

Representation 1. 画像をscope を使いマスク生成大きな領域からマスク生成する 2. マスクごとの画像をVAEでエンコード、デコード 3. 全ての画像をconcatしてELBO※ を計算 ※ELBOはEvidence Lower Boundの略で、変分下界とも呼ばれます再構成誤差 (MSEやBinary Cross Entropy)とKL Divergenceで構成

Representation しかし、VAE中の潜在変数同士の相互影響が考慮できていないため、表現力が低い (うまく分解できない)

Scene Decomposition 43 先行研究 (GENESIS) GENESIS: Generative Scene Inference and
Sampling with Object-Centric Latent Representations VAEを2つスタックした構造で前半で潜在変数同士の相互関係を考慮 (LSTMでシーケンシャルに処理を行う)

SPACEに戻ります

Scene Decomposition 45 背景は先行研究であるGENESISを用いて分離を行う

SPACE 46 SPACEは前景背景を分離後再構成して、前景背景を個々に獲得可能＜貢献＞ ✓ Object-aware Rep.において、前景の物体検出と背景の分離生成の組み合わせが有効であることを証明 ✓ オブジェクト数が増加するにつれて計算量が増加する問題を解決
✓ 先行研究を超える定性、定量性能を示した

Contents ⚫ 実際に動かしてみた ⚫ Future Work 48

実際に動かしてみた 49 Project Page (https://sites.google.com/view/space-project-page) 公式実装 (https://github.com/zhixuan-lin/SPACE) 3D room smallという一番スケールの小さなデータセットを訓練
NVIDIA Tesla V100 1台で数時間～1日 (ちゃんと測ってなかったです、、、)

実際に動かしてみた 50 Project Page (https://sites.google.com/view/space-project-page) 公式実装 (https://github.com/zhixuan-lin/SPACE) 入力画像物体検出分離後前景
再構成背景分離後背景再構成画像

実際に動かしてみた 51 Project Page (https://sites.google.com/view/space-project-page) 公式実装 (https://github.com/zhixuan-lin/SPACE) 物体検知は定性的にはかなりうまく行っている！しかし、背景については再構成はできているが、個々の分離が微妙、、、

Future Work 52 著者が論文とgithubで言及しているコメントを抜粋 ⚫ Seedにかなり敏感 (物体検出も背景分離もUnsupervisedなので、そりゃ不安定だろうという当たり前感) ⚫ 3D
roomやAtari Gameでは背景と前景が明確に分かれているが、実際は綺麗に分かれていないなので、そのようなデータにも対応可能にする ⚫ オブジェクトサイズが大きく変化するようなデータセットには弱い ⚫ 強化学習への応用 (SPACEを基に強化学習の下流タスクを解く)

SPACE: Unsupervised Object-Oriented Scene Repre...

SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition

More Decks by maguro27

Other Decks in Research

Featured

Transcript