Scene Decomposition
39
先行研究 (MONet)
MONet: Unsupervised Scene Decomposition and Representation
1. 画像をscope を使いマスク生成
大きな領域からマスク生成する
Slide 40
Slide 40 text
Scene Decomposition
40
先行研究 (MONet)
MONet: Unsupervised Scene Decomposition and Representation
1. 画像をscope を使いマスク生成
大きな領域からマスク生成する
2. マスクごとの画像をVAEで
エンコード、デコード
Slide 41
Slide 41 text
Scene Decomposition
41
先行研究 (MONet)
MONet: Unsupervised Scene Decomposition and Representation
1. 画像をscope を使いマスク生成
大きな領域からマスク生成する
2. マスクごとの画像をVAEで
エンコード、デコード
3. 全ての画像をconcatしてELBO※
を計算
※ELBOはEvidence Lower Boundの
略で、変分下界とも呼ばれます
再構成誤差 (MSEやBinary Cross
Entropy)とKL Divergenceで構成
Slide 42
Slide 42 text
Scene Decomposition
42
先行研究 (MONet)
MONet: Unsupervised Scene Decomposition and Representation
しかし、VAE中の潜在変数同士の
相互影響が考慮できていないため、
表現力が低い (うまく分解できない)
Slide 43
Slide 43 text
Scene Decomposition
43
先行研究 (GENESIS)
GENESIS: Generative Scene Inference and Sampling with Object-Centric
Latent Representations
VAEを2つスタックした構造で前半で潜在変数同士の相互関係を考慮
(LSTMでシーケンシャルに処理を行う)