第5回 3d勉強会 2019/8/31

Towards Scene Understanding: Unsupervised Monocular Depth Estimation with Semantic- aware
Representation 2019/8/31 第5回 3D勉強会＠関東 @ilim

⾃⼰紹介市原光将 @ilim 東京理科⼤(神楽坂) 在籍学部2年未成年です産総研テクニカルスタッフ 1

概要 CVPR2019 (oral) ▪ Depth estimation / Semantic segmentationを共通のモデルを使い予測 ▪
Semanticsを理解したDepth推定 2

問題設定 ▪ RGBのSingle画像からPixel levelのDepth mapを求めたい ▪ カメラの内部パラメータは既知 3

Related work ▪ Unsupervised Monocular Depth Estimation with Left-Right Consistency
(CVPR2017) 左右のペア画像から視差を利⽤し，⼀貫性を持つようにDepthをend-to-endで学習 4

Related work Depthの正解データを⽤意することが困難なのでself-supervisedな学習を⽤いるステレオカメラで左視点画像から右視点画像へ変換する問題を考えるこのとき正しく変換するには3d構造(depth)を学ばざるを得ない陽にdepthを⽤いてそのようなlossを使うことで，正解データを⽤いなくてもDepthを推論可能に 5

この論⽂では ▪ Depthを求めるネットワークをsemantic segmentationを推論するためにも利⽤する ▪ 以下2つのデータセットを⽤いてクロスモーダルに学習 1. Depth GTなしステレオ画像
2. Segmentation GTありシングル画像 6

ネットワーク ▪ をEncoder-decoderでDisparity/Segmentationへ変換 ▪ 途中の特徴量へ要素すべてがt(=0 or 1)の1チャンネルを⾜す ▪ tを切り替えることでDisp/Segを切り替える ⇛
SceneNet 7

ネットワーク(Disparity) ▪ , . = , = 0 ▪ =
7 9 , . : concat : デコーダー 9 : pixel-wised avg pooling 7 : sigmoid function 0 8

ネットワーク(Segmentation) ▪ , @ = , = 1 ▪ =
C , @ : concat : デコーダー C : pixel-wised softmax 1 9

Loss 求めた視差とsegmentation map から以下のようなlossを計算します ▪ ℒ.EFGH : Depth loss ▪
ℒ@EI : Segmentation loss ▪ ℒJK@C: Semantic consistency loss ▪ ℒ@NOOGH : smoothness loss の4つの重み付き和 ℒ = ℒ.EFGH + @EIℒ@EI + KJ@CℒJK@C + @NOOGHℒ@NOOGH 11

Loss ▪ Depth loss ℒ.EFGH = J − K→J +
K − J→K + JK J − K→J + K − J→K 画素値とDisparityの再投影誤差 + .@ U W XY. + Z W X[. Depthにsmoothをかけるloss 12

Loss ▪ Segmentation loss ℒ@EI = ℋ IG, ℋ: pixel-wiseなcross-entropy
loss IG : SegmentationのGTラベル : Scene Net の Segmentation 出⼒ ▪ Sementic consistency loss ℒJK@C = J − K→J + K − J→K Segmentationの再投影誤差 13

Loss ▪ Smoothness loss ℒ@NOOGH = U ⨂ の境目で1 それ以外で0
同⼀label領域内でのdepthを平坦化するloss 14

実験 ▪ KITTI(ステレオ画像) ▪ Cityscapes(単⼀画像, segmentation GTあり) の両⽅をあわせて学習⼊⼒サイズは256×512 GTX
1080で32hかけて学習 ℒJK@C = J − K→J + K − J→K はsemantics, disparityの両⽅に依存するので, ℒ.EFGH , ℒ@EI が収束してきてから有効に 15

実験結果 16 (b), (d)を⽐較すると，統合モデルである(d)のほうが細かな標識等の形がしっかり出ている

実験結果 Segmentationでも画像⼿前の精度が向上 17

実験結果 18 すべての評価値でSOTAを達成

Ablation study ▪ Segmentationはsmooth-ness lossによって下がるが ▪ Depthは機構を追加するごとに性能が向上 19

まとめ ▪ Depth estimation/Semantic Segmentationの2タスクを⾏う統合モデルを考えることで，それらの間のself-supervisedな学習が可能に ▪ Semanticsを理解したDepth Estimationが可能に感想
▪ sfm learnerにsemanticを理解するこの機構を組み⼊れられそう 20

第5回 3d勉強会 2019/8/31

第5回 3d勉強会 2019/8/31

ilim

Other Decks in Science

Featured

Transcript

Towards Scene Understanding: Unsupervised Monocular Depth Estimation with Semantic- aware

⾃⼰紹介市原光将 @ilim 東京理科⼤(神楽坂) 在籍学部2年未成年です産総研テクニカルスタッフ 1

概要 CVPR2019 (oral) ▪ Depth estimation / Semantic segmentationを共通のモデルを使い予測 ▪

問題設定 ▪ RGBのSingle画像からPixel levelのDepth mapを求めたい ▪ カメラの内部パラメータは既知 3

Related work ▪ Unsupervised Monocular Depth Estimation with Left-Right Consistency

この論⽂では ▪ Depthを求めるネットワークをsemantic segmentationを推論するためにも利⽤する ▪ 以下2つのデータセットを⽤いてクロスモーダルに学習 1. Depth GTなしステレオ画像

ネットワーク ▪ をEncoder-decoderでDisparity/Segmentationへ変換 ▪ 途中の特徴量へ要素すべてがt(=0 or 1)の1チャンネルを⾜す ▪ tを切り替えることでDisp/Segを切り替える ⇛

ネットワーク(Disparity) ▪ , . = , = 0 ▪ =

ネットワーク(Segmentation) ▪ , @ = , = 1 ▪ =

Loss 求めた視差とsegmentation map から以下のようなlossを計算します ▪ ℒ.EFGH : Depth loss ▪

Loss ▪ Depth loss ℒ.EFGH = J − K→J +

Loss ▪ Segmentation loss ℒ@EI = ℋ IG, ℋ: pixel-wiseなcross-entropy

Loss ▪ Smoothness loss ℒ@NOOGH = U ⨂ の境目で1 それ以外で0

実験 ▪ KITTI(ステレオ画像) ▪ Cityscapes(単⼀画像, segmentation GTあり) の両⽅をあわせて学習⼊⼒サイズは256×512 GTX

実験結果 16 (b), (d)を⽐較すると，統合モデルである(d)のほうが細かな標識等の形がしっかり出ている

実験結果 Segmentationでも画像⼿前の精度が向上 17

実験結果 18 すべての評価値でSOTAを達成

Ablation study ▪ Segmentationはsmooth-ness lossによって下がるが ▪ Depthは機構を追加するごとに性能が向上 19

まとめ ▪ Depth estimation/Semantic Segmentationの2タスクを⾏う統合モデルを考えることで，それらの間のself-supervisedな学習が可能に ▪ Semanticsを理解したDepth Estimationが可能に感想