Slide 1

Slide 1 text

A Probabilistic U-Net for Segmentation of Ambiguous Images Tomoki Tanimura, B4 Jin Nakazawa Lab, Keio University

Slide 2

Slide 2 text

書誌情報 § NIPS2018 § 著者: Simon A. A. Kohl, DeepMindの⽅々 § 所属: German Cancer Research Center § DeepMindにインターンに⾏っている時に⾏った研究

Slide 3

Slide 3 text

⽬次 § 概要 § 前提知識 § 背景 § 提案⼿法 § 実験 § まとめ

Slide 4

Slide 4 text

⽬次 § 概要 § 前提知識 § 背景 § 提案⼿法 § 実験 § まとめ

Slide 5

Slide 5 text

概要 § 通常 § 今回 § 多様な出⼒が可能なSemantic Segmentationモデルの提案

Slide 6

Slide 6 text

⽬次 § 概要 § 前提知識 § 背景 § 提案⼿法 § 実験 § まとめ

Slide 7

Slide 7 text

前提: Semantic Segmentation § 画像をピクセルごとに分類をする問題 § きめ細かい物体検出とも⾔える § (Semantic: 種類で分ける,Instance: 物体ごとに分ける) § 代表的なもの: FCN, SegNet, U-Net, Mask R-CNN

Slide 8

Slide 8 text

⽬次 § 概要 § 前提知識 § 背景 § 提案⼿法 § 実験 § まとめ

Slide 9

Slide 9 text

研究の⼤まかな背景 § 著者の所属 § German Cancer Research Center § 本研究の最終的な⽬的 § CT-scan画像から癌の部分を⾃動で検出したい § 今回使⽤するメインのデータセット § 肺のCT-scanに癌細胞の部分がアノテーションされている

Slide 10

Slide 10 text

難しいところ § データセットのGTが複数存在する § 1枚の肺のCT-scanだけでは,「ここの部分が癌だ」という意⾒が専⾨家でも複 数に分かれる § データセットのイメージ Input Graders = 複数のGT ① ② ③

Slide 11

Slide 11 text

今回の挑戦 § Graders(=複数のGT)をの分布を学習する § Gradersの分布と同じ確率で多様なSegmentation mapを出⼒する Graders この分布を 学習したい Gradersの ⽣成分布

Slide 12

Slide 12 text

⽬次 § 概要 § 前提知識 § 背景 § 提案⼿法 § 実験 § まとめ

Slide 13

Slide 13 text

提案⼿法 § CVAE + U-Net ⼊⼒

Slide 14

Slide 14 text

提案⼿法 § CVAE + U-Net ⼊⼒ U-Net 普通にU-Netで計算

Slide 15

Slide 15 text

提案⼿法 § CVAE + U-Net ⼊⼒ U-Net ⼊⼒画像から Segmentationの分布を推定

Slide 16

Slide 16 text

提案⼿法 § CVAE + U-Net ⼊⼒ U-Net サンプリング

Slide 17

Slide 17 text

提案⼿法 § CVAE + U-Net ⼊⼒ U-Net 出⼒

Slide 18

Slide 18 text

提案⼿法 § CVAE + U-Net ⼊⼒ U-Net 出⼒ Segmentation Variant →これが出⼒に多様性を持たせている

Slide 19

Slide 19 text

提案⼿法 § CVAE + U-Net ⼊⼒ U-Net 出⼒ § 多次元ガウス分布(6次元が良い) § 1x1 Convを3回する X ω ψ § Segmentation Variantの分布 § U-Netとzの出⼒後の計算 θ

Slide 20

Slide 20 text

学習のフロー ⼊⼒ 出⼒ U-Net さっきと 違う箇所

Slide 21

Slide 21 text

学習のフロー ⼊⼒ 出⼒ U-Net

Slide 22

Slide 22 text

学習のフロー ⼊⼒ 出⼒ U-Net Loss① ①Prior Netの出⼒分布を Posteriorの⽅に近づける

Slide 23

Slide 23 text

学習のフロー ⼊⼒ 出⼒ U-Net Loss① Loss② ②segmentation mapの 出⼒の誤差

Slide 24

Slide 24 text

学習のフロー ⼊⼒ 出⼒ U-Net Loss① Loss② ロス関数: Loss① Loss② § Posteriorの出⼒分布(Priorと同様) ν ω X θ ψ z S Y

Slide 25

Slide 25 text

⽬次 § 概要 § 前提知識 § 背景 § 提案⼿法 § 実験 § まとめ

Slide 26

Slide 26 text

実験 § ベースライン § 多様な出⼒が可能な既存⼿法4つ § 評価指標 § Generalized Energy Distance (Dged)[Bellemare et al.] § データセット § LIDC-IDRI § 肺のCT-scan with 癌アノテーション § Cityscapes § 街の写真

Slide 27

Slide 27 text

ベースライン Dropout U-Net U-Net Ensemble M-Heads Image2Image VAE

Slide 28

Slide 28 text

ベースライン|Dropout U-Net § ⾚い部分がDropout layerで ½の確率でDropoutする

Slide 29

Slide 29 text

ベースライン|U-Net Ensemble § U-Netのアンサンブルバージョン § mはサンプルしたい数

Slide 30

Slide 30 text

ベースライン|U-Net M-Heads § U-Netの最終出⼒を分岐させる § mはサンプルしたい数

Slide 31

Slide 31 text

ベースライン|Im2Im VAE § Image2Image translationの構造を利⽤したもの[Phillip et al.] § Priorは標準ガウス分布でfixされている § Priorからサンプリングされたzの出⼒先はEncorder側の最初 § 元々はAdeversarial lossも使うが,今回はタスクがSegmentationで完全に教師 ありなので排除

Slide 32

Slide 32 text

評価指標 § Generalized Energy Distance (Dged) § 低い⽅が精度が⾼い § Pgt: GTの分布,Pout: Predの分布,S: Predの出⼒マップ,Y: GT § d(x, y) = 1 ‒ IoU(x,y) → 不⼀致度のようなもの § Sは1回⽬の出⼒,Sʼは2回⽬の出⼒.(Yも同様)

Slide 33

Slide 33 text

評価指標 § Generalized Energy Distance (Dged) § 低い⽅が精度が⾼い § Pgt: GTの分布,Pout: Predの分布,S: Predの出⼒マップ,Y: GT § d(x, y) = 1 ‒ IoU(x,y) → 不⼀致度のようなもの § Sは1回⽬の出⼒,Sʼは2回⽬の出⼒.(Yも同様) GTとPredの 不⼀致度 2つのPredの 不⼀致度 2つのGTの 不⼀致度

Slide 34

Slide 34 text

評価指標 GTとPredの 不⼀致度 2つのPredの 不⼀致度 2つのGTの 不⼀致度 ⼩さい⽅が良い ⼤きい⽅が良い

Slide 35

Slide 35 text

評価指標 GTとPredの 不⼀致度 2つのPredの 不⼀致度 2つのGTの 不⼀致度 § GTとPredの出⼒は近い⽅が良い § Segmentation mapの出⼒ の精度評価 ⼩さい⽅が良い ⼤きい⽅が良い

Slide 36

Slide 36 text

評価指標 GTとPredの 不⼀致度 2つのPredの 不⼀致度 2つのGTの 不⼀致度 ⼩さい⽅が良い ⼤きい⽅が良い § GTとPredの出⼒は近い⽅が良い § Segmentation mapの出⼒ の精度評価 § 1回⽬と2回⽬のPred(or GT)の 出⼒が⼤きく異なっている⽅が良い § 多様な出⼒ができているかの評価

Slide 37

Slide 37 text

評価指標 § 実際の計算は2回の出⼒ではなく,総渡りでやっている § 肺の⽅の計算例 § n = 何回出⼒を⾏うかのサンプル数 § m=GTの数なので肺の⽅は4

Slide 38

Slide 38 text

データセット § LIDC-IDRI § 肺のCTscanのdataset § 1枚のCTscanを4⼈の専⾨家でannotation→正解データは4枚になる § Training: 8882, Validation: 1996, Test: 1992 § Cityscapes § 街の画像 § 19クラス § ⼈⼯的に曖昧さを作り出した § 5個のラベルをラベル2に⼀定確率でフリップ →32個のGT § ʻsidewalkʼ to ʻsidewalk 2ʼ with a probability of 8/17, § ʻpersonʼ to ʻperson 2ʼ with a probability of 7/17, § ʻcarʼ to ʻcar 2ʼ with 6/17, § ʻvegetationʼ to ʻvegetation 2ʼ with 5/17 § ʻroadʼ to ʻroad 2ʼ with probability 4/17.

Slide 39

Slide 39 text

実験内容 § 定性評価 § ①出⼒結果の可視化 § ④Segmentation variantと出⼒mapの関係を可視化 § 定量評価 § ②評価指標であるDgedを⽤いた⽐較 § ③モードごとの出⼒頻度を定量化 § 各GTを⼀つのモードとしている § 肺の⽅は4モード,街の⽅は32モード § ⑤アーキテクチャのどこが効いているのか

Slide 40

Slide 40 text

実験①|出⼒結果の可視化 § 確かに最下段が最もGraders (GTs)を再現できている

Slide 41

Slide 41 text

Dgedを⽤いた⽐較 § 薄いバーはdatapoint,symbolはその平均 § 異なるサンプル数で⽐較(左から1, 4, 8, 16) § 結果 § 4, 8, 16枚の時はProb U-Netの値が最も低い. § サンプル数が1の時は通常のSegmentation⼿法の⽅がいいのは妥当

Slide 42

Slide 42 text

モード毎の出⼒頻度 (Cityscapesのみ) § GTの⽣成分布をモデルが正しく学習できているかを測定 § 横軸: GTのモードの出現確率 § 縦軸: Predictのモードの出現確率 § Predの1-IoUが最も近いGTのモードをそのPredのモードとする § GTとPredのモードの出現確率が近い⽅が良いので,正の相関が強いProb U- Netが最もよい

Slide 43

Slide 43 text

モード毎の出⼒頻度のヒストグラム § Dropout U-Net § ピクセル毎の確率は⾼い § モードの分布はつかめていない § U-Net Ensemble § モデルを平均した時に,出⼒も平 均化されてしまう ピクセル毎の 出現確率

Slide 44

Slide 44 text

モード毎の出⼒頻度のヒストグラム § M-Heads § 最初の2つに⽐べて多くのモードを 捉えられているが,その頻度はつ かめていない § Im2Im VAE § 全モードを出⼒できているが,M- Heads同様,頻度は捉えられず

Slide 45

Slide 45 text

モード毎の出⼒頻度のヒストグラム § Prob U-Net § 全モードを出⼒できている § 頻度もGTとほぼ⼀致している § 分布を正確に捉えることができて いる

Slide 46

Slide 46 text

Segmentation variant と出⼒の関係の可視化 § Segmentation Variantを 低次元に圧縮(肺の⽅は2, Cityscapesは3) § 出⼒をマッピング

Slide 47

Slide 47 text

アーキテクチャのどの部分が効いているか 提案⼿法 Priorを標準ガウス分布でfix 学習時にPosteriorの⼊⼒をGTだけにする PriorをU-Netの最初に⼊⼒する § 提案⼿法が最も良かった § Priorで正しくGTの⽣成分布を学 習することが重要である § 適切なSegmentation Variantを ⼊⼒画像から推定できることが 必要 § U-Netの最初にSegmentation Variantを⼊⼒した場合,その情 報を最後まで保持しておくこと が難しい

Slide 48

Slide 48 text

実応⽤上のメリット § VAEでGTの分布を学習することによって,Segmentation Variantと出 ⼒の関係性の可視化が可能であること § U-Netの最後にSegmentation Variantを⼊⼒することで,Forwardの 計算時間が⾮常に短時間で済む(オレンジの枠だけの計算で複数サン プル可能) ⼊⼒ U-Net 出⼒

Slide 49

Slide 49 text

⽬次 § 概要 § 前提知識 § 背景 § 提案⼿法 § 実験 § まとめ

Slide 50

Slide 50 text

まとめ § GTが複数あるような場合のSegmentaion タスクに挑戦. § ⼊⼒画像からGTの分布を推定できるように学習するPrior Netを⽤いた CVAE + U-Netのモデルを提案 § 肺のCT-scan画像の癌SegmentaionのデータセットとCityscapesを⽤ いて,⼤量の実験を実施 § 提案⼿法の有効性と実応⽤上のメリットを⽰した