Upgrade to Pro — share decks privately, control downloads, hide ads and more …

A Probabilistic U-Net for Segmentation of Ambiguous Images

tanimutomo
October 25, 2018

A Probabilistic U-Net for Segmentation of Ambiguous Images

[DL-paper] NIPS2018に採択されたProb U-Netの輪読スライド

tanimutomo

October 25, 2018
Tweet

More Decks by tanimutomo

Other Decks in Research

Transcript

  1. 書誌情報 § NIPS2018 § 著者: Simon A. A. Kohl, DeepMindの⽅々

    § 所属: German Cancer Research Center § DeepMindにインターンに⾏っている時に⾏った研究
  2. 研究の⼤まかな背景 § 著者の所属 § German Cancer Research Center § 本研究の最終的な⽬的

    § CT-scan画像から癌の部分を⾃動で検出したい § 今回使⽤するメインのデータセット § 肺のCT-scanに癌細胞の部分がアノテーションされている
  3. 提案⼿法 § CVAE + U-Net ⼊⼒ U-Net 出⼒ Segmentation Variant

    →これが出⼒に多様性を持たせている
  4. 提案⼿法 § CVAE + U-Net ⼊⼒ U-Net 出⼒ § 多次元ガウス分布(6次元が良い)

    § 1x1 Convを3回する X ω ψ § Segmentation Variantの分布 § U-Netとzの出⼒後の計算 θ
  5. 学習のフロー ⼊⼒ 出⼒ U-Net Loss① Loss② ロス関数: Loss① Loss② §

    Posteriorの出⼒分布(Priorと同様) ν ω X θ ψ z S Y
  6. 実験 § ベースライン § 多様な出⼒が可能な既存⼿法4つ § 評価指標 § Generalized Energy

    Distance (Dged)[Bellemare et al.] § データセット § LIDC-IDRI § 肺のCT-scan with 癌アノテーション § Cityscapes § 街の写真
  7. ベースライン|Im2Im VAE § Image2Image translationの構造を利⽤したもの[Phillip et al.] § Priorは標準ガウス分布でfixされている §

    Priorからサンプリングされたzの出⼒先はEncorder側の最初 § 元々はAdeversarial lossも使うが,今回はタスクがSegmentationで完全に教師 ありなので排除
  8. 評価指標 § Generalized Energy Distance (Dged) § 低い⽅が精度が⾼い § Pgt:

    GTの分布,Pout: Predの分布,S: Predの出⼒マップ,Y: GT § d(x, y) = 1 ‒ IoU(x,y) → 不⼀致度のようなもの § Sは1回⽬の出⼒,Sʼは2回⽬の出⼒.(Yも同様)
  9. 評価指標 § Generalized Energy Distance (Dged) § 低い⽅が精度が⾼い § Pgt:

    GTの分布,Pout: Predの分布,S: Predの出⼒マップ,Y: GT § d(x, y) = 1 ‒ IoU(x,y) → 不⼀致度のようなもの § Sは1回⽬の出⼒,Sʼは2回⽬の出⼒.(Yも同様) GTとPredの 不⼀致度 2つのPredの 不⼀致度 2つのGTの 不⼀致度
  10. 評価指標 GTとPredの 不⼀致度 2つのPredの 不⼀致度 2つのGTの 不⼀致度 ⼩さい⽅が良い ⼤きい⽅が良い §

    GTとPredの出⼒は近い⽅が良い § Segmentation mapの出⼒ の精度評価 § 1回⽬と2回⽬のPred(or GT)の 出⼒が⼤きく異なっている⽅が良い § 多様な出⼒ができているかの評価
  11. データセット § LIDC-IDRI § 肺のCTscanのdataset § 1枚のCTscanを4⼈の専⾨家でannotation→正解データは4枚になる § Training: 8882,

    Validation: 1996, Test: 1992 § Cityscapes § 街の画像 § 19クラス § ⼈⼯的に曖昧さを作り出した § 5個のラベルをラベル2に⼀定確率でフリップ →32個のGT § ʻsidewalkʼ to ʻsidewalk 2ʼ with a probability of 8/17, § ʻpersonʼ to ʻperson 2ʼ with a probability of 7/17, § ʻcarʼ to ʻcar 2ʼ with 6/17, § ʻvegetationʼ to ʻvegetation 2ʼ with 5/17 § ʻroadʼ to ʻroad 2ʼ with probability 4/17.
  12. 実験内容 § 定性評価 § ①出⼒結果の可視化 § ④Segmentation variantと出⼒mapの関係を可視化 § 定量評価

    § ②評価指標であるDgedを⽤いた⽐較 § ③モードごとの出⼒頻度を定量化 § 各GTを⼀つのモードとしている § 肺の⽅は4モード,街の⽅は32モード § ⑤アーキテクチャのどこが効いているのか
  13. Dgedを⽤いた⽐較 § 薄いバーはdatapoint,symbolはその平均 § 異なるサンプル数で⽐較(左から1, 4, 8, 16) § 結果

    § 4, 8, 16枚の時はProb U-Netの値が最も低い. § サンプル数が1の時は通常のSegmentation⼿法の⽅がいいのは妥当
  14. モード毎の出⼒頻度 (Cityscapesのみ) § GTの⽣成分布をモデルが正しく学習できているかを測定 § 横軸: GTのモードの出現確率 § 縦軸: Predictのモードの出現確率

    § Predの1-IoUが最も近いGTのモードをそのPredのモードとする § GTとPredのモードの出現確率が近い⽅が良いので,正の相関が強いProb U- Netが最もよい
  15. モード毎の出⼒頻度のヒストグラム § Dropout U-Net § ピクセル毎の確率は⾼い § モードの分布はつかめていない § U-Net

    Ensemble § モデルを平均した時に,出⼒も平 均化されてしまう ピクセル毎の 出現確率
  16. アーキテクチャのどの部分が効いているか 提案⼿法 Priorを標準ガウス分布でfix 学習時にPosteriorの⼊⼒をGTだけにする PriorをU-Netの最初に⼊⼒する § 提案⼿法が最も良かった § Priorで正しくGTの⽣成分布を学 習することが重要である

    § 適切なSegmentation Variantを ⼊⼒画像から推定できることが 必要 § U-Netの最初にSegmentation Variantを⼊⼒した場合,その情 報を最後まで保持しておくこと が難しい
  17. まとめ § GTが複数あるような場合のSegmentaion タスクに挑戦. § ⼊⼒画像からGTの分布を推定できるように学習するPrior Netを⽤いた CVAE + U-Netのモデルを提案

    § 肺のCT-scan画像の癌SegmentaionのデータセットとCityscapesを⽤ いて,⼤量の実験を実施 § 提案⼿法の有効性と実応⽤上のメリットを⽰した