Upgrade to Pro — share decks privately, control downloads, hide ads and more …

物体の周辺構造を考慮した教師なし深層学習によるマルチモダリティ位置合わせ

Sungwoo Kim
February 09, 2021

 物体の周辺構造を考慮した教師なし深層学習によるマルチモダリティ位置合わせ

Sungwoo Kim

February 09, 2021
Tweet

More Decks by Sungwoo Kim

Other Decks in Research

Transcript

  1. 4 関連研究 l 教師あり深層学習による位置合わせ[1] 変位ベクトル場をNN (Neural Network) で学習する 教師データである変位ベクトル場の作成は⼿間がかかる l

    教師なし深層学習による位置合わせ[2] 浮動画像と参照画像間の類似度メトリクスを⽤いて学習する 類似度メトリクスがモダリティに依存するため,マルチモダリティ 間の位置合わせに失敗する l 相互情報量を⽤いた位置合わせ[3] モダリティへの依存が⼩さい類似度メトリクスであり,マルチモダ リティ間の位置合わせに有効 ⼤域的な指標であるため,物体の周辺構造を考慮しない [1] Xi Cheng, Li Zhang, and Yefeng Zheng. Deep similarity learning for multimodal medical images. Computer Methods in Biomechanics and Biomedical Engineering: Imaging & Visualization, pp. 1‒5, April 2016. [2] Guha Balakrishnan, Amy Zhao, Mert R Sabuncu, John Guttag, and Adrian V Dalca. An unsupervised learning model for deformable medical image registration. In Proceedings of the IEEE Conf. Computer Vision and Pattern Recognition, pp. 9252‒9260, 2018. [3] Josien PW Pluim, JB Antoine Maintz, and Max A Viergever. Mutual-informationbased registration of medical images: a survey. IEEE Trans. Medical Imaging, Vol. 22, No. 8, pp. 986‒1004, 2003.
  2. 5 ⽬的 物体の周辺構造を表す類似度メトリクスを⽤いて,マルチモダリ ティ間の位置合わせを実現する ⼿法 2枚の画像に対して,物体の周辺構造を表す記述⼦であるMIND (Modality Independent Neighbourhood Descriptor)

    [4] を計算し, その平均⼆乗誤差を類似度メトリクスとして,NNを学習する 結果 マルチモダリティ位置合わせにおいて,提案⼿法は既存⼿法に⽐べ, ターゲット位置合わせ誤差(TRE:Target Registration Error)を 6.15 ボクセルから 5.87 ボクセルへ削減 概要 [4] Heinrich, Mattias P., et al. "MIND: Modality independent neighbourhood descriptor for multi-modal deformable registration." Medical image analysis 16.7 (2012): 1423-1435.
  3. 6 画像内のボクセルにおける,周辺の構造を表す記述⼦ MIND MRIの探索領域 CTの探索領域 CTのMIND MRIのMIND MRI CT MRI

    intensities with search region CT intensities with search region MIND for MRI MIND for CT L2 norm ed concept for the use of MIND for multimodal registration. MIND is calculated in a dense manner in CT and MRI. Three exemplary l s: homogenous intensities (liver), corner points at one vertebra and image gradients at the boundary between fat and non-fa M.P. Heinrich et al. / Medical Image Analysis 16 (2012) 1423–1435 モダリティに依存しない
  4. 7 MINDの計算⽅法 MINDを求めたい点を中⼼とする探索領域内の点を選択する 7 6 14 22 13 20 10

    17 2 5 16 11 4 21 25 3 12 1 24 15 23 19 9 8 18 7 6 14 22 13 20 10 17 2 5 16 11 4 21 25 3 12 1 24 15 23 19 9 8 18
  5. 8 MINDの計算⽅法 7 6 14 22 13 20 10 17

    2 5 16 11 4 21 25 3 12 1 24 15 23 19 9 8 18 2点をそれぞれ中⼼とするパッチの差分平⽅和をとる 7 6 14 22 13 20 10 17 2 5 16 11 4 21 25 3 12 1 24 15 23 19 9 8 18 7 6 14 22 13 20 10 17 2 5 16 11 4 21 25 3 12 1 24 15 23 19 9 8 18 7 6 14 22 13 20 10 17 2 5 16 11 4 21 25 3 12 1 24 15 23 19 9 8 18 7 6 14 22 13 20 10 17 2 5 16 11 4 21 25 3 12 1 24 15 23 19 9 8 18 7 6 14 22 13 20 10 17 2 5 16 11 4 21 25 3 12 1 24 15 23 19 9 8 18 7 6 14 22 13 20 10 17 2 5 16 11 4 21 25 3 12 1 24 15 23 19 9 8 18 7 6 14 22 13 20 10 17 2 5 16 11 4 21 25 3 12 1 24 15 23 19 9 8 18
  6. 10 MINDを⽤いた位置合わせ⼿法 浮動画像𝐹 変形した 浮動画像𝐹′ 参照画像𝑅 空間変換 変位ベクトル場𝜙 MIND (𝐹!)

    Moving 3D Image () Moved (()) Registration Field () & , Loss Function (ℒ) Fixed 3D Image () … Spatial Transform Figure 2: Overview of our method. We learn parameters for a function g that registers one 3D volume (M) to a second, fixed volume (F). During training, we warp M with φ using a spatial transformer function. Our loss compares Mφ and F and enforces smoothness of φ. " (,) for VoxelMorph-1 , Successive layers of the decoder operate on finer spa- tial scales, enabling precise anatomical alignment. How- ever, these convolutions are applied to the largest image 浮動画像 (") 参照画像 ($) %! ($,") 変位ベクトル場 (') 変形した浮動画像 (" ' ) 空間変換 損失関数 (ℒ) MIND (𝑅) 平均⼆乗誤差 NN 推定: 学習: 学習と推定の両過程において,変位ベクトル場の教師データを必要とし ない点から,本⼿法は教師なし学習である
  7. 11 実験内容 l 前⽴腺の3次元MR画像・超⾳波画像間のマルチモダリティ位置合わせ l 肺の3次元CT画像・CT画像間のシングルモダリティ位置合わせ 既存⼿法 l 差分平⽅和(SSD:Sum of

    Squared Difference) l 局所正規化相互相関(LNCC: Local Normalized Cross Correlation) l グローバル相互情報量(GMI:Global Mutual Information) 実験環境 評価実験 項⽬ 仕様 OS CentOS 7.7.1908 CPU Intel Xeon E5-2643 v4 @ 3.40 GHz GPU NVIDIA GeForce RTX 2080 GPUメモリ 8 GB フレームワーク TensorFlow 2.3.1 CUDA 10.1.243 cuDNN 7.6.5 Python 3.7.9
  8. 15 未知のテストデータに対する推定結果を⽐較 テストに対するTRE 括弧の中の数字はパッチサイズ l パッチサイズを5としたときの提案⼿法が最も誤差が⼩さく,既存⼿ 法(SSD)に⽐べ,TREを 6.15 ボクセルから 5.87

    ボクセルへ削減 l パッチサイズを3や7としたときはTREが既存⼿法より⼤きくなる → 提案⼿法はパッチサイズに敏感 SSD LNCC GMI MIND (3) MIND (5) MIND (7) TRE 6.15 6.51 6.28 6.38 5.87 6.49
  9. 16 学習時間を⽐較 500 エポックの学習時間 l 既存⼿法はいずれも1時間程度 l 最も誤差の⼩さい,パッチサイズ5の提案⼿法は約2.5倍の学習時間 l パッチサイズに応じて学習時間が増加

    理論上,画像の⼤きさに対して学習時間は線形に増加する しかし,最適なパッチサイズや探索領域サイズも⼤きくなると考えられ るため,⾼解像度画像に提案⼿法を適⽤する際には計算量が問題となる SSD LNCC GMI MIND (3) MIND (5) MIND (7) 学習時間 0:55:48 1:00:06 0:58:14 2:03:58 2:36:20 3:31:48
  10. 18 まとめ l マルチモダリティの医⽤画像位置合わせを⽬的として,物体の周 辺構造を考慮した教師なし深層学習⼿法を提案 l マルチモダリティ位置合わせにおいて,提案⼿法は既存⼿法に⽐ べ,TREを 6.15 ボクセルから

    5.87 ボクセルへ削減 今後の課題 l ⾼解像度画像の位置合わせの⾼速化 l 均⼀な強度の部分に関してはMINDを計算せず,構造が取れる部 分のみ計算する まとめと今後の課題
  11. 19