Slide 8
Slide 8 text
© GO Inc. 10
Encoder
◼ 基本的にはtimmの2D (2.5D) モデル
◼ 入力のdepth方向をバッチ方向に積んで
forward
▪ (B, C, D, H, W) -> (B * D, C, H, W)
▪ 良くバグらせる(einops使え)
◼ timmでfeatures_only=
Trueでモデルを作ると階
層的な特徴マップが得られる
▪ https://www.slideshare.net/TakujiTahara/20210817-lt-
introduction-to-pytorch-image-models-as-backbone-
tawara-249996209
▪ 徐々に空間解像度が小さくなりチャネルが増える
▪ 最終出力は大体1/32のサイズ
▪ これをstride 32の特徴マップという
◼ 2Dモデルに前後のスライスも入れるようにす
るとencoderでも深さ情報が考慮できる
▪ 私は大体3-5slice入れています
(C0, D, H, W)
(C1, D, H/2, W/2)
(C2, D, H/4, W/4)
(C3, D, H/8, W/8)
(C4, D, H/16, W/16)
Encoder
2Dモデル内では
(B * D, C0, H, W)