Slide 1

Slide 1 text

Mobility Technologies Co., Ltd. You Only Look One-level Feature の解説と⾒せかけた物体検出のよもやま話 株式会社Mobility Technologies 内⽥ 祐介 第7回全⽇本コンピュータビジョン勉強会 「CVPR2021読み会」(前編)

Slide 2

Slide 2 text

Mobility Technologies Co., Ltd. nYusuke Uchida • -2017年 ︓通信キャリアの研究所で画像認識・検索の研究に従事 • -2016年 ︓社会⼈学⽣として博⼠号を取得(情報理⼯学) • 2017年- ︓DeNA中途⼊社、深層学習を中⼼とした コンピュータビジョン技術の研究開発に従事 • 2019年- ︓ Mobility Technologiesへ移籍 ⾃⼰紹介 2 Twi$er: h$ps://twi$er.com/yu4u GitHub: h$ps://github.com/yu4u Qiita: h$ps://qiita.com/yu4u SlideShare: h$ps://www.slideshare.net/ren4yu/ Kaggle: h$ps://www.kaggle.com/ren4yu

Slide 3

Slide 3 text

Mobility Technologies Co., Ltd. nみんな⼤好きYOLO︕ You Only Look One-level Feature (YOLOF) 3

Slide 4

Slide 4 text

Mobility Technologies Co., Ltd. nYOLO: Single shot object detectioの⽕付け役 • J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” in Proc. Of CVPR, 2016. nYOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出 • J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR, 2017. nYOLOv3: より強⼒なバックボーン、FPN的構造、複数解像度の特徴からの検出 • J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018. nYOLOv4: ベストプラクティス全部⼊りみたいなやつ • A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” in arXiv, 2020. • https://github.com/AlexeyAB/darknet nYOLOv5: Ultralytics社のOSS実装。最早⼿法とかではなくて学習・推論を含め たフレームワークと⾔ったほうが良い。何故かKagglerが⼤好き • https://github.com/ultralytics/yolov5 YOLO*? 4

Slide 5

Slide 5 text

Mobility Technologies Co., Ltd. nYOLO: Single shot object detectioの⽕付け役 • J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” in Proc. Of CVPR, 2016. nYOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出 • J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR, 2017. nYOLOv3: より強⼒なバックボーン、FPN的構造、複数解像度の特徴からの検出 • J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018. nYOLOv4: ベストプラクティス全部⼊りみたいなやつ • A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” in arXiv, 2020. • https://github.com/AlexeyAB/darknet nYOLOv5: Ultralytics社のOSS実装。最早⼿法とかではなくて学習・推論を含め たフレームワークと⾔ったほうが良い。何故かKagglerが⼤好き • https://github.com/ultralytics/yolov5 YOLO*? 5

Slide 6

Slide 6 text

Mobility Technologies Co., Ltd. nYOLO: Single shot object detectioの⽕付け役 • J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” in Proc. Of CVPR, 2016. nYOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出 • J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR, 2017. nYOLOv3: より強⼒なバックボーン、FPN的構造、複数解像度の特徴からの検出 • J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018. nYOLOv4: ベストプラクティス全部⼊りみたいなやつ • A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” in arXiv, 2020. • https://github.com/AlexeyAB/darknet nYOLOv5: Ultralytics社のOSS実装。最早⼿法とかではなくて学習・推論を含め たフレームワークと⾔ったほうが良い。何故かKagglerが⼤好き • https://github.com/ultralytics/yolov5 YOLO*? 6

Slide 7

Slide 7 text

Mobility Technologies Co., Ltd. nYOLO: Single shot object detectioの⽕付け役 • J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” in Proc. Of CVPR, 2016. nYOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出 • J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR, 2017. nYOLOv3: より強⼒なバックボーン、FPN的構造、複数解像度の特徴からの検出 • J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018. nYOLOv4: ベストプラクティス全部⼊りみたいなやつ • A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” in arXiv, 2020. • https://github.com/AlexeyAB/darknet nYOLOv5: Ultralytics社のOSS実装。最早⼿法とかではなくて学習・推論を含め たフレームワークと⾔ったほうが良い。何故かKagglerが⼤好き • https://github.com/ultralytics/yolov5 YOLO*? 7 ↓Ultralytics CEO v4論⽂ AlexeyAB/darknet の issue

Slide 8

Slide 8 text

Mobility Technologies Co., Ltd. nhttps://www.kaggle.com/c/global-wheat- detection/discussion/172436 YOLOv5のablation study by @hirotomusiker 8

Slide 9

Slide 9 text

Mobility Technologies Co., Ltd. nPP-YOLO: PaddlePaddle版YOLO • X. Long, et al., "PP-YOLO: An Effective and Efficient Implementation of Object Detector," in arXiv, 2020. • X. Huang, et al., "PP-YOLOv2: A Practical Object Detector," in arXiv, 2021. nScaled-YOLOv4 • C. Wang, A. Bochkovskiy, and H. Liao, "Scaled-YOLOv4: Scaling Cross Stage Partial Network," in Proc. of CVPR, 2021. • https://github.com/WongKinYiu/ScaledYOLOv4 nYOLOR • C. Wang, I. Yeh, and H. Liao, "You Only Learn One Representation: Unified Network for Multiple Tasks," in arXiv, 2021. • https://github.com/WongKinYiu/yolor YOLO*? 9

Slide 10

Slide 10 text

Mobility Technologies Co., Ltd. n論⽂のIntroはエモいのにめっちゃdetection結果推し YOLOR 10

Slide 11

Slide 11 text

Mobility Technologies Co., Ltd. そういえばYOLOFでした 11 Q. Chen, et al., "You Only Look One-level Feature," in Proc. of CVPR, 2021.

Slide 12

Slide 12 text

Mobility Technologies Co., Ltd. nFeature Pyramids Networks (FPN) はマルチスケールの特徴を融 合することにより性能が向上していると思われているがポイントは そこやないで n物体検出における最適化問題を(multi-scaleのアンカーを使うこと で)分割統治的に解いているところが⼀番ポイントやで nでもマルチスケールの特徴を使った検出は複雑かつ低速なので、 single-scaleでmulti-scaleに匹敵する検出器をつくるお︕ 論⽂の主張 12

Slide 13

Slide 13 text

Mobility Technologies Co., Ltd. nYOLOFは ちなみに 13

Slide 14

Slide 14 text

Mobility Technologies Co., Ltd. nYOLOFはYOLOではありません︕ ちなみに 14

Slide 15

Slide 15 text

Mobility Technologies Co., Ltd. nYOLOFはYOLOではありません︕ • これまでの前フリは… nこいつはRetinaNetです • ちなみに何を持ってYOLOだ、RetinaNetだというのは個⼈的に好きな議論 • 意味はないけど • BackboneがDarknetならYOLO? • 後述のアンカーがkmeansで作られていたらYOLO? • Headにクラス毎の確率ではなくてbboxの信頼度もあったらYOLOで bboxとclass分類が別々のbranchになってたらRetinaNet? • Loss? 後述のAnchor matchingの⼿法︖ ちなみに 15

Slide 16

Slide 16 text

Mobility Technologies Co., Ltd. nBackbone, Neck, Headの組み合わせで物体検出モデルは表現できる 物体検出モデルの汎⽤的な表現 16 https://mmdetection.readthedocs.io/en/latest/tutorials/customize_models.html

Slide 17

Slide 17 text

Mobility Technologies Co., Ltd. nBackbone, Neck, Headの組み合わせで物体検出モデルは表現できる 物体検出モデルの汎⽤的な表現 17 A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection," in arXiv, 2020. Backbone: ベースとなるクラス分類モ デル。Multi-scaleの特徴 マップを出⼒ (e.g. ResNet, Darknet) Neck: Multi-scaleの特徴マップを ⼊⼒してコネコネして出⼒ (e.g. FPN, BiFPN) Head: Multi-scaleの特徴マップを ⼊⼒して検出結果を出⼒ (e.g. YOLO/Retina head)

Slide 18

Slide 18 text

Mobility Technologies Co., Ltd. nBackbone, Neck, Headの組み合わせで物体検出モデルは表現できる 物体検出モデルの汎⽤的な表現 18 A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection," in arXiv, 2020. Backbone: ベースとなるクラス分類モ デル。Multi-scaleの特徴 マップを出⼒ (e.g. ResNet, Darknet) Neck: Multi-scaleの特徴マップを ⼊⼒してコネコネして出⼒ (e.g. FPN, BiFPN) Head: Multi-scaleの特徴マップを ⼊⼒して検出結果を出⼒ (e.g. YOLO/Retina head)

Slide 19

Slide 19 text

Mobility Technologies Co., Ltd. n出⼒層付近の特徴を⼊⼒層付近の特徴へと徐々に統合することで 特徴の強さと特徴マップの解像度を両⽴ Feature Pyramid Network (FPN) 19 T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, "Feature Pyramid Networks for Object Detection," in Proc. of CVPR, 2017. 特徴の強さ︓強 解像度︓低 e.g. Faster R- CNN, YOLO 特徴の強さ︓弱 解像度︓⾼ e.g. SSD 特徴の強さ︓強 解像度︓⾼ FPN Nearest neighbor で解像度調整 1x1でチャネル数調整

Slide 20

Slide 20 text

Mobility Technologies Co., Ltd. nエッジ等のlow-levelの情報をネットワーク全体に伝播させる Path Aggregation Network (PANet) 20 S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, "Path Aggregation Network for Instance Segmentation," in Proc. of CVPR, 2018. Backbone FPN Bottom-up path low-levelの特徴の伝播に 100 layerくらい必要 ʻshort cutʼ path を作ってあげる

Slide 21

Slide 21 text

Mobility Technologies Co., Ltd. nエッジ等のlow-levelの情報をネットワーク全体に伝播させる Path Aggregation Network (PANet) 21 S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, "Path Aggregation Network for Instance Segmentation," in Proc. of CVPR, 2018. Backbone FPN Bottom-up path low-levelの特徴の伝播に 100 layerくらい必要 ʻshort cutʼ path を作ってあげる 3x3 conv stride=2 3x3 conv

Slide 22

Slide 22 text

Mobility Technologies Co., Ltd. nPANetを簡略化、同⼀解像度のskip connection、 top-down+bottom-upを1モジュールとして繰り返す (単⼀モジュールとして考えることで簡略化が可能に) Bi-directional Feature Pyramid Network (BiFPN) 22 M. Tan, R. Pang, and Quoc V. Le, "EfficientDet: Scalable and Efficient Object Detection," in Proc. of CVPR, 2020.

Slide 23

Slide 23 text

Mobility Technologies Co., Ltd. nPANetを簡略化、同⼀解像度のskip connection、 top-down+bottom-upを1モジュールとして繰り返す (単⼀モジュールとして考えることで簡略化が可能に) Bi-directional Feature Pyramid Network (BiFPN) 23 M. Tan, R. Pang, and Quoc V. Le, "EfficientDet: Scalable and Efficient Object Detection," in Proc. of CVPR, 2020.

Slide 24

Slide 24 text

Mobility Technologies Co., Ltd. nBackbone, Neck, Headの組み合わせで物体検出モデルは表現できる 物体検出モデルの汎⽤的な表現 24 A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection," in arXiv, 2020. Backbone: ベースとなるクラス分類モ デル。Multi-scaleの特徴 マップを出⼒ (e.g. ResNet, Darknet) Neck: Multi-scaleの特徴マップを ⼊⼒してコネコネして出⼒ (e.g. FPN, BiFPN) Head: Multi-scaleの特徴マップを ⼊⼒して検出結果を出⼒ (e.g. YOLO/Retina head)

Slide 25

Slide 25 text

Mobility Technologies Co., Ltd. n各スケールのHeadの特徴マップの座標毎にA個の「Anchor」が定義されている • Anchor: 特定の条件の物体のみを検出する部品 • Bounding box (bbox) のサイズで定義される。YOLOv3はA=3, RetinaNetはA=9 nAnchorのbboxとmatchingルールによって「各Anchorの守備範囲」が決まる • 各Anchorがどういうサイズの物体を検出すべきか(&検出すべきでないか) Anchor 25 Anchor1の クラス信頼度 (K channels) Anchor1の 検出したbbox (x, y, w, h) RetinaNetのHead AnchorAの 検出したbbox (x, y, w, h) AnchorAの クラス信頼度 (K channels) … …

Slide 26

Slide 26 text

Mobility Technologies Co., Ltd. nAnchorとのmatchingとは、ground truth (GT) の各objectを どのAnchorが検出すべき(&すべきでない)かを決めるプロセス • これにより特徴マップのどこにどういうロスをかけるかが決まる nRetinaNetでは… • IoUが0.5以上のAnchorが検出すべき(positive Anchor) • IoUが0.4以下のAnchorは検出すべきではない(negative Anchor) • どちらでもないAnchorを残すことは重要(個⼈的意⾒) • ギリギリのAnchorにはどちら側のロスをかけることも不適切 n⼿法によってmatching⼿法にかなり細かい違いがある • Digging into Sample Assignment Methods for Object Detection • https://speakerdeck.com/hirotohonda/digging-into-sample- assignment-methods-for-object-detection • The devil is in the details… Anchorとのmatching 26

Slide 27

Slide 27 text

Mobility Technologies Co., Ltd. nFeature Pyramids Networks (FPN) はマルチスケールの特徴を融 合することにより性能が向上していると思われているがポイントは そこやないで n物体検出における最適化問題を(multi-scaleのアンカーを使うこと で)分割統治的に解いているところが⼀番ポイントやで nでもマルチスケールの特徴を使った検出は複雑かつ低速なので、 single-scaleでmulti-scaleに匹敵する検出器をつくるお︕ 論⽂の主張 27

Slide 28

Slide 28 text

Mobility Technologies Co., Ltd. n(a) と (b) を⽐較すると、マルチスケールの特徴を融合することによる影響は そこまで⼤きくない n(a) と (c)、(b) と (d) を⽐較するとsingle outputによる性能低下が著しい ⾊々なNeckを⽐較 28 FPN 単⼀スケール から無理やり 複数スケール の特徴を出⼒ 複数スケー ルを統合し 単⼀スケー ルの特徴を 出⼒ 単⼀スケー ルの特徴を そのまま出 ⼒

Slide 29

Slide 29 text

Mobility Technologies Co., Ltd. nC5特徴は様々なスケールの特徴を検出する情報を⼗分に持っている nFPNにおけるマルチスケールの特徴を融合するメリットは、multiple outputに より実現される分割統治のメリットには遠く及ばない ⾊々なNeckを⽐較 29 FPN 単⼀スケール から無理やり 複数スケール の特徴を出⼒ 複数スケー ルを統合し 単⼀スケー ルの特徴を 出⼒ 単⼀スケー ルの特徴を そのまま出 ⼒

Slide 30

Slide 30 text

Mobility Technologies Co., Ltd. ⾊々なNeckを⽐較 30 FPN 単⼀スケール から無理やり 複数スケール の特徴を出⼒ 複数スケー ルを統合し 単⼀スケー ルの特徴を 出⼒ 単⼀スケー ルの特徴を そのまま出 ⼒

Slide 31

Slide 31 text

Mobility Technologies Co., Ltd. nMultiple outputは計算量が⼤きい じゃあmultiple outputでええやん︖ 31 (Neck) (Head) Multiple output はHeadが重い Single outputにすると 精度が下がる Single outputでも精度 が維持できる⼿法を 提案するお

Slide 32

Slide 32 text

Mobility Technologies Co., Ltd. 他の論⽂でも 32 C. Yang, Z. Huang, and N. Wang, "QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection," in arXiv, 2021. https://speakerdeck.com/keiku/querydet-cascaded-sparse-query-for-accelerating-high-resolution-small-object- detection

Slide 33

Slide 33 text

Mobility Technologies Co., Ltd. Multiple outputのHeadが何故重いかというと 33 Neck Head Backbone 複数スケール間で重み 共有のhead channel数256

Slide 34

Slide 34 text

Mobility Technologies Co., Ltd. Multiple outputのHeadが何故重いかというと 34 Neck Head Backbone 複数スケール間で重み 共有のhead channel数256 ResNetのC3特徴の channel数は128 (計算量は4倍)

Slide 35

Slide 35 text

Mobility Technologies Co., Ltd. nC5特徴が対応できる物体の⼤きさが限られている nPositive anchorの不均衡問題 SiSoにおける課題 35

Slide 36

Slide 36 text

Mobility Technologies Co., Ltd. nRetinaNetではstride-2のconvで作成されたreceptive fieldの⼤き な特徴マップP6, P7を利⽤している n複数の特徴マップを使いたくない病のYOLOFではdilated convolutionでreceptive fieldを拡⼤することを提案 nResidual構造とすることで⼩さい物体⽤も引き続きカバー n単にNW深くしてるだけでは︖ C5特徴が対応できる物体の⼤きさが限られている 36 C5特徴 C5特徴にdilated conv C5特徴にdilated conv + skip

Slide 37

Slide 37 text

Mobility Technologies Co., Ltd. nYOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト⽐は固定) Positive anchorの不均衡問題 37

Slide 38

Slide 38 text

Mobility Technologies Co., Ltd. nYOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト⽐は固定) n64サイズのアンカーはこんな感じ Positive anchorの不均衡問題 38 32 … …

Slide 39

Slide 39 text

Mobility Technologies Co., Ltd. nYOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト⽐は固定) n64サイズのアンカーはこんな感じ Positive anchorの不均衡問題 39 32 … … この辺にGTの 物体があったと すると…

Slide 40

Slide 40 text

Mobility Technologies Co., Ltd. nYOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト⽐は固定) n64サイズのアンカーはこんな感じ Positive anchorの不均衡問題 40 32 … … この辺にGTの 物体があったと すると… この辺のアン カーがpositive になる

Slide 41

Slide 41 text

Mobility Technologies Co., Ltd. nYOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト⽐は固定) n256サイズのアンカーはこんな感じ Positive anchorの不均衡問題 41 32 … …

Slide 42

Slide 42 text

Mobility Technologies Co., Ltd. nYOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト⽐は固定) n256サイズのアンカーはこんな感じ Positive anchorの不均衡問題 42 32 … … この辺にGTの 物体があったと すると…

Slide 43

Slide 43 text

Mobility Technologies Co., Ltd. nYOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存 在(アスペクト⽐は固定) n256サイズのアンカーはこんな感じ Positive anchorの不均衡問題 43 32 … この辺にGTの 物体があったと すると… この辺のアン カー全部が positiveになる

Slide 44

Slide 44 text

Mobility Technologies Co., Ltd. nということが⾔いたいのが論⽂のこの図 • 横軸が1GTあたりの異なる物体サイズ毎のpositive Anchor数 • 縦軸で異なるmatching⼿法を⽐較している nこの問題に対応するためYOLOFでは固定のtop-k (k=4) をpositive とすることを提案 Positive anchorの不均衡問題 44 RetinaNet YOLOF ⼤きい物体ばっかり 優先的に学習される

Slide 45

Slide 45 text

Mobility Technologies Co., Ltd. n“we set IoU thresholds in Uniform Matching to ignore large IoU (>0.7) negative anchors and small IoU (<0.15) positive anchors.” n特に⼤きなアンカーはIoUが⼤きくなるアンカーが⼤量に出る • これらに対してnegativeなlossをかけるのはよろしくない nRetinaNet等、複数スケールの特徴を利⽤する場合、⼤きな物体を 担当する特徴マップは低解像度で、アンカーは前述のように細かく 配置されていないためこの問題は顕著ではない ちなみに 45

Slide 46

Slide 46 text

Mobility Technologies Co., Ltd. nAdaptive Training Sample Selection (ATSS) • Anchor-basedな⼿法とAnchor-freeな⼿法のパフォーマンスの差は (⾊々な細かい改善⼿法と)positive, negative Anchorを定義する matchingアルゴリズムの差であることを指摘 • 各GT毎に、近傍アンカーとのIoUとの統計量を基に適応的にpositive, negativeへアサインするためのしきい値を決定する⼿法を提案 関連⼿法 46 S. Zhang, C. Chi, Y. Yao, Z. Lei, and S. Li, "Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection," in Proc. of CVPR, 2020.

Slide 47

Slide 47 text

Mobility Technologies Co., Ltd. nYOLO, YOLOv2はpositiveはbest matchの1件のみ nDETRはハンガリアンアルゴリズムでglobalかつ暗黙的なAnchorと のmatchingを最適化している nYOLOFはpositiveの個数に着⽬してバランスすることを⽬的にして いる(というexcuse n他にもCVPRʼ21で、GTとAnchorのassignを最適化する⼿法が出て いる 関連⼿法 47 J. Wang, L. Song, Z. Li, H. Sun, J. Sun, and N. Zheng, "End-to-End Object Detection with Fully Convolutional Network," in Proc. of CVPR, 2021. Zheng Ge, Songtao Liu, Zeming Li, Osamu Yoshie, Jian Sun, "OTA: Optimal Transport Assignment for Object Detection," in Proc. of CVPR, 2021.

Slide 48

Slide 48 text

Mobility Technologies Co., Ltd. nNeckとしてC5特徴⼊⼒し、P5特徴を出⼒するdilated convモ ジュールを利⽤ n1つの特徴マップに全スケールのアンカーを押し込んだRetina Head を利⽤ nGTからtop-k (k=4) のAnchorをpositiveAnchorとする YOLOFまとめ 48

Slide 49

Slide 49 text

Mobility Technologies Co., Ltd. nRetinaNetより同等以上の精度で早い 結果: ベースであるRetinaNetとの⽐較 49 RetinaNet+: YOLOF実装に合わせたRetinaNet

Slide 50

Slide 50 text

Mobility Technologies Co., Ltd. n7倍早く収束する︕ n⼤きな物体はDETRのほうが得意 結果: 同じC5特徴だけを利⽤するDETRとの⽐較 50

Slide 51

Slide 51 text

Mobility Technologies Co., Ltd. nちょっと早くてちょっと精度が良い 結果: Single shot detectorと⾔えば…のYOLO系と⽐較 51

Slide 52

Slide 52 text

Mobility Technologies Co., Ltd. nResBlockは多いほうが良い(が4つで勘弁してやる) nDilationは2,4,6,8 • 1,1,1,1の精度が悪いので単に深くするだけでは駄⽬ nResidual機構はあった⽅が良い • 全スケール良くなっているので元々の複数スケールカバーする云々は…↑ Ablation Study: Neck構造 52

Slide 53

Slide 53 text

Mobility Technologies Co., Ltd. nUniformにtop-4が良い Ablation Study: matching部分 53

Slide 54

Slide 54 text

Mobility Technologies Co., Ltd. nC5特徴でも⼩さい物体を検出できる部分は⾯⽩い n精度速度のトレードオフを追い求めるという観点では、複数スケー ルの特徴を使って重くなるのはstride=8, 16のところなので、そこ だけ使わずにP5-7は使うでよいのではないか • 複数スケール使いたくない病なら仕⽅がない nYOLOv3~はstride=8の特徴マップを使っているがweight shared の重いHeadを使っていないので問題ない nAnchorの定義、Anchor matching, NMSあたりはまだまだ綺麗な⼿ 法があるのでは︖ • ⾼解像度特徴まで効率的に⾒るようなDETRが全てを解決する︖ 所感 54

Slide 55

Slide 55 text

Mobility Technologies Co., Ltd. n資料作成に当たり⾊々議論してくれた 同僚の @hirotomusiker に感謝︕ Acknowledgement 55

Slide 56

Slide 56 text

⽂章·画像等の内容の無断転載及び複製等の⾏為はご遠慮ください。 Mobility Technologies Co., Ltd. 56