You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話

Slide 1

Slide 1 text

Mobility Technologies Co., Ltd. You Only Look One-level Feature の解説と⾒せかけた物体検出のよもやま話株式会社Mobility Technologies 内⽥祐介第7回全⽇本コンピュータビジョン勉強会「CVPR2021読み会」（前編）

Slide 2

Slide 2 text

Mobility Technologies Co., Ltd. nYusuke Uchida • -2017年 ︓通信キャリアの研究所で画像認識・検索の研究に従事 • -2016年 ︓社会⼈学⽣として博⼠号を取得（情報理⼯学） • 2017年- ︓DeNA中途⼊社、深層学習を中⼼としたコンピュータビジョン技術の研究開発に従事 • 2019年- ︓ Mobility Technologiesへ移籍⾃⼰紹介 2 Twi$er: h$ps://twi$er.com/yu4u GitHub: h$ps://github.com/yu4u Qiita: h$ps://qiita.com/yu4u SlideShare: h$ps://www.slideshare.net/ren4yu/ Kaggle: h$ps://www.kaggle.com/ren4yu

Slide 3

Slide 3 text

Mobility Technologies Co., Ltd. nみんな⼤好きYOLO︕ You Only Look One-level Feature (YOLOF) 3

Slide 4

Slide 4 text

Mobility Technologies Co., Ltd. nYOLO: Single shot object detectioの⽕付け役 • J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Uniﬁed, Real-Time Object Detection,” in Proc. Of CVPR, 2016. nYOLOv2: FCN化、k-meansにより作成されたアンカーベースの検出 • J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in Proc. Of CVPR, 2017. nYOLOv3: より強⼒なバックボーン、FPN的構造、複数解像度の特徴からの検出 • J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement,” in arXiv, 2018. nYOLOv4: ベストプラクティス全部⼊りみたいなやつ • A. Bochkovskiy, C. Wang, and H. Liao, “YOLOv4: Optimal Speed and Accuracy of Object Detection,” in arXiv, 2020. • https://github.com/AlexeyAB/darknet nYOLOv5: Ultralytics社のOSS実装。最早⼿法とかではなくて学習・推論を含めたフレームワークと⾔ったほうが良い。何故かKagglerが⼤好き • https://github.com/ultralytics/yolov5 YOLO*? 4

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Mobility Technologies Co., Ltd. nhttps://www.kaggle.com/c/global-wheat- detection/discussion/172436 YOLOv5のablation study by @hirotomusiker 8

Slide 9

Slide 9 text

Mobility Technologies Co., Ltd. nPP-YOLO: PaddlePaddle版YOLO • X. Long, et al., "PP-YOLO: An Effective and Efficient Implementation of Object Detector," in arXiv, 2020. • X. Huang, et al., "PP-YOLOv2: A Practical Object Detector," in arXiv, 2021. nScaled-YOLOv4 • C. Wang, A. Bochkovskiy, and H. Liao, "Scaled-YOLOv4: Scaling Cross Stage Partial Network," in Proc. of CVPR, 2021. • https://github.com/WongKinYiu/ScaledYOLOv4 nYOLOR • C. Wang, I. Yeh, and H. Liao, "You Only Learn One Representation: Unified Network for Multiple Tasks," in arXiv, 2021. • https://github.com/WongKinYiu/yolor YOLO*? 9

Slide 10

Slide 10 text

Mobility Technologies Co., Ltd. n論⽂のIntroはエモいのにめっちゃdetection結果推し YOLOR 10

Slide 11

Slide 11 text

Mobility Technologies Co., Ltd. そういえばYOLOFでした 11 Q. Chen, et al., "You Only Look One-level Feature," in Proc. of CVPR, 2021.

Slide 12

Slide 12 text

Mobility Technologies Co., Ltd. nFeature Pyramids Networks (FPN) はマルチスケールの特徴を融合することにより性能が向上していると思われているがポイントはそこやないで n物体検出における最適化問題を（multi-scaleのアンカーを使うことで）分割統治的に解いているところが⼀番ポイントやで nでもマルチスケールの特徴を使った検出は複雑かつ低速なので、 single-scaleでmulti-scaleに匹敵する検出器をつくるお︕ 論⽂の主張 12

Slide 13

Slide 13 text

Mobility Technologies Co., Ltd. nYOLOFはちなみに 13

Slide 14

Slide 14 text

Mobility Technologies Co., Ltd. nYOLOFはYOLOではありません︕ ちなみに 14

Slide 15

Slide 15 text

Mobility Technologies Co., Ltd. nYOLOFはYOLOではありません︕ • これまでの前フリは… nこいつはRetinaNetです • ちなみに何を持ってYOLOだ、RetinaNetだというのは個⼈的に好きな議論 • 意味はないけど • BackboneがDarknetならYOLO? • 後述のアンカーがkmeansで作られていたらYOLO? • Headにクラス毎の確率ではなくてbboxの信頼度もあったらYOLOで bboxとclass分類が別々のbranchになってたらRetinaNet? • Loss? 後述のAnchor matchingの⼿法︖ ちなみに 15

Slide 16

Slide 16 text

Mobility Technologies Co., Ltd. nBackbone, Neck, Headの組み合わせで物体検出モデルは表現できる物体検出モデルの汎⽤的な表現 16 https://mmdetection.readthedocs.io/en/latest/tutorials/customize_models.html

Slide 17

Slide 17 text

Mobility Technologies Co., Ltd. nBackbone, Neck, Headの組み合わせで物体検出モデルは表現できる物体検出モデルの汎⽤的な表現 17 A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection," in arXiv, 2020. Backbone: ベースとなるクラス分類モデル。Multi-scaleの特徴マップを出⼒ (e.g. ResNet, Darknet) Neck: Multi-scaleの特徴マップを⼊⼒してコネコネして出⼒（e.g. FPN, BiFPN） Head: Multi-scaleの特徴マップを⼊⼒して検出結果を出⼒ (e.g. YOLO/Retina head)

Slide 18

Slide 18 text

Mobility Technologies Co., Ltd. nBackbone, Neck, Headの組み合わせで物体検出モデルは表現できる物体検出モデルの汎⽤的な表現 18 A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection," in arXiv, 2020. Backbone: ベースとなるクラス分類モデル。Multi-scaleの特徴マップを出⼒ (e.g. ResNet, Darknet) Neck: Multi-scaleの特徴マップを⼊⼒してコネコネして出⼒（e.g. FPN, BiFPN） Head: Multi-scaleの特徴マップを⼊⼒して検出結果を出⼒ (e.g. YOLO/Retina head)

Slide 19

Slide 19 text

Mobility Technologies Co., Ltd. n出⼒層付近の特徴を⼊⼒層付近の特徴へと徐々に統合することで特徴の強さと特徴マップの解像度を両⽴ Feature Pyramid Network (FPN) 19 T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, "Feature Pyramid Networks for Object Detection," in Proc. of CVPR, 2017. 特徴の強さ︓強解像度︓低 e.g. Faster R- CNN, YOLO 特徴の強さ︓弱解像度︓⾼ e.g. SSD 特徴の強さ︓強解像度︓⾼ FPN Nearest neighbor で解像度調整 1x1でチャネル数調整

Slide 20

Slide 20 text

Mobility Technologies Co., Ltd. nエッジ等のlow-levelの情報をネットワーク全体に伝播させる Path Aggregation Network (PANet) 20 S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, "Path Aggregation Network for Instance Segmentation," in Proc. of CVPR, 2018. Backbone FPN Bottom-up path low-levelの特徴の伝播に 100 layerくらい必要 ʻshort cutʼ path を作ってあげる

Slide 21

Slide 21 text

Mobility Technologies Co., Ltd. nエッジ等のlow-levelの情報をネットワーク全体に伝播させる Path Aggregation Network (PANet) 21 S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, "Path Aggregation Network for Instance Segmentation," in Proc. of CVPR, 2018. Backbone FPN Bottom-up path low-levelの特徴の伝播に 100 layerくらい必要 ʻshort cutʼ path を作ってあげる 3x3 conv stride=2 3x3 conv

Slide 22

Slide 22 text

Mobility Technologies Co., Ltd. nPANetを簡略化、同⼀解像度のskip connection、 top-down+bottom-upを1モジュールとして繰り返す（単⼀モジュールとして考えることで簡略化が可能に） Bi-directional Feature Pyramid Network (BiFPN) 22 M. Tan, R. Pang, and Quoc V. Le, "EﬃcientDet: Scalable and Eﬃcient Object Detection," in Proc. of CVPR, 2020.

Slide 23

Slide 23 text

Mobility Technologies Co., Ltd. nPANetを簡略化、同⼀解像度のskip connection、 top-down+bottom-upを1モジュールとして繰り返す（単⼀モジュールとして考えることで簡略化が可能に） Bi-directional Feature Pyramid Network (BiFPN) 23 M. Tan, R. Pang, and Quoc V. Le, "EﬃcientDet: Scalable and Eﬃcient Object Detection," in Proc. of CVPR, 2020.

Slide 24

Slide 24 text

Mobility Technologies Co., Ltd. nBackbone, Neck, Headの組み合わせで物体検出モデルは表現できる物体検出モデルの汎⽤的な表現 24 A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection," in arXiv, 2020. Backbone: ベースとなるクラス分類モデル。Multi-scaleの特徴マップを出⼒ (e.g. ResNet, Darknet) Neck: Multi-scaleの特徴マップを⼊⼒してコネコネして出⼒（e.g. FPN, BiFPN） Head: Multi-scaleの特徴マップを⼊⼒して検出結果を出⼒ (e.g. YOLO/Retina head)

Slide 25

Slide 25 text

Mobility Technologies Co., Ltd. n各スケールのHeadの特徴マップの座標毎にA個の「Anchor」が定義されている • Anchor: 特定の条件の物体のみを検出する部品 • Bounding box (bbox) のサイズで定義される。YOLOv3はA=3, RetinaNetはA=9 nAnchorのbboxとmatchingルールによって「各Anchorの守備範囲」が決まる • 各Anchorがどういうサイズの物体を検出すべきか（&検出すべきでないか） Anchor 25 Anchor1のクラス信頼度 (K channels) Anchor1の検出したbbox (x, y, w, h) RetinaNetのHead AnchorAの検出したbbox (x, y, w, h) AnchorAのクラス信頼度 (K channels) … …

Slide 26

Slide 26 text

Mobility Technologies Co., Ltd. nAnchorとのmatchingとは、ground truth (GT) の各objectをどのAnchorが検出すべき（&すべきでない）かを決めるプロセス • これにより特徴マップのどこにどういうロスをかけるかが決まる nRetinaNetでは… • IoUが0.5以上のAnchorが検出すべき（positive Anchor） • IoUが0.4以下のAnchorは検出すべきではない（negative Anchor） • どちらでもないAnchorを残すことは重要（個⼈的意⾒） • ギリギリのAnchorにはどちら側のロスをかけることも不適切 n⼿法によってmatching⼿法にかなり細かい違いがある • Digging into Sample Assignment Methods for Object Detection • https://speakerdeck.com/hirotohonda/digging-into-sample- assignment-methods-for-object-detection • The devil is in the details… Anchorとのmatching 26

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Mobility Technologies Co., Ltd. n(a) と (b) を⽐較すると、マルチスケールの特徴を融合することによる影響はそこまで⼤きくない n(a) と (c)、(b) と (d) を⽐較するとsingle outputによる性能低下が著しい⾊々なNeckを⽐較 28 FPN 単⼀スケールから無理やり複数スケールの特徴を出⼒複数スケールを統合し単⼀スケールの特徴を出⼒単⼀スケールの特徴をそのまま出⼒

Slide 29

Slide 29 text

Mobility Technologies Co., Ltd. nC5特徴は様々なスケールの特徴を検出する情報を⼗分に持っている nFPNにおけるマルチスケールの特徴を融合するメリットは、multiple outputにより実現される分割統治のメリットには遠く及ばない⾊々なNeckを⽐較 29 FPN 単⼀スケールから無理やり複数スケールの特徴を出⼒複数スケールを統合し単⼀スケールの特徴を出⼒単⼀スケールの特徴をそのまま出⼒

Slide 30

Slide 30 text

Mobility Technologies Co., Ltd. ⾊々なNeckを⽐較 30 FPN 単⼀スケールから無理やり複数スケールの特徴を出⼒複数スケールを統合し単⼀スケールの特徴を出⼒単⼀スケールの特徴をそのまま出⼒

Slide 31

Slide 31 text

Mobility Technologies Co., Ltd. nMultiple outputは計算量が⼤きいじゃあmultiple outputでええやん︖ 31 (Neck) (Head) Multiple output はHeadが重い Single outputにすると精度が下がる Single outputでも精度が維持できる⼿法を提案するお

Slide 32

Slide 32 text

Mobility Technologies Co., Ltd. 他の論⽂でも 32 C. Yang, Z. Huang, and N. Wang, "QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection," in arXiv, 2021. https://speakerdeck.com/keiku/querydet-cascaded-sparse-query-for-accelerating-high-resolution-small-object- detection

Slide 33

Slide 33 text

Mobility Technologies Co., Ltd. Multiple outputのHeadが何故重いかというと 33 Neck Head Backbone 複数スケール間で重み共有のhead channel数256

Slide 34

Slide 34 text

Mobility Technologies Co., Ltd. Multiple outputのHeadが何故重いかというと 34 Neck Head Backbone 複数スケール間で重み共有のhead channel数256 ResNetのC3特徴の channel数は128 （計算量は4倍）

Slide 35

Slide 35 text

Mobility Technologies Co., Ltd. nC5特徴が対応できる物体の⼤きさが限られている nPositive anchorの不均衡問題 SiSoにおける課題 35

Slide 36

Slide 36 text

Mobility Technologies Co., Ltd. nRetinaNetではstride-2のconvで作成されたreceptive ﬁeldの⼤きな特徴マップP6, P7を利⽤している n複数の特徴マップを使いたくない病のYOLOFではdilated convolutionでreceptive ﬁeldを拡⼤することを提案 nResidual構造とすることで⼩さい物体⽤も引き続きカバー n単にNW深くしてるだけでは︖ C5特徴が対応できる物体の⼤きさが限られている 36 C5特徴 C5特徴にdilated conv C5特徴にdilated conv + skip

Slide 37

Slide 37 text

Mobility Technologies Co., Ltd. nYOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存在（アスペクト⽐は固定） Positive anchorの不均衡問題 37

Slide 38

Slide 38 text

Mobility Technologies Co., Ltd. nYOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存在（アスペクト⽐は固定） n64サイズのアンカーはこんな感じ Positive anchorの不均衡問題 38 32 … …

Slide 39

Slide 39 text

Mobility Technologies Co., Ltd. nYOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存在（アスペクト⽐は固定） n64サイズのアンカーはこんな感じ Positive anchorの不均衡問題 39 32 … … この辺にGTの物体があったとすると…

Slide 40

Slide 40 text

Mobility Technologies Co., Ltd. nYOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存在（アスペクト⽐は固定） n64サイズのアンカーはこんな感じ Positive anchorの不均衡問題 40 32 … … この辺にGTの物体があったとすると… この辺のアンカーがpositive になる

Slide 41

Slide 41 text

Mobility Technologies Co., Ltd. nYOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存在（アスペクト⽐は固定） n256サイズのアンカーはこんな感じ Positive anchorの不均衡問題 41 32 … …

Slide 42

Slide 42 text

Mobility Technologies Co., Ltd. nYOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存在（アスペクト⽐は固定） n256サイズのアンカーはこんな感じ Positive anchorの不均衡問題 42 32 … … この辺にGTの物体があったとすると…

Slide 43

Slide 43 text

Mobility Technologies Co., Ltd. nYOLOFではP5特徴に32, 64, 128, 256, 512サイズのアンカーが存在（アスペクト⽐は固定） n256サイズのアンカーはこんな感じ Positive anchorの不均衡問題 43 32 … この辺にGTの物体があったとすると… この辺のアンカー全部が positiveになる

Slide 44

Slide 44 text

Mobility Technologies Co., Ltd. nということが⾔いたいのが論⽂のこの図 • 横軸が1GTあたりの異なる物体サイズ毎のpositive Anchor数 • 縦軸で異なるmatching⼿法を⽐較している nこの問題に対応するためYOLOFでは固定のtop-k (k=4) をpositive とすることを提案 Positive anchorの不均衡問題 44 RetinaNet YOLOF ⼤きい物体ばっかり優先的に学習される

Slide 45

Slide 45 text

Mobility Technologies Co., Ltd. n“we set IoU thresholds in Uniform Matching to ignore large IoU (>0.7) negative anchors and small IoU (<0.15) positive anchors.” n特に⼤きなアンカーはIoUが⼤きくなるアンカーが⼤量に出る • これらに対してnegativeなlossをかけるのはよろしくない nRetinaNet等、複数スケールの特徴を利⽤する場合、⼤きな物体を担当する特徴マップは低解像度で、アンカーは前述のように細かく配置されていないためこの問題は顕著ではないちなみに 45

Slide 46

Slide 46 text

Mobility Technologies Co., Ltd. nAdaptive Training Sample Selection (ATSS) • Anchor-basedな⼿法とAnchor-freeな⼿法のパフォーマンスの差は（⾊々な細かい改善⼿法と）positive, negative Anchorを定義する matchingアルゴリズムの差であることを指摘 • 各GT毎に、近傍アンカーとのIoUとの統計量を基に適応的にpositive, negativeへアサインするためのしきい値を決定する⼿法を提案関連⼿法 46 S. Zhang, C. Chi, Y. Yao, Z. Lei, and S. Li, "Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection," in Proc. of CVPR, 2020.

Slide 47

Slide 47 text

Mobility Technologies Co., Ltd. nYOLO, YOLOv2はpositiveはbest matchの1件のみ nDETRはハンガリアンアルゴリズムでglobalかつ暗黙的なAnchorとのmatchingを最適化している nYOLOFはpositiveの個数に着⽬してバランスすることを⽬的にしている（というexcuse n他にもCVPRʼ21で、GTとAnchorのassignを最適化する⼿法が出ている関連⼿法 47 J. Wang, L. Song, Z. Li, H. Sun, J. Sun, and N. Zheng, "End-to-End Object Detection with Fully Convolutional Network," in Proc. of CVPR, 2021. Zheng Ge, Songtao Liu, Zeming Li, Osamu Yoshie, Jian Sun, "OTA: Optimal Transport Assignment for Object Detection," in Proc. of CVPR, 2021.

Slide 48

Slide 48 text

Mobility Technologies Co., Ltd. nNeckとしてC5特徴⼊⼒し、P5特徴を出⼒するdilated convモジュールを利⽤ n1つの特徴マップに全スケールのアンカーを押し込んだRetina Head を利⽤ nGTからtop-k (k=4) のAnchorをpositiveAnchorとする YOLOFまとめ 48

Slide 49

Slide 49 text

Mobility Technologies Co., Ltd. nRetinaNetより同等以上の精度で早い結果: ベースであるRetinaNetとの⽐較 49 RetinaNet+: YOLOF実装に合わせたRetinaNet

Slide 50

Slide 50 text

Mobility Technologies Co., Ltd. n7倍早く収束する︕ n⼤きな物体はDETRのほうが得意結果: 同じC5特徴だけを利⽤するDETRとの⽐較 50

Slide 51

Slide 51 text

Mobility Technologies Co., Ltd. nちょっと早くてちょっと精度が良い結果: Single shot detectorと⾔えば…のYOLO系と⽐較 51

Slide 52

Slide 52 text

Mobility Technologies Co., Ltd. nResBlockは多いほうが良い（が4つで勘弁してやる） nDilationは2,4,6,8 • 1,1,1,1の精度が悪いので単に深くするだけでは駄⽬ nResidual機構はあった⽅が良い • 全スケール良くなっているので元々の複数スケールカバーする云々は…↑ Ablation Study: Neck構造 52

Slide 53

Slide 53 text

Mobility Technologies Co., Ltd. nUniformにtop-4が良い Ablation Study: matching部分 53

Slide 54

Slide 54 text

Mobility Technologies Co., Ltd. nC5特徴でも⼩さい物体を検出できる部分は⾯⽩い n精度速度のトレードオフを追い求めるという観点では、複数スケールの特徴を使って重くなるのはstride=8, 16のところなので、そこだけ使わずにP5-7は使うでよいのではないか • 複数スケール使いたくない病なら仕⽅がない nYOLOv3~はstride=8の特徴マップを使っているがweight shared の重いHeadを使っていないので問題ない nAnchorの定義、Anchor matching, NMSあたりはまだまだ綺麗な⼿法があるのでは︖ • ⾼解像度特徴まで効率的に⾒るようなDETRが全てを解決する︖ 所感 54

Slide 55

Slide 55 text

Mobility Technologies Co., Ltd. n資料作成に当たり⾊々議論してくれた同僚の @hirotomusiker に感謝︕ Acknowledgement 55