Haar-like+Boosting, HOG+SVM) a. 1つのスケールの物体のみを検出する検出器+画像リスケール b. 複数のスケールの物体を検出する検出器を全スケール分 c. 少数のスケールの物体を検出する検出器+画像ピラミッド ! (Deepでない)Region Proposal系(e.g. R-CNN, Fast-RCNN) ! Deep Single Shot Detector系(e.g. Faster R-CNN, SSD, YOLO) 3 e.g. HOG + SVM
6 W H W/S H/S C 例えばC = 5とすると1クラスの物体検出 特徴マップ:WF x HF x 5 5: BBoxの座標 (4-dim) + 検出スコア 検出スコア=グリッド内に物体の中⼼があると1を出⼒ ⼊⼒画像をサイズ (S, S) の W/S x H/S (WF x HF ) グリッドに分割し 各領域で物体の検出、分類、 BBOXの回帰を⾏っていることになる
7 W H W/S H/S C ⼊⼒画像をサイズ (S, S) の W/S x H/S (WF x HF ) グリッドに分割し 各領域で物体の検出、分類、 BBOXの回帰を⾏っていることになる 例えばBをスケール数とし、C = B x 5とすると 1クラス・Nスケールの物体検出 特徴マップ:WF x HF x 5 x N 5: BBoxの座標 (4-dim) + 検出スコア
Stronger, CVPR’17. 11 YOLOv2 Conv 3 x 3 x 1024 Conv 1 x 1 x 125 ↓Darknet concat 特徴マップ:WF x HF x B x (5 + C) B: BBoxの数 (=5) 5: Bboxの座標 (4-dim)+信頼度 C: クラス数 (=20) 特徴マップは1つ Bbox毎の検出になった BBoxのデフォルト形状をk-means で求めている