RPNを完全に理解しよう

RPNを完全に理解しよう Ryunosuke Ikeda 1

よくある説明 ①K種類のアンカーボックスを用意する。 ②Sliding Windowで各アンカーボックスの物体らしさと座標のオフセットを回帰 → CNNどこ？学習どうするの？？具体的な形状は？？何か改善案はないだろうか？
RPNってなにしてるん？ 2

・Torch VisionのFaster R-CNNのコードをベースにRPNの詳しい処理手順を確認した。・入力画像は3*1280*720とする。・バッチサイズは1とする。前提条件 3

RPN概略図 RPN CNN reg CNN cls CNN RPN Head Anchor
Generator NMS RPN 特徴マップ reshape reshape 4

バックボーンからRPNHead 特徴マップ 42 24 1280 CNN Reg_CNN Cls_CNN RPN Head
3*3conv [1,1280,24,42] [b,C,H,W] 1*1conv 1*1conv [1,1280,24,42] [1,60,24,42] [1,15,24,42] ①特徴抽出CNN 3*3conv , stride=padding=1 特徴抽出を行う。この部分がSliding Windowに対応論文実装はここでC=512に圧縮してる ②座標オフセット回帰CNN 1*1conv , stride=1, padding=0 アンカーの種類(15種類)と座標(xyxy) の15*4=60次元に圧縮 ②物体、背景クラス分類CNN 1*1conv , stride=1, padding=0 アンカーの種類(15種類) の15次元に圧縮 Objectness Pred_bbox 5

出力形状の意味(Cls_CNN) 24 (H) 42 (W) 15 (アンカーの種類)  右図のオレンジの値は特徴マップの[1,1]の部分に1種類目のアンカーボックスを適用した時のObjectnessを直接予測している。
 同様に緑の部分は特徴マップ[1,42]の部分に2種類目のアンカーボックスを適用した時のObjectnessを予測  各アンカーの特徴量を抽出しCNNに入力しているわけではない Cls_CNNの出力・アンカーのイメージ (実際は特徴マップ) ・ 6

RPN Head  Cls_CNN：各アンカーが物体か否かを予測  Reg_CNN：各アンカーを物体のボックスへと近づけるにはどれくらいずらせばよいか学習。 CNN Reg_CNN Cls_CNN
RPN Head 3*3conv 1*1conv 1*1conv [1,1280,24,42] [1,60,24,42] [1,15,24,42] Objectness Pred_bbox 7

Anchor Generator  特徴マップの各要素にアンカーを配置した際のアンカーの座標値を取得。  この際の座標値は入力画像のスケールのもの  出力形状は[15*24*42,4]=[15120,4] Anchor Generator
入力画像特徴マップ [1,1280,24,42] [1,3,720,1280] [15120,4] Anchors 8

Proposalsの作成  Reg_CNNで取得したアンカーボックス座標のオフセット値(相対座標)をアンカーボックスに足し合わせる。 →ずらした後の絶対座標が得られる。 Anchors Pred_bbox [1,60,24,42] [15120,4] [15120,4]
reshape [15120,4] Proposals 9

NMS  NMSにかける前にObjectnessの上位2000個のproposalsを抽出  抽出した2000個に対してNMSをかけてboxを削減 Objectness [1,15,24,42] [15120,4] reshape [15120,1]
Proposals NMS Objectnessの上位2000位の Proposalsを抽出 [2000,4] [2000-N,4] 10

RPN CNN reg CNN cls CNN RPN Head Anchor Generator
NMS RPN 特徴マップ reshape reshape 入力画像 [1,1280,24,42] [1,3,720,1280] [1,1280,24,42] [1,60,24,42] [1,15,24,42] [15120,4] [15120,4] [15120,4] [15120,1] [2000-N,4] 11

RPNの学習  Cls_CNNの教師データはもともとのアノテーションには存在しない為、作成する必要がある。  全アンカーボックス中からGraund TruthとのIoU値が0.3以下であるなら背景(0) 0.7以上であるなら物体(1)とラベルとつける。  残りの部分は学習対象にはならない．(無視のラベルを付ける。)
GT 1 0 12

Lossの測り方（Regの例）  NMSにかける前のpropとobjectnessを用いてLossを測る。  作成したTargetに物体ラベルがついているインデックスの値を抽出し、そのインデックスの予測値とのLossを測る。 [112,85,115,95] Target_bbox [20,30,50,40] …
… Pred_bbox [24,32,50,42] [110,80,120,90] GTが物体ラベルであるインデックスの値 L1smooth Loss イメージ（実際は正規化された値） 13

14 Ryunosuke Ikeda Tokyo Denki University M1 THANK YOU!

RPNを完全に理解しよう

RPNを完全に理解しよう

Ryunosuke-Ikeda

More Decks by Ryunosuke-Ikeda

Other Decks in Technology

Featured

Transcript

RPNを完全に理解しよう Ryunosuke Ikeda 1

よくある説明 ①K種類のアンカーボックスを用意する。 ②Sliding Windowで各アンカーボックスの物体らしさと座標のオフセットを回帰 → CNNどこ？学習どうするの？？具体的な形状は？？何か改善案はないだろうか？

・Torch VisionのFaster R-CNNのコードをベースにRPNの詳しい処理手順を確認した。・入力画像は31280720とする。・バッチサイズは1とする。前提条件 3

RPN概略図 RPN CNN reg CNN cls CNN RPN Head Anchor

バックボーンからRPNHead 特徴マップ 42 24 1280 CNN Reg_CNN Cls_CNN RPN Head

出力形状の意味(Cls_CNN) 24 (H) 42 (W) 15 (アンカーの種類)  右図のオレンジの値は特徴マップの[1,1]の部分に1種類目のアンカーボックスを適用した時のObjectnessを直接予測している。

RPN Head  Cls_CNN：各アンカーが物体か否かを予測  Reg_CNN：各アンカーを物体のボックスへと近づけるにはどれくらいずらせばよいか学習。 CNN Reg_CNN Cls_CNN

Anchor Generator  特徴マップの各要素にアンカーを配置した際のアンカーの座標値を取得。  この際の座標値は入力画像のスケールのもの  出力形状は[152442,4]=[15120,4] Anchor Generator

Proposalsの作成  Reg_CNNで取得したアンカーボックス座標のオフセット値(相対座標)をアンカーボックスに足し合わせる。 →ずらした後の絶対座標が得られる。 Anchors Pred_bbox [1,60,24,42] [15120,4] [15120,4]

NMS  NMSにかける前にObjectnessの上位2000個のproposalsを抽出  抽出した2000個に対してNMSをかけてboxを削減 Objectness [1,15,24,42] [15120,4] reshape [15120,1]

RPN CNN reg CNN cls CNN RPN Head Anchor Generator

14 Ryunosuke Ikeda Tokyo Denki University M1 THANK YOU!