Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Objects as Pointsを読む[LT資料]

B583d0943fe698dd7fc75d30d02f099f?s=47 Masa
July 23, 2019

Objects as Pointsを読む[LT資料]

論文 Objects as Points のLT資料

元論文"Objects as Points"
https://arxiv.org/abs/1904.07850

B583d0943fe698dd7fc75d30d02f099f?s=128

Masa

July 23, 2019
Tweet

More Decks by Masa

Other Decks in Science

Transcript

  1. Objects as Points 2019/7/20 LT資料 Twitter @asas_mimi 1

  2. 本日の論文 はこれ 論文 “Objects as Points” https://arxiv.org/pdf/1904.07850.pdf 2

  3. 超概要 ▪ CenterNetを提唱 ▪ 既存の物体検知モデルより、非常にシンプルな手法を 提案(NMSも込み:後述) ▪ オブジェクトの中心をヒートマップで推定して、サイズやオ フセット(ズレ)を直接回帰する手法(後述) ▪

    YOlOv3等よりも速く、かつ精度の良い1stageモデル (後述)ができた ▪ 姿勢推定や3D検出モデルにも応用可能 ▪ 余談 ▪ 2018年に発表されたCornerNetを先に読んどくと理 解が超楽かも ▪ 1日違い(2019/4/17)に発表されたCenterNetとは 別物(こっちはまだ読んでない) 3
  4. 1 stage vs. 2 stage Faster R-CNN: Towards Real-Time Object

    Detection with Region Proposal Networks https://arxiv.org/pdf/1506.01497.pdf 物体っぽいところ (領域)を識別 中身を識別 You Only Look Once: Unified, Real-Time Object Detection https://arxiv.org/pdf/1506.02640.pdf 1 stage モデル 2 stage モデル • 物体の領域とその中身をまとめて推定(sliding window) • (基本的に)精度は右より劣るけど、速い! • 物体の領域を調べてから、そこの中身を推定 • (基本的に)精度は左より優れてるけど、遅い! 例:YOlOのloss関数 中心座標とサイズについての誤差 ボックスの信用度評価項 ボックスの不信用度評価項 セルのクラス分類 位置と内容は一緒に! 4
  5. CenterNetは 1 stage モデル ▪ CenterNetは、、、 ▪ 1 stageモデルなので速い ▪

    1 stageモデルなのに精度(AP)が高い 速いのに、正確! エリートモデル! 5
  6. CenterNetは NMS いらない ▪ CenterNetは 後処理:非極大抑制 non-maximal suppression (NMS)不要 You

    only look once https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/content/single-shot-detectors/yolo.html 一つのオブジェクトに対して、 候補領域が複数でる IoUを計算して、閾値 を設定して抑制 既存のモデルは、、、、 後処理としてNMS 6
  7. CenterNetを一枚で概説 ▪ CenterNetはオブジェクトの中心(一点)を推定 ▪ 他の特性(サイズ、3D、方向性、姿勢)は中心座標から直接回帰(後述)すればいい 7

  8. 中心を推定 ▪ インプット画像 I ∈ RW×H×3 ▪ アウトプット ෠ ∈

    [0,1]W/R×H/R×C ,where R is the output stride and C is the number of keypoint types. 例えば、姿勢推定であればC=17 Rは出力予測をダウンサンプリングしている。本論文のデフォルトR = 4 ෠ , , =1 は検出されたキーポイントに対応、0は背景 ▪ 教師データ 教師データ 低解像度における教師データ ガウス分布で表現 8
  9. 中心を推定 損失関数 ▪ penalty-reduced pixel-wise logistic regression with focal loss

    普通の交差エントロピー誤差関数 に変なのついてる!! 9
  10. focal loss ? ▪ FAIR(Facebook AI Research) が書いた下の論文 (ICCV 2017

    に採択) “Focal Loss for Dense Object Detection” https://arxiv.org/abs/1708.02002 ✓ 画像は、ほとんどが背景の不均衡データ ✓ クロスエントロピー(CE)の場合、 0.6 といった 十分に分類できている probability を出力し たとしても、損失は結構残る ✓ 無数にある背景を全て識別できていたとしても、 損失が積み上がり肝心のオブジェクトの損失が 薄まってしまう ✓ Easy samplesの損失は小さくしちゃう工夫 = focal loss 上記論文より 10
  11. 中心を推定 損失関数 (再掲) ▪ penalty-reduced pixel-wise logistic regression with focal

    loss 分かりやすい部分の Loss貢献を小さくする ハイパーパラメータ CornerNet(2018)と一緒 11
  12. オフセットを推定 損失関数 ▪ 出力画像はダウンサンプリングRで低解像度画像になっている。 ▪ ダウンサンプリングによる補正項(オフセット項)も推定しなければいけない。 ▪ 損失関数は以下の通り、L1 lossで表現する。 推定すべきoffset

    実際のズレ 12
  13. サイズを推定 損失関数 ▪ オブジェクトのサイズを直接推定する ▪ 損失関数は以下の通り、L1 lossで表現する。 13 推定するサイズ

  14. 本モデルの損失関数とチャネル数 14 メイン 本モデルの損失関数 (物体検知の場合)C + 4 (offset2 + size2)

  15. 最後の仕上げ 15 中心 ズレ補正 サイズ ▪ 既存のモデルのような後処理(NMS)は不要 =シンプルで速い! ▪ 他の用途にも簡単に応用可能

  16. 色々な応用が可能 16 ▪ 3D物体検知や姿勢推定にも応用可能 構造がシンプルだから、応用も簡単だね! 詳細は論文読んでね

  17. Backbornネットワーク 17 ▪ 論文中で検証しているBackbornネットワークは以下の通り  Hourglass-104  DLA-34  ResNet-101

     ResNet-18 精度良い 推定速度良い 下二つは、deformable convolution layers を使用 論文“Deformable Convolutional Networks”より https://arxiv.org/pdf/1703.06211.pdf ◆ deformable convolution layers?? ✓ 画像中に映っている物体の特性に合わせて、receptive fields が可変 ✓ 詳細は論文“Deformable Convolutional Networks”(2017)をご参照 https://arxiv.org/pdf/1703.06211.pdf 精度とスピードは トレードオフだね
  18. (ご参考)deformable convolution layers 18 ▪ 本編から逸れますが、deformable convolution は(恥ずかしながら)初見でした ▪ 論文以外に読んだものは以下:

    ▪ 下記のPyTorchの実装例 ✓PyTorch Implementation of Deformable Convolution ✓https://github.com/ChunhuanLin/deform_conv_pytorch ▪ 以下のスライドはとても分かりやすくとても勉強になりました。 ✓Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution― ✓ https://www.slideshare.net/YosukeShinya/active-convolution-deformable-convolution-convolution
  19. 19 Demo