Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
Objects as Pointsを読む[LT資料]
Masa
July 23, 2019
Science
0
88
Objects as Pointsを読む[LT資料]
論文 Objects as Points のLT資料
元論文"Objects as Points"
https://arxiv.org/abs/1904.07850
Masa
July 23, 2019
Tweet
Share
More Decks by Masa
See All by Masa
Quick introduction to CounterFactual Regression (CFR)
masa_asa
0
240
[blog用] Comparison of Estimation Methods in Causal Inference
masa_asa
0
21
DMLDiD
masa_asa
0
310
Pythonで学ぶSynthetic Difference in Differences
masa_asa
0
1k
[勉強会資料メモ] Double/Debiased ML
masa_asa
0
280
勢いで作った息抜き読書メモ
masa_asa
0
290
勉強会準備資料備忘:causal forest & r-learner
masa_asa
5
3.6k
LT資料_非技術系の推薦図書読書会
masa_asa
0
290
LT資料_knowledge ~蒸留・モデル圧縮・そしてKT~
masa_asa
0
610
Other Decks in Science
See All in Science
OpenFAOM_pisoFoamによる2次元円柱周りの解析
kamakiri1225
0
730
20220220_球体周りの流れ抗力係数4_simpleFoamで球体周りの定常流れ
kamakiri1225
0
270
ROS再入門 -Lidarセンサーを触ってみた-
miura55
0
280
LiNGAM Pythonパッケージでできること
sshimizu2006
1
1.5k
Bibliométrie & science ouverte
mlarrieu
0
490
データでスポーツを楽しもう! / Enjoy sports with data! (2021-11-30)
konakalab
0
140
回転座標系での古典場の方程式について。微分形式からの導出
deepflow
0
110
20220121_バスケットボール周りの流れ
kamakiri1225
0
290
Information law about COVID-19
yoshimine77
0
150
Kaggle Feedback Prizeコンペ 反省会
shimacos
4
1.6k
A Fresh Look at Genomics Data: Grammar-Based Visualization
ngehlenborg
0
110
Vaccine Information
yoshimine77
0
120
Featured
See All Featured
Six Lessons from altMBA
skipperchong
14
1.4k
Art Directing for the Web. Five minutes with CSS Template Areas
malarkey
196
9.5k
Creatively Recalculating Your Daily Design Routine
revolveconf
207
10k
Visualization
eitanlees
125
12k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
119
28k
Large-scale JavaScript Application Architecture
addyosmani
499
110k
Build The Right Thing And Hit Your Dates
maggiecrowley
19
1.2k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
237
19k
Building a Scalable Design System with Sketch
lauravandoore
448
30k
Teambox: Starting and Learning
jrom
123
7.7k
Building Your Own Lightsaber
phodgson
95
4.7k
Embracing the Ebb and Flow
colly
73
3.4k
Transcript
Objects as Points 2019/7/20 LT資料 Twitter @asas_mimi 1
本日の論文 はこれ 論文 “Objects as Points” https://arxiv.org/pdf/1904.07850.pdf 2
超概要 ▪ CenterNetを提唱 ▪ 既存の物体検知モデルより、非常にシンプルな手法を 提案(NMSも込み:後述) ▪ オブジェクトの中心をヒートマップで推定して、サイズやオ フセット(ズレ)を直接回帰する手法(後述) ▪
YOlOv3等よりも速く、かつ精度の良い1stageモデル (後述)ができた ▪ 姿勢推定や3D検出モデルにも応用可能 ▪ 余談 ▪ 2018年に発表されたCornerNetを先に読んどくと理 解が超楽かも ▪ 1日違い(2019/4/17)に発表されたCenterNetとは 別物(こっちはまだ読んでない) 3
1 stage vs. 2 stage Faster R-CNN: Towards Real-Time Object
Detection with Region Proposal Networks https://arxiv.org/pdf/1506.01497.pdf 物体っぽいところ (領域)を識別 中身を識別 You Only Look Once: Unified, Real-Time Object Detection https://arxiv.org/pdf/1506.02640.pdf 1 stage モデル 2 stage モデル • 物体の領域とその中身をまとめて推定(sliding window) • (基本的に)精度は右より劣るけど、速い! • 物体の領域を調べてから、そこの中身を推定 • (基本的に)精度は左より優れてるけど、遅い! 例:YOlOのloss関数 中心座標とサイズについての誤差 ボックスの信用度評価項 ボックスの不信用度評価項 セルのクラス分類 位置と内容は一緒に! 4
CenterNetは 1 stage モデル ▪ CenterNetは、、、 ▪ 1 stageモデルなので速い ▪
1 stageモデルなのに精度(AP)が高い 速いのに、正確! エリートモデル! 5
CenterNetは NMS いらない ▪ CenterNetは 後処理:非極大抑制 non-maximal suppression (NMS)不要 You
only look once https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/content/single-shot-detectors/yolo.html 一つのオブジェクトに対して、 候補領域が複数でる IoUを計算して、閾値 を設定して抑制 既存のモデルは、、、、 後処理としてNMS 6
CenterNetを一枚で概説 ▪ CenterNetはオブジェクトの中心(一点)を推定 ▪ 他の特性(サイズ、3D、方向性、姿勢)は中心座標から直接回帰(後述)すればいい 7
中心を推定 ▪ インプット画像 I ∈ RW×H×3 ▪ アウトプット ∈
[0,1]W/R×H/R×C ,where R is the output stride and C is the number of keypoint types. 例えば、姿勢推定であればC=17 Rは出力予測をダウンサンプリングしている。本論文のデフォルトR = 4 , , =1 は検出されたキーポイントに対応、0は背景 ▪ 教師データ 教師データ 低解像度における教師データ ガウス分布で表現 8
中心を推定 損失関数 ▪ penalty-reduced pixel-wise logistic regression with focal loss
普通の交差エントロピー誤差関数 に変なのついてる!! 9
focal loss ? ▪ FAIR(Facebook AI Research) が書いた下の論文 (ICCV 2017
に採択) “Focal Loss for Dense Object Detection” https://arxiv.org/abs/1708.02002 ✓ 画像は、ほとんどが背景の不均衡データ ✓ クロスエントロピー(CE)の場合、 0.6 といった 十分に分類できている probability を出力し たとしても、損失は結構残る ✓ 無数にある背景を全て識別できていたとしても、 損失が積み上がり肝心のオブジェクトの損失が 薄まってしまう ✓ Easy samplesの損失は小さくしちゃう工夫 = focal loss 上記論文より 10
中心を推定 損失関数 (再掲) ▪ penalty-reduced pixel-wise logistic regression with focal
loss 分かりやすい部分の Loss貢献を小さくする ハイパーパラメータ CornerNet(2018)と一緒 11
オフセットを推定 損失関数 ▪ 出力画像はダウンサンプリングRで低解像度画像になっている。 ▪ ダウンサンプリングによる補正項(オフセット項)も推定しなければいけない。 ▪ 損失関数は以下の通り、L1 lossで表現する。 推定すべきoffset
実際のズレ 12
サイズを推定 損失関数 ▪ オブジェクトのサイズを直接推定する ▪ 損失関数は以下の通り、L1 lossで表現する。 13 推定するサイズ
本モデルの損失関数とチャネル数 14 メイン 本モデルの損失関数 (物体検知の場合)C + 4 (offset2 + size2)
最後の仕上げ 15 中心 ズレ補正 サイズ ▪ 既存のモデルのような後処理(NMS)は不要 =シンプルで速い! ▪ 他の用途にも簡単に応用可能
色々な応用が可能 16 ▪ 3D物体検知や姿勢推定にも応用可能 構造がシンプルだから、応用も簡単だね! 詳細は論文読んでね
Backbornネットワーク 17 ▪ 論文中で検証しているBackbornネットワークは以下の通り Hourglass-104 DLA-34 ResNet-101
ResNet-18 精度良い 推定速度良い 下二つは、deformable convolution layers を使用 論文“Deformable Convolutional Networks”より https://arxiv.org/pdf/1703.06211.pdf ◆ deformable convolution layers?? ✓ 画像中に映っている物体の特性に合わせて、receptive fields が可変 ✓ 詳細は論文“Deformable Convolutional Networks”(2017)をご参照 https://arxiv.org/pdf/1703.06211.pdf 精度とスピードは トレードオフだね
(ご参考)deformable convolution layers 18 ▪ 本編から逸れますが、deformable convolution は(恥ずかしながら)初見でした ▪ 論文以外に読んだものは以下:
▪ 下記のPyTorchの実装例 ✓PyTorch Implementation of Deformable Convolution ✓https://github.com/ChunhuanLin/deform_conv_pytorch ▪ 以下のスライドはとても分かりやすくとても勉強になりました。 ✓Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution― ✓ https://www.slideshare.net/YosukeShinya/active-convolution-deformable-convolution-convolution
19 Demo