Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
Objects as Pointsを読む[LT資料]
Masa
July 23, 2019
Science
0
100
Objects as Pointsを読む[LT資料]
論文 Objects as Points のLT資料
元論文"Objects as Points"
https://arxiv.org/abs/1904.07850
Masa
July 23, 2019
Tweet
Share
More Decks by Masa
See All by Masa
Quick introduction to CounterFactual Regression (CFR)
masa_asa
0
520
[blog用] Comparison of Estimation Methods in Causal Inference
masa_asa
0
72
DMLDiD
masa_asa
0
610
Pythonで学ぶSynthetic Difference in Differences
masa_asa
0
1.7k
[勉強会資料メモ] Double/Debiased ML
masa_asa
0
740
勢いで作った息抜き読書メモ
masa_asa
0
320
勉強会準備資料備忘:causal forest & r-learner
masa_asa
5
4.3k
LT資料_非技術系の推薦図書読書会
masa_asa
0
310
LT資料_knowledge ~蒸留・モデル圧縮・そしてKT~
masa_asa
1
750
Other Decks in Science
See All in Science
Cross-Media Information Spaces and Architectures (CISA)
signer
PRO
3
16k
OCaml 5.0
kayceesrk
2
610
Retrofitting Concurrency -- Lessons from the engine room
kayceesrk
1
1.5k
GEOLOGI DAN STUDI HIDROGEOLOGI DAERAH RENDE DAN SEKITARNYA, KABUPATEN BANDUNG BARAT, PROVINSI JAWA BARAT
dasaptaerwin
0
130
Presenting Effectively with Data (in a Hurry)
thomaselove
1
130
DoWhyとEconMLによる因果推論の実装
s1ok69oo
1
1.3k
論文紹介: "Webformer: Pre-training with Web Pages for Information Retrieval(SIGIR2022)"
keyakkie
2
170
ベイズ統計学入門 〜頻度主義からベイズ主義へ〜
ueniki
3
2.3k
機械学習を用いた効果検証~回帰分析とT-Learner~
s1ok69oo
1
330
深センにしかないものと日本にしかないものを組み合わせて、世界の問題を解いていく
takasumasakazu
0
190
ベイズの定理を感じよう〜ベイズ主義入門〜
ueniki
1
410
古典的な時系列解析フレームワークの理論とその実装 / theory-and-implementation-of-classical-time-series-analysis-frameworks
saburoku
0
110
Featured
See All Featured
Documentation Writing (for coders)
carmenintech
51
2.9k
Happy Clients
brianwarren
90
5.8k
The World Runs on Bad Software
bkeepers
PRO
59
5.7k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
13
5.4k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
29
8k
Learning to Love Humans: Emotional Interface Design
aarron
263
38k
Adopting Sorbet at Scale
ufuk
65
7.8k
Six Lessons from altMBA
skipperchong
15
2.3k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
152
13k
Atom: Resistance is Futile
akmur
256
24k
How New CSS Is Changing Everything About Graphic Design on the Web
jensimmons
214
12k
It's Worth the Effort
3n
177
26k
Transcript
Objects as Points 2019/7/20 LT資料 Twitter @asas_mimi 1
本日の論文 はこれ 論文 “Objects as Points” https://arxiv.org/pdf/1904.07850.pdf 2
超概要 ▪ CenterNetを提唱 ▪ 既存の物体検知モデルより、非常にシンプルな手法を 提案(NMSも込み:後述) ▪ オブジェクトの中心をヒートマップで推定して、サイズやオ フセット(ズレ)を直接回帰する手法(後述) ▪
YOlOv3等よりも速く、かつ精度の良い1stageモデル (後述)ができた ▪ 姿勢推定や3D検出モデルにも応用可能 ▪ 余談 ▪ 2018年に発表されたCornerNetを先に読んどくと理 解が超楽かも ▪ 1日違い(2019/4/17)に発表されたCenterNetとは 別物(こっちはまだ読んでない) 3
1 stage vs. 2 stage Faster R-CNN: Towards Real-Time Object
Detection with Region Proposal Networks https://arxiv.org/pdf/1506.01497.pdf 物体っぽいところ (領域)を識別 中身を識別 You Only Look Once: Unified, Real-Time Object Detection https://arxiv.org/pdf/1506.02640.pdf 1 stage モデル 2 stage モデル • 物体の領域とその中身をまとめて推定(sliding window) • (基本的に)精度は右より劣るけど、速い! • 物体の領域を調べてから、そこの中身を推定 • (基本的に)精度は左より優れてるけど、遅い! 例:YOlOのloss関数 中心座標とサイズについての誤差 ボックスの信用度評価項 ボックスの不信用度評価項 セルのクラス分類 位置と内容は一緒に! 4
CenterNetは 1 stage モデル ▪ CenterNetは、、、 ▪ 1 stageモデルなので速い ▪
1 stageモデルなのに精度(AP)が高い 速いのに、正確! エリートモデル! 5
CenterNetは NMS いらない ▪ CenterNetは 後処理:非極大抑制 non-maximal suppression (NMS)不要 You
only look once https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/content/single-shot-detectors/yolo.html 一つのオブジェクトに対して、 候補領域が複数でる IoUを計算して、閾値 を設定して抑制 既存のモデルは、、、、 後処理としてNMS 6
CenterNetを一枚で概説 ▪ CenterNetはオブジェクトの中心(一点)を推定 ▪ 他の特性(サイズ、3D、方向性、姿勢)は中心座標から直接回帰(後述)すればいい 7
中心を推定 ▪ インプット画像 I ∈ RW×H×3 ▪ アウトプット ∈
[0,1]W/R×H/R×C ,where R is the output stride and C is the number of keypoint types. 例えば、姿勢推定であればC=17 Rは出力予測をダウンサンプリングしている。本論文のデフォルトR = 4 , , =1 は検出されたキーポイントに対応、0は背景 ▪ 教師データ 教師データ 低解像度における教師データ ガウス分布で表現 8
中心を推定 損失関数 ▪ penalty-reduced pixel-wise logistic regression with focal loss
普通の交差エントロピー誤差関数 に変なのついてる!! 9
focal loss ? ▪ FAIR(Facebook AI Research) が書いた下の論文 (ICCV 2017
に採択) “Focal Loss for Dense Object Detection” https://arxiv.org/abs/1708.02002 ✓ 画像は、ほとんどが背景の不均衡データ ✓ クロスエントロピー(CE)の場合、 0.6 といった 十分に分類できている probability を出力し たとしても、損失は結構残る ✓ 無数にある背景を全て識別できていたとしても、 損失が積み上がり肝心のオブジェクトの損失が 薄まってしまう ✓ Easy samplesの損失は小さくしちゃう工夫 = focal loss 上記論文より 10
中心を推定 損失関数 (再掲) ▪ penalty-reduced pixel-wise logistic regression with focal
loss 分かりやすい部分の Loss貢献を小さくする ハイパーパラメータ CornerNet(2018)と一緒 11
オフセットを推定 損失関数 ▪ 出力画像はダウンサンプリングRで低解像度画像になっている。 ▪ ダウンサンプリングによる補正項(オフセット項)も推定しなければいけない。 ▪ 損失関数は以下の通り、L1 lossで表現する。 推定すべきoffset
実際のズレ 12
サイズを推定 損失関数 ▪ オブジェクトのサイズを直接推定する ▪ 損失関数は以下の通り、L1 lossで表現する。 13 推定するサイズ
本モデルの損失関数とチャネル数 14 メイン 本モデルの損失関数 (物体検知の場合)C + 4 (offset2 + size2)
最後の仕上げ 15 中心 ズレ補正 サイズ ▪ 既存のモデルのような後処理(NMS)は不要 =シンプルで速い! ▪ 他の用途にも簡単に応用可能
色々な応用が可能 16 ▪ 3D物体検知や姿勢推定にも応用可能 構造がシンプルだから、応用も簡単だね! 詳細は論文読んでね
Backbornネットワーク 17 ▪ 論文中で検証しているBackbornネットワークは以下の通り Hourglass-104 DLA-34 ResNet-101
ResNet-18 精度良い 推定速度良い 下二つは、deformable convolution layers を使用 論文“Deformable Convolutional Networks”より https://arxiv.org/pdf/1703.06211.pdf ◆ deformable convolution layers?? ✓ 画像中に映っている物体の特性に合わせて、receptive fields が可変 ✓ 詳細は論文“Deformable Convolutional Networks”(2017)をご参照 https://arxiv.org/pdf/1703.06211.pdf 精度とスピードは トレードオフだね
(ご参考)deformable convolution layers 18 ▪ 本編から逸れますが、deformable convolution は(恥ずかしながら)初見でした ▪ 論文以外に読んだものは以下:
▪ 下記のPyTorchの実装例 ✓PyTorch Implementation of Deformable Convolution ✓https://github.com/ChunhuanLin/deform_conv_pytorch ▪ 以下のスライドはとても分かりやすくとても勉強になりました。 ✓Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution― ✓ https://www.slideshare.net/YosukeShinya/active-convolution-deformable-convolution-convolution
19 Demo