Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20161203_cvsaisentan_ECCV2016
Search
ohtysk
December 03, 2016
0
580
20161203_cvsaisentan_ECCV2016
Superpixel Convolutional Netrowks using Bilateral Inceptions
ohtysk
December 03, 2016
Tweet
Share
More Decks by ohtysk
See All by ohtysk
20170408_cvsaisentan_39_ohtysk
ohtysk
0
1k
学習済み Caffe モデルを移植してみた
ohtysk
1
65k
Featured
See All Featured
Debugging Ruby Performance
tmm1
69
11k
Building Better People: How to give real-time feedback that sticks.
wjessup
353
18k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
185
16k
Git: the NoSQL Database
bkeepers
PRO
421
63k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
272
13k
The Cost Of JavaScript in 2023
addyosmani
13
3.8k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
39
4.4k
Designing with Data
zakiwarfel
95
4.8k
The Mythical Team-Month
searls
214
42k
What’s in a name? Adding method to the madness
productmarketing
PRO
15
2.6k
The Pragmatic Product Professional
lauravandoore
24
5.8k
A Tale of Four Properties
chriscoyier
150
22k
Transcript
第37回 コンピュータビジョン勉強会@関東 ECCV2016読み会 Superpixel Convolutional Networks using Bilateral Inceptions https://arxiv.org/abs/1511.06739
2016/12/3 @ohtysk 1
自己紹介 • @ohtysk on Twitter • 専攻 数学 整数論 •
仕事 某メーカ R&D いろいろやっていて最近はDNN • Webアプリ、Windows/Linux デバイスドライバ、スマフォアプリ、マイコン • VR系、画像処理(メイン) • オフ もくもく会主催(常に会場募集中)、横浜Go読書会 • #cvsaisentan 1年前くらいから参加 今回初発表 • よろしくお願いします 2
内容 • 論文「Superpixel Convolutional Networks using Bilateral Inceptions」 • タスク
• セマンティックセグメンテーション • 手法の特徴 • slicなどのsuperpixel手法と組み合わせる • Bilateral Inception(提案)で離れた点の情報反映 • 結果 • 識別性能は state of the art の手法と同等かそれ以上 • 速度は state of the art より早い 3
おさらい1 semantic segmentationとは http://www.slideshare.net/nlab_utokyo/deep-learning-49182466 4
おさらい2 bilateral filter(画像処理)とは • Gaussian filter • ガウス分布に従い重みを付けて周辺画素を畳み込むことで平滑化 • 近い画素ほど重みが大きい
• 欠点 画像のエッジや段差が目立たなくなる • Bilateral filter • Gaussian filter の改良 • 畳み込みの係数を距離の近さと輝度の近さ両方で決定 • エッジや段差を保存したまま平滑化できる 5 Bilateral filter の定義 この係数がないとGaussian http://imagingsolution.net/imaging/bilateralfilter/ http://imagingsolution.blog107.fc2.com/blog-entry-88.html
おさらい3 Superpixelとは • 画像の画素の塊による分割 • 応用:後段の処理を簡略化 • 一般に似た輝度、近い画素でグルーピングする • 2012
SLIC が速度、精度、取り扱いのしやすさでメリット • k-mean法を応用した高速な処理 • パラメータで分割数が指定できる • GPUで250Hz達成 • 本手法では SLIC を採用 6 http://ivrlwww.epfl.ch/supplementary_material/RK_SLICSuperpixels/
おさらい4 Inception とは https://haduonght.wordpress.com/2015/03/08/crest%E3%82%B7%E3%83%B3%E3%83%9D%E3%82%B8%E3%82%A6%E3%83%A02014%E3%80%81%E3%80%8C%E6%A9%9F%E6%A2%B0%E7%9F%A5%E8%83%BD%E3%81%A8%E3%83%93%E3%83%83 %E3%82%B0%E3%83%87%E3%83%BC%E3%82%BF%E3%80%8D%E3%81%AB/ 7 • 例GoogLe Net (2014)。複数のネットで一個のモジュール構成。
• サイズの異なるネット並列でロバスト性向上
背景 • semantic segmentation 従来手法 • Fully Convolutional Network[FCN] ->遠い画素の関連なし
• CNNの後段にCRF[DenseCRF]->処理が重い 8 一般に近い画素や 似た輝度の画素は 「同じラベル」がつきやす いはず 画素単位で計算するので 処理が重い
提案 • CNNベースのsemantic segmentation • CRF(Conditional Random Field)ベースにしたbilateral inception層で 距離の近い画素や輝度の近い画素は同じラベルがつきやすくする
• Superpixel を利用することで計算量を減らす • やろうと思えばsuperpixelを画素まで小さくできる • 最終FC層以外の層にも挿入する • End to endのトレーニング可能 9
手法 モデル全体像 • CNNの全結合層の後にBilateral Inception層を入れる • BI層イメージ PxC次元データ -> BI層
-> QxC次元データ(P<Q or P=Q or P>Q) • superpixel から superpixel に変換(↓P=4, Q=9のイメージ) 10
手法 Bilateral Inception 層 • Bilateral Inception 層は後述の Bilateral Filtering
の重み付き平均 11 PxC次元 QxC次元
手法 superpixel の同士の類似度計算 • Superpixel 特徴量 • 入力側 F_{in}={…,f_{i},…} ,但しP=#F_{in}
• f_{i}=[u,v,r,g,b], 但し (u,v) = f_{i}の重心座標、(r,g,b)=f_{i}の平均輝度 • 出力側 F_{out}={…,f_{j},…}, 但しQ=#F_{out} • f_{j}も入力側と同様 12 入力画像 SLICでP=4分割 SLICでQ=9分割 F_{in} F_{out} 重心・平均輝度算出 重心・平均輝度算出 D_{I,j}=|Λ・f_{i}-Λ・f_{j}| 9x4次元 4x5次元 9x5次元 Λ 5x5次元 superpixel間の 類似度を並べた行列 superpixel同士の 位置が近いほど高い 輝度が近いほど高い 本論文における 類似度計算例
手法 Bilateral Filtering • 下図の行列Kを作って積を計算 • 行列K_{i,j}は前項のD_{i,j}を正規化したもの 13 • これにより特徴量をsuperpixel間で類似度高いもの同士で強く影響して伝播
• Bilateral filter 的な効果を有する P次元 Q次元 PxC次元 QxC次元
手法 学習 • 学習パラメータ • w,{θ},Λ • ハイパーパラメータ • C,P,Q,H
• 最適化手法 • adam 14
実験1 superpixel分割数 15 分割数多いほうがよい。以後1000分割で進む
実験2 Pascal VOC12 dataset 2012 16 SLIC superpixel 1000分割。それぞれ元になるモデルから拡張して比較。 括弧内はカーネル数。下添え字は一個前のFC層の番号
クラス数20 長辺500pix 画像約1万枚 セグメント約7千 IoU,Runtimeともに提案優位
実験3 MNIC dataset 17 accuracy,Runtimeともに提案優位 (accuracyを使ってるのは元論文にあわせてる?) クラス数23 1100x1100pix 画像枚数? SLIC
superpixel 1000分割。それぞれ元になるモデルから拡張して比較。 括弧内はカーネル数。下添え字は一個前のFC層の番号
実験4 Cityspaces dataset 18 クラス数19 1024x2048pix 画像約5千枚 IoU,Runtimeともに提案優位 (画像が大きくなるとRuntimeの差が小さくなる??) SLIC
superpixel 1000分割。それぞれ元になるモデルから拡張して比較。 括弧内はカーネル数。下添え字は一個前のFC層の番号
まとめ • CNNベースの semantic segmentation 手法を提案 • Superpixelで計算量減少。 • タスクに直結した中間データにbilateral
inceptionを行うことで精度向上 • End to end の学習可能 • 実験で精度と速度でstate of the art に勝ることを実証 19