Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20161203_cvsaisentan_ECCV2016
Search
ohtysk
December 03, 2016
0
610
20161203_cvsaisentan_ECCV2016
Superpixel Convolutional Netrowks using Bilateral Inceptions
ohtysk
December 03, 2016
Tweet
Share
More Decks by ohtysk
See All by ohtysk
20170408_cvsaisentan_39_ohtysk
ohtysk
0
1.2k
学習済み Caffe モデルを移植してみた
ohtysk
1
65k
Featured
See All Featured
Making the Leap to Tech Lead
cromwellryan
134
9.4k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.7k
A Tale of Four Properties
chriscoyier
160
23k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.3k
The Straight Up "How To Draw Better" Workshop
denniskardys
235
140k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.9k
The Cost Of JavaScript in 2023
addyosmani
51
8.5k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.4k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
22k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
181
54k
Transcript
第37回 コンピュータビジョン勉強会@関東 ECCV2016読み会 Superpixel Convolutional Networks using Bilateral Inceptions https://arxiv.org/abs/1511.06739
2016/12/3 @ohtysk 1
自己紹介 • @ohtysk on Twitter • 専攻 数学 整数論 •
仕事 某メーカ R&D いろいろやっていて最近はDNN • Webアプリ、Windows/Linux デバイスドライバ、スマフォアプリ、マイコン • VR系、画像処理(メイン) • オフ もくもく会主催(常に会場募集中)、横浜Go読書会 • #cvsaisentan 1年前くらいから参加 今回初発表 • よろしくお願いします 2
内容 • 論文「Superpixel Convolutional Networks using Bilateral Inceptions」 • タスク
• セマンティックセグメンテーション • 手法の特徴 • slicなどのsuperpixel手法と組み合わせる • Bilateral Inception(提案)で離れた点の情報反映 • 結果 • 識別性能は state of the art の手法と同等かそれ以上 • 速度は state of the art より早い 3
おさらい1 semantic segmentationとは http://www.slideshare.net/nlab_utokyo/deep-learning-49182466 4
おさらい2 bilateral filter(画像処理)とは • Gaussian filter • ガウス分布に従い重みを付けて周辺画素を畳み込むことで平滑化 • 近い画素ほど重みが大きい
• 欠点 画像のエッジや段差が目立たなくなる • Bilateral filter • Gaussian filter の改良 • 畳み込みの係数を距離の近さと輝度の近さ両方で決定 • エッジや段差を保存したまま平滑化できる 5 Bilateral filter の定義 この係数がないとGaussian http://imagingsolution.net/imaging/bilateralfilter/ http://imagingsolution.blog107.fc2.com/blog-entry-88.html
おさらい3 Superpixelとは • 画像の画素の塊による分割 • 応用:後段の処理を簡略化 • 一般に似た輝度、近い画素でグルーピングする • 2012
SLIC が速度、精度、取り扱いのしやすさでメリット • k-mean法を応用した高速な処理 • パラメータで分割数が指定できる • GPUで250Hz達成 • 本手法では SLIC を採用 6 http://ivrlwww.epfl.ch/supplementary_material/RK_SLICSuperpixels/
おさらい4 Inception とは https://haduonght.wordpress.com/2015/03/08/crest%E3%82%B7%E3%83%B3%E3%83%9D%E3%82%B8%E3%82%A6%E3%83%A02014%E3%80%81%E3%80%8C%E6%A9%9F%E6%A2%B0%E7%9F%A5%E8%83%BD%E3%81%A8%E3%83%93%E3%83%83 %E3%82%B0%E3%83%87%E3%83%BC%E3%82%BF%E3%80%8D%E3%81%AB/ 7 • 例GoogLe Net (2014)。複数のネットで一個のモジュール構成。
• サイズの異なるネット並列でロバスト性向上
背景 • semantic segmentation 従来手法 • Fully Convolutional Network[FCN] ->遠い画素の関連なし
• CNNの後段にCRF[DenseCRF]->処理が重い 8 一般に近い画素や 似た輝度の画素は 「同じラベル」がつきやす いはず 画素単位で計算するので 処理が重い
提案 • CNNベースのsemantic segmentation • CRF(Conditional Random Field)ベースにしたbilateral inception層で 距離の近い画素や輝度の近い画素は同じラベルがつきやすくする
• Superpixel を利用することで計算量を減らす • やろうと思えばsuperpixelを画素まで小さくできる • 最終FC層以外の層にも挿入する • End to endのトレーニング可能 9
手法 モデル全体像 • CNNの全結合層の後にBilateral Inception層を入れる • BI層イメージ PxC次元データ -> BI層
-> QxC次元データ(P<Q or P=Q or P>Q) • superpixel から superpixel に変換(↓P=4, Q=9のイメージ) 10
手法 Bilateral Inception 層 • Bilateral Inception 層は後述の Bilateral Filtering
の重み付き平均 11 PxC次元 QxC次元
手法 superpixel の同士の類似度計算 • Superpixel 特徴量 • 入力側 F_{in}={…,f_{i},…} ,但しP=#F_{in}
• f_{i}=[u,v,r,g,b], 但し (u,v) = f_{i}の重心座標、(r,g,b)=f_{i}の平均輝度 • 出力側 F_{out}={…,f_{j},…}, 但しQ=#F_{out} • f_{j}も入力側と同様 12 入力画像 SLICでP=4分割 SLICでQ=9分割 F_{in} F_{out} 重心・平均輝度算出 重心・平均輝度算出 D_{I,j}=|Λ・f_{i}-Λ・f_{j}| 9x4次元 4x5次元 9x5次元 Λ 5x5次元 superpixel間の 類似度を並べた行列 superpixel同士の 位置が近いほど高い 輝度が近いほど高い 本論文における 類似度計算例
手法 Bilateral Filtering • 下図の行列Kを作って積を計算 • 行列K_{i,j}は前項のD_{i,j}を正規化したもの 13 • これにより特徴量をsuperpixel間で類似度高いもの同士で強く影響して伝播
• Bilateral filter 的な効果を有する P次元 Q次元 PxC次元 QxC次元
手法 学習 • 学習パラメータ • w,{θ},Λ • ハイパーパラメータ • C,P,Q,H
• 最適化手法 • adam 14
実験1 superpixel分割数 15 分割数多いほうがよい。以後1000分割で進む
実験2 Pascal VOC12 dataset 2012 16 SLIC superpixel 1000分割。それぞれ元になるモデルから拡張して比較。 括弧内はカーネル数。下添え字は一個前のFC層の番号
クラス数20 長辺500pix 画像約1万枚 セグメント約7千 IoU,Runtimeともに提案優位
実験3 MNIC dataset 17 accuracy,Runtimeともに提案優位 (accuracyを使ってるのは元論文にあわせてる?) クラス数23 1100x1100pix 画像枚数? SLIC
superpixel 1000分割。それぞれ元になるモデルから拡張して比較。 括弧内はカーネル数。下添え字は一個前のFC層の番号
実験4 Cityspaces dataset 18 クラス数19 1024x2048pix 画像約5千枚 IoU,Runtimeともに提案優位 (画像が大きくなるとRuntimeの差が小さくなる??) SLIC
superpixel 1000分割。それぞれ元になるモデルから拡張して比較。 括弧内はカーネル数。下添え字は一個前のFC層の番号
まとめ • CNNベースの semantic segmentation 手法を提案 • Superpixelで計算量減少。 • タスクに直結した中間データにbilateral
inceptionを行うことで精度向上 • End to end の学習可能 • 実験で精度と速度でstate of the art に勝ることを実証 19