20161203_cvsaisentan_ECCV2016

第37回コンピュータビジョン勉強会＠関東 ECCV2016読み会 Superpixel Convolutional Networks using Bilateral Inceptions https://arxiv.org/abs/1511.06739
2016/12/3 @ohtysk 1

自己紹介 • @ohtysk on Twitter • 専攻数学整数論 •
仕事某メーカ R&D いろいろやっていて最近はDNN • Webアプリ、Windows/Linux デバイスドライバ、スマフォアプリ、マイコン • VR系、画像処理（メイン） • オフもくもく会主催（常に会場募集中）、横浜Go読書会 • #cvsaisentan 1年前くらいから参加今回初発表 • よろしくお願いします 2

内容 • 論文「Superpixel Convolutional Networks using Bilateral Inceptions」 • タスク
• セマンティックセグメンテーション • 手法の特徴 • slicなどのsuperpixel手法と組み合わせる • Bilateral Inception（提案）で離れた点の情報反映 • 結果 • 識別性能は state of the art の手法と同等かそれ以上 • 速度は state of the art より早い 3

おさらい１ semantic segmentationとは http://www.slideshare.net/nlab_utokyo/deep-learning-49182466 4

おさらい２ bilateral filter(画像処理)とは • Gaussian filter • ガウス分布に従い重みを付けて周辺画素を畳み込むことで平滑化 • 近い画素ほど重みが大きい
• 欠点画像のエッジや段差が目立たなくなる • Bilateral filter • Gaussian filter の改良 • 畳み込みの係数を距離の近さと輝度の近さ両方で決定 • エッジや段差を保存したまま平滑化できる 5 Bilateral filter の定義この係数がないとGaussian http://imagingsolution.net/imaging/bilateralfilter/ http://imagingsolution.blog107.fc2.com/blog-entry-88.html

おさらい３ Superpixelとは • 画像の画素の塊による分割 • 応用：後段の処理を簡略化 • 一般に似た輝度、近い画素でグルーピングする • 2012
SLIC が速度、精度、取り扱いのしやすさでメリット • k-mean法を応用した高速な処理 • パラメータで分割数が指定できる • GPUで250Hz達成 • 本手法では SLIC を採用 6 http://ivrlwww.epfl.ch/supplementary_material/RK_SLICSuperpixels/

おさらい４ Inception とは https://haduonght.wordpress.com/2015/03/08/crest%E3%82%B7%E3%83%B3%E3%83%9D%E3%82%B8%E3%82%A6%E3%83%A02014%E3%80%81%E3%80%8C%E6%A9%9F%E6%A2%B0%E7%9F%A5%E8%83%BD%E3%81%A8%E3%83%93%E3%83%83 %E3%82%B0%E3%83%87%E3%83%BC%E3%82%BF%E3%80%8D%E3%81%AB/ 7 • 例GoogLe Net (2014)。複数のネットで一個のモジュール構成。
• サイズの異なるネット並列でロバスト性向上

背景 • semantic segmentation 従来手法 • Fully Convolutional Network[FCN] ->遠い画素の関連なし
• CNNの後段にCRF[DenseCRF]->処理が重い 8 一般に近い画素や似た輝度の画素は「同じラベル」がつきやすいはず画素単位で計算するので処理が重い

提案 • CNNベースのsemantic segmentation • CRF（Conditional Random Field）ベースにしたbilateral inception層で距離の近い画素や輝度の近い画素は同じラベルがつきやすくする
• Superpixel を利用することで計算量を減らす • やろうと思えばsuperpixelを画素まで小さくできる • 最終FC層以外の層にも挿入する • End to endのトレーニング可能 9

手法モデル全体像 • CNNの全結合層の後にBilateral Inception層を入れる • BI層イメージ PxC次元データ -> BI層
-> QxC次元データ（P<Q or P=Q or P>Q） • superpixel から superpixel に変換（↓P=4, Q=9のイメージ） 10

手法 Bilateral Inception 層 • Bilateral Inception 層は後述の Bilateral Filtering
の重み付き平均 11 PxC次元 QxC次元

手法 superpixel の同士の類似度計算 • Superpixel 特徴量 • 入力側 F_{in}={…,f_{i},…} ,但しP=#F_{in}
• f_{i}=[u,v,r,g,b], 但し (u,v) = f_{i}の重心座標、(r,g,b)=f_{i}の平均輝度 • 出力側 F_{out}={…,f_{j},…}, 但しQ=#F_{out} • f_{j}も入力側と同様 12 入力画像 SLICでP=4分割 SLICでQ=9分割 F_{in} F_{out} 重心・平均輝度算出重心・平均輝度算出 D_{I,j}=|Λ・f_{i}-Λ・f_{j}| 9x4次元 4x5次元 9x5次元 Λ 5x5次元 superpixel間の類似度を並べた行列 superpixel同士の位置が近いほど高い輝度が近いほど高い本論文における類似度計算例

手法 Bilateral Filtering • 下図の行列Kを作って積を計算 • 行列K_{i,j}は前項のD_{i,j}を正規化したもの 13 • これにより特徴量をsuperpixel間で類似度高いもの同士で強く影響して伝播
• Bilateral filter 的な効果を有する P次元 Q次元 PxC次元 QxC次元

手法学習 • 学習パラメータ • w,{θ},Λ • ハイパーパラメータ • C,P,Q,H
• 最適化手法 • adam 14

実験１ superpixel分割数 15 分割数多いほうがよい。以後１０００分割で進む

実験２ Pascal VOC12 dataset 2012 16 SLIC superpixel 1000分割。それぞれ元になるモデルから拡張して比較。括弧内はカーネル数。下添え字は一個前のFC層の番号
クラス数20 長辺500pix 画像約1万枚セグメント約7千 IoU,Runtimeともに提案優位

実験３ MNIC dataset 17 accuracy,Runtimeともに提案優位 (accuracyを使ってるのは元論文にあわせてる？) クラス数23 1100x1100pix 画像枚数? SLIC
superpixel 1000分割。それぞれ元になるモデルから拡張して比較。括弧内はカーネル数。下添え字は一個前のFC層の番号

実験４ Cityspaces dataset 18 クラス数19 1024x2048pix 画像約5千枚 IoU,Runtimeともに提案優位（画像が大きくなるとRuntimeの差が小さくなる？？） SLIC
superpixel 1000分割。それぞれ元になるモデルから拡張して比較。括弧内はカーネル数。下添え字は一個前のFC層の番号

まとめ • CNNベースの semantic segmentation 手法を提案 • Superpixelで計算量減少。 • タスクに直結した中間データにbilateral
inceptionを行うことで精度向上 • End to end の学習可能 • 実験で精度と速度でstate of the art に勝ることを実証 19

20161203_cvsaisentan_ECCV2016

20161203_cvsaisentan_ECCV2016

ohtysk

More Decks by ohtysk

Featured

Transcript

第37回コンピュータビジョン勉強会＠関東 ECCV2016読み会 Superpixel Convolutional Networks using Bilateral Inceptions https://arxiv.org/abs/1511.06739

自己紹介 • @ohtysk on Twitter • 専攻数学整数論 •

内容 • 論文「Superpixel Convolutional Networks using Bilateral Inceptions」 • タスク

おさらい１ semantic segmentationとは http://www.slideshare.net/nlab_utokyo/deep-learning-49182466 4

おさらい２ bilateral filter(画像処理)とは • Gaussian filter • ガウス分布に従い重みを付けて周辺画素を畳み込むことで平滑化 • 近い画素ほど重みが大きい

おさらい３ Superpixelとは • 画像の画素の塊による分割 • 応用：後段の処理を簡略化 • 一般に似た輝度、近い画素でグルーピングする • 2012

背景 • semantic segmentation 従来手法 • Fully Convolutional Network[FCN] ->遠い画素の関連なし

提案 • CNNベースのsemantic segmentation • CRF（Conditional Random Field）ベースにしたbilateral inception層で距離の近い画素や輝度の近い画素は同じラベルがつきやすくする

手法モデル全体像 • CNNの全結合層の後にBilateral Inception層を入れる • BI層イメージ PxC次元データ -> BI層

手法 Bilateral Inception 層 • Bilateral Inception 層は後述の Bilateral Filtering

手法 superpixel の同士の類似度計算 • Superpixel 特徴量 • 入力側 F_{in}={…,f_{i},…} ,但しP=#F_{in}

手法 Bilateral Filtering • 下図の行列Kを作って積を計算 • 行列K_{i,j}は前項のD_{i,j}を正規化したもの 13 • これにより特徴量をsuperpixel間で類似度高いもの同士で強く影響して伝播

手法学習 • 学習パラメータ • w,{θ},Λ • ハイパーパラメータ • C,P,Q,H

実験１ superpixel分割数 15 分割数多いほうがよい。以後１０００分割で進む

実験２ Pascal VOC12 dataset 2012 16 SLIC superpixel 1000分割。それぞれ元になるモデルから拡張して比較。括弧内はカーネル数。下添え字は一個前のFC層の番号

実験３ MNIC dataset 17 accuracy,Runtimeともに提案優位 (accuracyを使ってるのは元論文にあわせてる？) クラス数23 1100x1100pix 画像枚数? SLIC

実験４ Cityspaces dataset 18 クラス数19 1024x2048pix 画像約5千枚 IoU,Runtimeともに提案優位（画像が大きくなるとRuntimeの差が小さくなる？？） SLIC

まとめ • CNNベースの semantic segmentation 手法を提案 • Superpixelで計算量減少。 • タスクに直結した中間データにbilateral