Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20161203_cvsaisentan_ECCV2016

ohtysk
December 03, 2016
580

 20161203_cvsaisentan_ECCV2016

Superpixel Convolutional Netrowks using Bilateral Inceptions

ohtysk

December 03, 2016
Tweet

Transcript

  1. 自己紹介 • @ohtysk on Twitter • 専攻 数学 整数論 •

    仕事 某メーカ R&D いろいろやっていて最近はDNN • Webアプリ、Windows/Linux デバイスドライバ、スマフォアプリ、マイコン • VR系、画像処理(メイン) • オフ もくもく会主催(常に会場募集中)、横浜Go読書会 • #cvsaisentan 1年前くらいから参加 今回初発表 • よろしくお願いします 2
  2. 内容 • 論文「Superpixel Convolutional Networks using Bilateral Inceptions」 • タスク

    • セマンティックセグメンテーション • 手法の特徴 • slicなどのsuperpixel手法と組み合わせる • Bilateral Inception(提案)で離れた点の情報反映 • 結果 • 識別性能は state of the art の手法と同等かそれ以上 • 速度は state of the art より早い 3
  3. おさらい2 bilateral filter(画像処理)とは • Gaussian filter • ガウス分布に従い重みを付けて周辺画素を畳み込むことで平滑化 • 近い画素ほど重みが大きい

    • 欠点 画像のエッジや段差が目立たなくなる • Bilateral filter • Gaussian filter の改良 • 畳み込みの係数を距離の近さと輝度の近さ両方で決定 • エッジや段差を保存したまま平滑化できる 5 Bilateral filter の定義 この係数がないとGaussian http://imagingsolution.net/imaging/bilateralfilter/ http://imagingsolution.blog107.fc2.com/blog-entry-88.html
  4. おさらい3 Superpixelとは • 画像の画素の塊による分割 • 応用:後段の処理を簡略化 • 一般に似た輝度、近い画素でグルーピングする • 2012

    SLIC が速度、精度、取り扱いのしやすさでメリット • k-mean法を応用した高速な処理 • パラメータで分割数が指定できる • GPUで250Hz達成 • 本手法では SLIC を採用 6 http://ivrlwww.epfl.ch/supplementary_material/RK_SLICSuperpixels/
  5. 背景 • semantic segmentation 従来手法 • Fully Convolutional Network[FCN] ->遠い画素の関連なし

    • CNNの後段にCRF[DenseCRF]->処理が重い 8 一般に近い画素や 似た輝度の画素は 「同じラベル」がつきやす いはず 画素単位で計算するので 処理が重い
  6. 提案 • CNNベースのsemantic segmentation • CRF(Conditional Random Field)ベースにしたbilateral inception層で 距離の近い画素や輝度の近い画素は同じラベルがつきやすくする

    • Superpixel を利用することで計算量を減らす • やろうと思えばsuperpixelを画素まで小さくできる • 最終FC層以外の層にも挿入する • End to endのトレーニング可能 9
  7. 手法 モデル全体像 • CNNの全結合層の後にBilateral Inception層を入れる • BI層イメージ PxC次元データ -> BI層

    -> QxC次元データ(P<Q or P=Q or P>Q) • superpixel から superpixel に変換(↓P=4, Q=9のイメージ) 10
  8. 手法 superpixel の同士の類似度計算 • Superpixel 特徴量 • 入力側 F_{in}={…,f_{i},…} ,但しP=#F_{in}

    • f_{i}=[u,v,r,g,b], 但し (u,v) = f_{i}の重心座標、(r,g,b)=f_{i}の平均輝度 • 出力側 F_{out}={…,f_{j},…}, 但しQ=#F_{out} • f_{j}も入力側と同様 12 入力画像 SLICでP=4分割 SLICでQ=9分割 F_{in} F_{out} 重心・平均輝度算出 重心・平均輝度算出 D_{I,j}=|Λ・f_{i}-Λ・f_{j}| 9x4次元 4x5次元 9x5次元 Λ 5x5次元 superpixel間の 類似度を並べた行列 superpixel同士の 位置が近いほど高い 輝度が近いほど高い 本論文における 類似度計算例
  9. 実験3 MNIC dataset 17 accuracy,Runtimeともに提案優位 (accuracyを使ってるのは元論文にあわせてる?) クラス数23 1100x1100pix 画像枚数? SLIC

    superpixel 1000分割。それぞれ元になるモデルから拡張して比較。 括弧内はカーネル数。下添え字は一個前のFC層の番号
  10. 実験4 Cityspaces dataset 18 クラス数19 1024x2048pix 画像約5千枚 IoU,Runtimeともに提案優位 (画像が大きくなるとRuntimeの差が小さくなる??) SLIC

    superpixel 1000分割。それぞれ元になるモデルから拡張して比較。 括弧内はカーネル数。下添え字は一個前のFC層の番号
  11. まとめ • CNNベースの semantic segmentation 手法を提案 • Superpixelで計算量減少。 • タスクに直結した中間データにbilateral

    inceptionを行うことで精度向上 • End to end の学習可能 • 実験で精度と速度でstate of the art に勝ることを実証 19