Slide 1

Slide 1 text

http://deeplearning.jp/ Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet 2019/07/12 Tomoki Tanimura, B4, Jin Nakazawa Lab, Keio University

Slide 2

Slide 2 text

書誌情報 § ICLR2019 § 著者: Wieland Brendel and Matthias Bethge § 所属: Eberhard Karls University of Tubingen, Germany § Bethge Lab: http://bethgelab.org/ § 同じくICLR2019に投稿されたBethge Labからの論⽂

Slide 3

Slide 3 text

概要 § BagNetを提案 § 画像の局所的な特徴に基づいて画像分類を⾏う § Bag-of-Features + DNN § 予測精度を⾼いまま保ちつつ,結果の解釈が容易に⾏える § 既存のSoTA DNN達 § BoF ベースの古典的⼿法 vs DNN -> 精度的にはDNNの圧勝 § 獲得している特徴量や分類の仕⽅はBoFベースの⼿法と変わらない § 局所的な特徴をベースとして判断していることを実験的に⽰した

Slide 4

Slide 4 text

BoF (Bag-of-Features) § 画像の局所特徴量(SIFTやSURF等)を基にした特徴ベクトル § 画像データセットから特徴ベクトルを抽出 § 特徴ベクトルをクラスタリング § クラスタ中⼼をVisual wordsとして定義 § 分類対象の画像Aから特徴ベクトルを抽出 § 特徴ベクトルをVisual wordsに対応づけ § Visual wordsの出現頻度が画像AのBoF

Slide 5

Slide 5 text

DNN § 画像を⾮線形に変換していき特徴を抽出→そのままクラスの確率を推定 § BackPropによって変換のパラメータを学習していく VGG

Slide 6

Slide 6 text

BagNets § BoFの局所特徴量に基づく分類とDNNを組み合わせた § BagNetsの構造 § 画像をq x qのパッチに分割 § 各パッチからResBlockベースのモデルで 特徴ベクトルを抽出 § 特徴ベクトルを線形分類器でクラス分類 § 全パッチにおけるクラスの予測結果を合計 § もっとも多いクラス => 画像のクラス § 画像パッチごとの寄与を⾒れる § 解釈可能性の向上

Slide 7

Slide 7 text

背景 § DNNにおける解釈性の⽋如 § ⼊⼒値や中間層の特徴量に複雑な依存関係が存在するため,最終的な結果に対する要因を⼈間 が解釈することは容易ではない § 精度を保ったまま解釈性を向上させたい § BoFの局所特徴を利⽤した線形分類をDNNに導⼊することによって,解釈性を向上させられる § DNNの振る舞いの分析 § BoFベースの⼿法とDNNsとの類似性を⾒ることで,DNNsの振る舞いに感して知⾒を得ること ができるのではないか

Slide 8

Slide 8 text

Experiment § Accuracy & Runtime § BagNetsの精度と実⾏速度について,DNNsと⽐較する § Explaining Decisions § BagNetsの分類結果の解釈 § BagNetsを利⽤したDNNsの分析

Slide 9

Slide 9 text

Accuracy & Runtime § 精度⽐較 § 17 x 17 pixels patch : 80.5% - AlexNetと同等 § 33 x 33 pixels patch : 87.6% - VGG-16に匹敵 § 実⾏速度⽐較 § 画像サイズ : 224 x 224 x 3 § BagNets : 155 images/s § ResNet-50 : 570 images/s Patch size

Slide 10

Slide 10 text

Explaining Decisions § ヒートマップの可視化 § 影響が⼤きい画像パッチの可視化 § 誤分類された画像とヒートマップの可視化 § BagNetsとDNNsの分類の仕⽅の⽐較

Slide 11

Slide 11 text

Explaining Decisions § BagNetsのヒートマップの可視化 § 影響が⼤きい画像パッチの可視化 § 誤分類された画像とヒートマップの可視化 § BagNetsとDNNsの分類の仕⽅の⽐較

Slide 12

Slide 12 text

BagNetsのヒートマップの可視化 § パッチごとの分類結果を利⽤して,ヒートマップを作成 § 画像のどの部分がpredictionの際に,影響を及ぼしているのか § 特にオブジェクトの形に注⽬している § ハロウィンのかぼちゃ: ⽬の周りを⾒ている § ⿅: Backgroundには⼀切注⽬しておらず,⿅そのものを⾒ている § ⼈間の知覚と近い箇所に注⽬している?

Slide 13

Slide 13 text

Explaining Decisions § BagNetsのヒートマップの可視化 § 影響が⼤きい画像パッチの可視化 § 誤分類された画像とヒートマップの可視化 § BagNetsとDNNsの分類の仕⽅の⽐較

Slide 14

Slide 14 text

重要な画像パッチの可視化 § クラス決定に⼤きな影響を及ぼしている画像Patchを可視化 § 「⿂のクラスに指」,「phoneにキーボードのキー」など,意味的には不適切に⾒える § データセットのバイアスでは? 上段: 画像とパッチの クラスが同じ 下段: 画像とパッチの クラスが違う

Slide 15

Slide 15 text

Explaining Decisions § BagNetsのヒートマップの可視化 § 影響が⼤きい画像パッチの可視化 § 誤分類された画像とヒートマップの可視化 § BagNetsとDNNsの分類の仕⽅の⽐較

Slide 16

Slide 16 text

誤分類された画像の分析 § パッチだけから分類していることを考慮すると, 合理的な分類結果 § 明らかな間違いをしているというよりは, 画像全体における物体の関係性を学習しないと 正しく識別することが難しい画像が多い § 例 § 指ぬきとガスマスク(2列⽬) § ミニスカートと本のジャケット(3列⽬)

Slide 17

Slide 17 text

Explaining Decisions § BagNetsのヒートマップの可視化 § 影響が⼤きい画像パッチの可視化 § 誤分類された画像とヒートマップの可視化 § BagNetsとDNNsの分類の仕⽅の⽐較

Slide 18

Slide 18 text

BagNetsとDNNsの分類⽅法の⽐較 § Activation mapの相関関係 § パッチシャッフルによる影響 § 画像の⼀部をマスクすることによる影響 § 各クラスの正解率の関係性 § 影響が⼤きいパッチをマスクすることによる精度劣化の検証

Slide 19

Slide 19 text

BagNetsとDNNsの分類⽅法の⽐較 § Activation mapの相関関係 § パッチシャッフルによる影響 § 画像の⼀部をマスクすることによる影響 § 各クラスの正解率の関係性 § 影響が⼤きいパッチをマスクすることによる精度劣化の検証

Slide 20

Slide 20 text

Activation mapの相関関係 § VGGとBagNetsのactivationの相関関係 § 当然ながらPatch sizeと相関は⽐例 § 33 x 33 pixelで0.88 § VGGとBagNetsは同じような画像特徴に 対して反応している

Slide 21

Slide 21 text

BagNetsとDNNsの分類⽅法の⽐較 § Activation mapの相関関係 § パッチシャッフルによる影響 § 画像の⼀部をマスクすることによる影響 § 各クラスの正解率の関係性 § 影響が⼤きいパッチをマスクすることによる精度劣化の検証

Slide 22

Slide 22 text

パッチシャッフルによる影響 § 画像のパッチをシャッフルした時の精度への影響 § パッチシャッフル § BagNetsの予測において,パッチシャッフルは影響なし § DNNsでは影響がるが,Gram Matrixを利⽤したtexture synthesis (Style loss)はパッチシャッフルに近い § Style LossによるTexture synthesis § 右の画像 § オブジェクトの形状がわからないような画像 § ⼈間は分類困難,VGGは分類可能 § VGGはオブジェクトの形状などの広域な特徴を学 習していない

Slide 23

Slide 23 text

BagNetsとDNNsの分類⽅法の⽐較 § Activation mapの相関関係 § パッチシャッフルによる影響 § 画像の⼀部をマスクすることによる影響 § 各クラスの正解率の関係性 § 影響が⼤きいパッチをマスクすることによる精度劣化の検証

Slide 24

Slide 24 text

画像の⼀部をマスクすることによる精度への影響 § ⼀つづつマスクした際のクラス確率の減少の合計値と全てマスクした際のクラス 確率の減少を⾒る § 複数のマスク粒度で実験 § 相関⾼いと § マスクの取り⽅に影響を受けない § BagNetsの振る舞いと近い § ⼤域的な特徴を⾒ていない § 結果 § 当然ながらBagNetsの相関 ≒ 1 § VGGもかなり相関が⾼い § ResNetとかDenseNetとか深い層の ネットワークの場合は⽐較的相関が低い

Slide 25

Slide 25 text

BagNetsとDNNsの分類⽅法の⽐較 § Activation mapの相関関係 § パッチシャッフルによる影響 § 画像の⼀部をマスクすることによる影響 § 各クラスの正解率の関係性 § 影響が⼤きいパッチをマスクすることによる精度劣化の検証

Slide 26

Slide 26 text

ネットワークにおける各クラスの正答率の関係性 § BagNetsとDNNsにおける各クラスの識別精度の相関関係について可視化 § VGGとBagNetsの相関はかなり⾼い § ResNetなどの深い層のDNNsとBagNetsとの相関は⽐較的低い § これらの深い層のDNNsたちはより⼤域的な特徴を⾒ている可能性が⾼い

Slide 27

Slide 27 text

BagNetsとDNNsの分類⽅法の⽐較 § Activation mapの相関関係 § パッチシャッフルによる影響 § 画像の⼀部をマスクすることによる影響 § 各クラスの正解率の関係性 § 影響が⼤きいパッチをマスクすることによる精度劣化の検証

Slide 28

Slide 28 text

重要パッチをマスクすることによる影響 § BagNetsとDNNsが⾒ている箇所が類似しているかを検証 § 検証⽅法 § BagNetsにおいて影響が⼤きいパッチをマスクした時の精度への影響を検証 § 影響の⼤きいパッチを⾒るける⽅法として,saliency mapなどを作成する⼿法などとも⽐較 § 結果 § BagNetsによって推定されたパッチをマスクするのが最も精度を低下させた § ResNetなどの深いモデルに⽐べて,VGGでは著しく精度劣化した グレーはwhite-box

Slide 29

Slide 29 text

考察① § 解釈性の⾼いDNN,BagNetsを提案 § 複雑なImageNet分類に対して,空間情報をなしで局所的な特徴量だけからでも,DNNに匹敵す る精度で分類可能であることを⽰した § 精度が少し落ちても解釈性が重視されるタスクには有⽤(医療分野とか) § BoFにDNNを導⼊することで,弱い統計的規則性まで⾒つけることができ,精度が向上 § DNNsとBanNetsとの関係性 § それぞれの分類⽅法や獲得していると思われる特徴量には相関がある § 特にVGGには強い相関があるが,ResNetなどのDeeperなものは相関が低い

Slide 30

Slide 30 text

考察② § DNNsの分析 § SytleLossがうまくいかないのはVGGはTextureなどのLocalな特徴を⾒ている⼀⽅で,ResNet などのDeepなモデルは⽐較的,広域な特徴を獲得しているためかもしれない § 基本的には,DNNも局所的な特徴に頼っているので,リアル画像から漫画などドメインが変化 した時に対応できないのではないか § 局所的な特徴だけでは解けないタスクが必要 § BagNetsはそれに対して,Lower boundを提供できる § ⾼度な画像中のオブジェクトの対応関係など,より広域で複雑な画像特徴を学習できるモデル が必要になる

Slide 31

Slide 31 text

まとめ § 解釈性に優れたDNNモデル,BagNetsを提案 § BagNetsが既存のDNNsに匹敵する精度をImageNet分類で達成 § BagNetsを利⽤して,既存のDNNsの振る舞いを分析 § 特にVGGでは,局所的な特徴に頼って分類していることがわかった