Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Visual_Enplanation

 Visual_Enplanation

Grad-CAMについて、CNNの可視化の見方から調査しました。

YutaAsupara

April 29, 2017
Tweet

More Decks by YutaAsupara

Other Decks in Technology

Transcript

  1. 2017.4.19版 XCompass Intelligence  Ltd. WBA  wakate UEC  Kuri Lab. Yuta

     Ashihara Grad-­CAM: Visual  Explanations  from  Deep   Networks  via  Gradient-­based   Localization intelligence
  2. 3 余談、笑い話 A group of researchers trained a Neural Network

    to distinguish between scenes with and without tanks. Their Neural Net achieved 100% accuracy on their held out test set. When these spectacular results were presented at a conference, a person from the audience raised a concern about the training data they collected. After further investigation it turned out that all the images with tanks were taken on a cloudy day, and all images without tanks were taken on a sunny day. So, at that time the US Government was a proud owner of a multi-billion dollar computer that could tell you whether it was cloudy or not.
  3. 16 2.  可視化のアプローチ ③逆伝播使って、CNNが使⽤用したであろう画像中の証拠を探る →先にGuided  BackPropagation(GBP)の概要について説明 •Idea:  neurons  act  like

     detectors  of  particular  image   features •We  are  only  interested  in  what  image  features  the   neuron  detects,  not  in  what  kind  of  stuff   it  doesnʼ’t  detect •So  when  propagating  the  gradient,  we  set  all  the   negative  gradients  to  0 •We  donʼ’t  care  if  a  pixel  “suppresses”  a  neuron   somewhere  along  the  part  to  our  neuron CSC321:  Intro  to  Machine  Learning  and  Neural   Networks,  Winter  2016 Michael  Guerzhoy
  4. 22 2.  可視化のアプローチ ③逆伝播使って、CNNが使⽤用したであろう画像中の証拠を探る そんなGBPの⽅方法よりも、顕著にラベル情報から復復元する CAM(Class  Activation  Mapping)が発表される GAPと呼ばれる、GoogleのNINの⼿手法内で⾏行行われた、 MAPからの局所結合を出⼒力力にする考え⽅方を応⽤用

    →特徴マップをGAPすれば、特徴マップにつき1つの素⼦子が 対応する(FC層の密な結合による情報の不不透明化を回避?) Learning Deep Features for Discriminative Localization Bolei Zhou,  Aditya  Khosla,  et  al.,  2015
  5. 23

  6. 37 2.  可視化のアプローチ まとめ ①最⾼高のラベル出⼒力力を出す画像を作る(CNNのイデア的) →鍛え上げたCNNがこのラベルを出⼒力力する時に、 ⼀一番⾒見見てる(らしい)画像を作り上げる ②中間層の中⾝身を直接⾒見見る →CNNが抽象的な部分から具体的な部分を⾒見見ているだろう という結果は観測できる

    ③逆伝播使って、CNNが使⽤用したであろう画像中の証拠を探る →これに個⼈人的には注⽬目したい 改善される⽅方法論論はいくつかあるだろうし、それをネタに 美味しい思いができるかもしれない 参考にした実装 https://github.com/Ankush96/grad-‐‑‒cam.tensorflow