Graph-Based Global Reasoning Networks

by kiyo

Slide 1

Slide 1 text

Graph-Based Global Reasoning Networks [Chen et al. CVPR 2019] #6【画像処理 & 機械学習】論文LT会 2019年8月2日

Slide 2

Slide 2 text

自己紹介 2 @hrs1985 https://qiita.com/hrs1985 https://kiyo.qrunch.io/ 機械学習エンジニアをしています。最近転職して 7月から東京で働いてます。前々職では実験生物学やってました。 ● 深層生成モデル ● 強化学習 ● 画像処理に興味があります。最近はグラフも面白そうだなと思っています。

Slide 3

Slide 3 text

論文の概要 ▪ 大域的な特徴を用いた推論のために coordinate space をinteraction space (graph) に落とし込んでグラフ畳み込みを行い、それを元の coordinate space に戻すアプローチ ▪ 特徴マップから物体同士の関係をグラフに変換してグラフ畳み込みを行う Global Reasoning unit (GloRe unit) を提案 ▪ 画像分類、セグメンテーション、video action recognition タスクに適用したら SOTA 3

Slide 4

Slide 4 text

CNN の問題点 4 局所的な特徴しか取れないため、大域的な特徴をとるために畳み込み層がたくさん必要になる。例えば 3x3 カーネルの畳み込み層を用いた場合、オレンジの物体と青の物体の情報が 1 つのノードに集約されるまでには 2 つの層が必要となる 1 回目の畳み込みで集約される範囲 2 回目の畳み込みで集約される範囲

Slide 5

Slide 5 text

5 各物体をグラフの各ノードに集約したうえでグラフ畳み込みを適用すれば少ない層で大域的な特徴をとれる GCN Coordinate Space Interaction Space 特徴マップ➡グラフ

Slide 6

Slide 6 text

6 GCN ? Coordinate Space Interaction Space 特徴マップ➡グラフ

Slide 7

Slide 7 text

Global Reasoning unit (GloRe) 7

Slide 8

Slide 8 text

Global Reasoning unit (GloRe) 8 Coordinate → Interaction Interaction → Coordinate Graph Convolution

Slide 9

Slide 9 text

Coordinate Space ➡ Interaction Space 9 x1, x2, x3,...,xj v1, v2, v3,...,vi B: Coordinate Space の各点 xj と Interaction Space のノード vi を対応付ける projection map

Slide 10

Slide 10 text

Global Reasoning unit (GloRe) 10 Coordinate → Interaction Interaction → Coordinate Graph Convolution

Slide 11

Slide 11 text

Graph Convolution 11 グラフ畳み込みは、 1. 隣接ノードへの情報の拡散 2. 各ノードについての情報の更新の 2 ステップからなる

Slide 12

Slide 12 text

Graph Convolution 12 完全グラフならば、 1. 各チャンネルについてのノード方向の 1 次元畳み込み 2. 各ノードについてのチャンネル方向の 1 次元畳み込みの 2 ステップで Graph Convolution Network を構成できる

Slide 13

Slide 13 text

Global Reasoning unit (GloRe) 13 Coordinate → Interaction Interaction → Coordinate Graph Convolution

Slide 14

Slide 14 text

Interaction Space ➡ Coordinate Space 14 x1, x2, x3,...,xj v1, v2, v3,...,vi Interaction Space から Coordinate Space への逆変換さきほど Interaction Space への変換に使った B を転置して再利用

Slide 15

Slide 15 text

Experiments 15 ImageNet の Top-1 Accuracy を比較。 ResNet-50 の 3 ブロック目ないし 4 ブロック目に GloRe unit 導入で精度向上 (灰色) 4 ブロック目の GloRe unit 数を増やしていくと精度向上 (緑色)

Slide 16

Slide 16 text

Experiments 16 FCN に GloRe unit を導入すると mIoU が向上 GloRe unit を 2 つ入れたら逆効果？

Slide 17

Slide 17 text

Experiments 17 GloRe unit ありなしでのセグメンテーション結果

Slide 18

Slide 18 text

Experiments 18 GloRe unit ありなしでのセグメンテーション結果

Slide 19

Slide 19 text

Experiments 19 2 枚の猫画像に対する projection map (B) を可視化した図左から「猫のヒゲ」「エッジ」「目」「画像全体」に反応している (と著者は言っている )

Slide 20

Slide 20 text

関連文献 20 ● Wang, Xiaolong, et al. "Non-local neural networks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. ● Hu, Jie, Li Shen, and Gang Sun. "Squeeze-and-excitation networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. 謝辞この資料の7割くらいは先週行われたもくもく会で作られました。