[Journal club] Graph Attention Networks

Petar Veličković(University of Cambridge), Guillem Cucurull(Centre de Visio per Computador),
Arantxa Casanova(Centre de Visio per Computador), Adriana Romero(Montreal Institute for Learning Algorithms), Pietro Liò(University of Cambridge), Yoshua Bengio(Montreal Institute for Learning Algorithms) Graph Attention Networks Veličković, Petar, et al. "Graph attention networks." ICLR 2018. 慶應義塾大学杉浦孔明研究室畑中駿平

3 • GNN において Edge の情報を Attention の重みとして表現しノードを更新する手法 Graph Attention
Network ( GAT ) の提案 − 並列化処理が可能となり，Edge を含む計算速度の低下を防止 − Node 間の重要度を変えられることによる解釈性の向上が期待 − 既存手法よりも高いスコアを獲得概要 1. GNN とは・GNNの歴史 2. GNN の処理内容について (Message Passing Neural Network ) 3. GAT の新規性

4 • CNN は画像分類・Semantic Segmentation・機械翻訳などのタスクに幅広く適応 − これらのデータは Grid 構造としてのデータ表現
• Grid 構造として扱うことができないデータ − 例：交通網・Social Network − Node・Edge 数は一定ではない − グラフとしてデータ表現を獲得する必要 → GNN の登場背景：Grid 構造では扱えない問題をグラフとして扱う

5 Graph ML のタスクとして主に3つ Graph focus Node focus Edge focus
化合物の安全予測所属チームの予測リンク予測

6 GNN の歴史：2005年に登場・2018年は大きく発展 [1] Gori+, 2005 [2] Li+, 2016 [3]
Bruna+, 2014 [4] Defferrard+, 2016 [5] Kipf+, 2017 [6] Gilmer+, 2017 [7] Monti+, 2017 [8] Hamilton+, 2017 Graph Neural Network [1] 2005 2014 Spectral network [3] 2016 ChebNets [4] Graph Convolution Network [5] 2017 2016 Gated Graph Neural Network [2] Neural Message Passing [6] 2017 MoNet [7] 2018 Graph Attention Network Graph SAGE [8] Spectral Spatial

7 GNN の歴史：GNN の登場 ( 2005年 ) [1] Gori+, 2005
[2] Li+, 2016 [3] Bruna+, 2014 [4] Defferrard+, 2016 [5] Kipf+, 2017 [6] Gilmer+, 2017 [7] Monti+, 2017 [8] Hamilton+, 2017 Graph Neural Network [1] 2005 2014 Spectral network [3] 2016 ChebNets [4] Graph Convolution Network [5] 2017 2016 Gated Graph Neural Network [2] Neural Message Passing [6] 2017 MoNet [7] 2018 Graph Attention Network Graph SAGE [8] Spectral Spatial Graph Neural Network ( Gori+ 2005 ) • 各ノードの更新には自身と隣接ノードを使用 • グラフをニューラルネットワークとして扱う

8 GNN の歴史：Graph に CNN を導入 ( 2017年 ) [1]
Gori+, 2005 [2] Li+, 2016 [3] Bruna+, 2014 [4] Defferrard+, 2016 [5] Kipf+, 2017 [6] Gilmer+, 2017 [7] Monti+, 2017 [8] Hamilton+, 2017 Graph Neural Network [1] 2005 2014 Spectral network [3] 2016 ChebNets [4] Graph Convolution Network [5] 2017 2016 Gated Graph Neural Network [2] Neural Message Passing [6] 2017 MoNet [7] 2018 Graph Attention Network Graph SAGE [8] Spectral Spatial Graph Convolution Network [ Kipf+, 2017 ]

9 GNN の歴史：Message Passing フレームワーク ( 2017年 ) [1] Gori+,
2005 [2] Li+, 2016 [3] Bruna+, 2014 [4] Defferrard+, 2016 [5] Kipf+, 2017 [6] Gilmer+, 2017 [7] Monti+, 2017 [8] Hamilton+, 2017 Graph Neural Network [1] 2005 2014 Spectral network [3] 2016 ChebNets [4] Graph Convolution Network [5] 2017 2016 Gated Graph Neural Network [2] Neural Message Passing [6] 2017 MoNet [7] 2018 Graph Attention Network Graph SAGE [8] Spectral Spatial Neural Message Passing (Gilmer+, 2017 ) • Message Passing というフレームワークで計算の高速化と汎用性を両立 − MPNN − Message：特徴量変換 − Passing：頂点更新 • 以降の GNN のフレームワークとして確立

10 MPNNの処理 ( 1/4 )：更新の全体像 ( AGGREGATE・UPDATE ) 3 2
1 5 4 𝒙𝟏 𝒙𝟐 𝒙𝟑 … 𝒙𝟏 𝒙𝟐 𝒙𝟑 … 𝒙𝟏 𝒙𝟐 𝒙𝟑 … 𝒙𝟏 𝒙𝟐 𝒙𝟑 … 𝒙𝟏 𝒙𝟐 𝒙𝟑 … 3 2 1 5 4 𝒙𝟏 𝒙𝟐 𝒙𝟑 … 𝒙𝟏 𝒙𝟐 𝒙𝟑 … 𝒙𝟏 𝒙𝟐 𝒙𝟑 … 𝒙𝟏 𝒙𝟐 𝒙𝟑 … 𝒙𝟏 𝒙𝟐 𝒙𝟑 … 𝒙𝟏 𝒙𝟐 𝒙𝟑 … ℎ1 𝑡 𝒙𝟏 𝒙𝟐 𝒙𝟑 … 𝒙𝟏 𝒙𝟐 𝒙𝟑 … 𝒙𝟏 𝒙𝟐 𝒙𝟑 … 𝒙𝟏 𝒙𝟐 𝒙𝟑 … 𝐴𝐺𝐺𝑅𝐸𝐺𝐴𝑇𝐸 𝑈𝑃𝐷𝐴𝑇𝐸 ℎ2 𝑡 ℎ3 𝑡 ℎ4 𝑡 ℎ1 𝑡+1

11 • A set of node features：𝐡 = ℎ1 ,
ℎ2 , … , ℎ𝑁 , ℎ𝑖 ∈ ℝ𝐹 • A new set of node features：𝐡′ = ℎ1 ′, ℎ2 ′, … , ℎ𝑁 ′ , ℎ𝑖 ∈ ℝ𝐹′ • 隣接行列は自己 Loop を含むものとする MPNNの処理 ( 2/4 )：グラフの初期設定 1 1 1 1 0 1 1 1 0 0 1 1 1 0 0 1 0 0 1 1 0 0 0 1 1 ℎ1 ℎ5 … Features per node 𝐡 隣接行列 (adjacency matrix ) [5,4] [5,5] 3 2 1 5 4

12 • 学習可能な重み行列 ( 𝑤𝑒𝑖𝑔ℎ𝑡 𝑚𝑎𝑡𝑟𝑖𝑥 ) 𝐖 ∈ ℝ𝐹×𝐹′
• 重み行列 𝐖 をℎ𝑖 と掛け合わせる (ℎ𝑖 ∗ = 𝐖ℎ𝑖 ) MPNNの処理 ( 3/4 )：重み行列と掛け合わせる Features per node 𝐡∗ [5,6] ℎ1 ∗ ℎ5 ∗ … ℎ1 ℎ5 … Features per node 𝐡 [5,4]

13 • 隣接行列からとなりあう Node の特徴量 ℎ𝑗 ∗ = 𝐖ℎ𝑗 を加算して
node を更新する • すべての Node に対して同様の更新を行い，中間層の node 特徴量を得る MPNNの処理 ( 4/4 )：ノードの特徴量の更新 ( ℎ1 の場合) Features per node 𝐡∗ [5,6] ℎ1 ∗ ℎ5 ∗ … ℎ𝑖 ′ = σ ෍ 𝑗∈𝑁(𝑖) ℎ𝑗 ∗ = σ ෍ 𝑗∈𝑁(𝑖) 𝐖ℎ𝑗 Features per node 𝐡∗ [5,6] ℎ1 ′ ℎ5 ′ …

14 • 先ほどの Node の更新式 ℎ𝑖 ′ = σ σ
𝑗∈𝑁(𝑖) ℎ𝑗 ∗ = σ σ 𝑗∈𝑁(𝑖) 𝐖ℎ𝑗 は Edge の重みが 1 • Attention の要領で Edge に重みをつけて Node を更新 − 並列処理が可能 − Node 間の重要度を変えられることによる解釈性の向上が期待 GAT の概要：Edge に重みをつける

15 𝑒𝑖𝑗 = 𝑎 𝐖ℎ𝑖 , 𝐖ℎ𝑗 , Attention 係数
𝑎：ℝ𝐹′ × ℝ𝐹′ → ℝ GAT の手法 ( 1/3 )：𝑒𝑖𝑗 の計算 3 2 1 5 4 𝒆𝟏𝟐 𝒆𝟏𝟑 𝒆𝟏𝟒 The children play in the park.

16 𝑒𝑖𝑗 を正規化： α𝑖𝑗 = softmax 𝑒𝑖𝑗 = exp(𝑒𝑖𝑗) σ
𝑘∈𝑁(𝑖) exp(𝑒𝑖𝑘) − 𝑎 は 1層の Feedforward Neural Network ( 重みベクトル 𝒂 ∈ ℝ2𝐹′ )と LeakyReLU からなる α𝑖𝑗 = exp LeakyReLU 𝐚𝑇 𝐖ℎ𝑖 ||𝐖ℎ𝑗 σ 𝑘∈𝑁(𝑖) exp LeakyReLU 𝐚𝑇 𝐖ℎ𝑖 ||𝐖ℎ𝑘 GAT の手法 ( 2/3 )： α𝑖𝑗 の計算 𝑒𝑖𝑗 = 𝑎 𝐖ℎ𝑖 , 𝐖ℎ𝑗

17 • α𝑖𝑗 を用いて ℎ𝑖 ′ を計算する • 上式を Multi-Head-Attention
に拡張 − 𝐾 は head 数 − 最終層のみ平均をとる GAT の手法 ( 3/3 )： ℎ𝑖 ′ の計算

18 • Transductive タスク：「既知だがラベルが未知のノード」についてラベルを予測する − 「既知」とは，学習データ中にノードがあること • Inductive タスク：「未知のノード」に対してラベルを予測する −
ノードはすでにグラフ内に追加されたとして，周辺ノードを得ることが可能 − Inductive タスクのほうが汎用性能が求められる実験：3種類の Transductive と1種類の Inductive で実験

19 • Transductive タスクの評価尺度：クラス分類の正解率 • Inductive タスクの評価尺度：すべてのクラスにおける F値の平均結果：いずれのタスクで最も高い精度を獲得
特にInductive で大きな効果

20 • GNN において Edge の情報を Attention の重みとして表現しノードを更新する手法 Graph Attention
Network ( GAT ) の提案 − 並列化処理が可能となり，Edge を含む計算速度の低下を防止 − Node 間の重要度を変えられることによる解釈性の向上が期待 − 既存手法よりも高いスコアを獲得まとめ

[Journal club] Graph Attention Networks

[Journal club] Graph Attention Networks

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

Petar Veličković(University of Cambridge), Guillem Cucurull(Centre de Visio per Computador),

3 • GNN において Edge の情報を Attention の重みとして表現しノードを更新する手法 Graph Attention

4 • CNN は画像分類・Semantic Segmentation・機械翻訳などのタスクに幅広く適応 − これらのデータは Grid 構造としてのデータ表現

5 Graph ML のタスクとして主に3つ Graph focus Node focus Edge focus

6 GNN の歴史：2005年に登場・2018年は大きく発展 [1] Gori+, 2005 [2] Li+, 2016 [3]

7 GNN の歴史：GNN の登場 ( 2005年 ) [1] Gori+, 2005

8 GNN の歴史：Graph に CNN を導入 ( 2017年 ) [1]

9 GNN の歴史：Message Passing フレームワーク ( 2017年 ) [1] Gori+,

10 MPNNの処理 ( 1/4 )：更新の全体像 ( AGGREGATE・UPDATE ) 3 2

11 • A set of node features：𝐡 = ℎ1 ,

12 • 学習可能な重み行列 ( 𝑤𝑒𝑖𝑔ℎ𝑡 𝑚𝑎𝑡𝑟𝑖𝑥 ) 𝐖 ∈ ℝ𝐹×𝐹′

13 • 隣接行列からとなりあう Node の特徴量 ℎ𝑗 ∗ = 𝐖ℎ𝑗 を加算して

14 • 先ほどの Node の更新式 ℎ𝑖 ′ = σ σ

15 𝑒𝑖𝑗 = 𝑎 𝐖ℎ𝑖 , 𝐖ℎ𝑗 , Attention 係数

16 𝑒𝑖𝑗 を正規化： α𝑖𝑗 = softmax 𝑒𝑖𝑗 = exp(𝑒𝑖𝑗) σ

17 • α𝑖𝑗 を用いて ℎ𝑖 ′ を計算する • 上式を Multi-Head-Attention

18 • Transductive タスク：「既知だがラベルが未知のノード」についてラベルを予測する − 「既知」とは，学習データ中にノードがあること • Inductive タスク：「未知のノード」に対してラベルを予測する −

19 • Transductive タスクの評価尺度：クラス分類の正解率 • Inductive タスクの評価尺度：すべてのクラスにおける F値の平均結果：いずれのタスクで最も高い精度を獲得

20 • GNN において Edge の情報を Attention の重みとして表現しノードを更新する手法 Graph Attention