[Journal club] Do Transformers Really Perform Bad for Graph Representation?

Slide 1

Slide 1 presenter notes

和田唯我 / Yuiga Wada

Slide 1 text

Do Transformers Really Perform Bad for Graph Representation? Chengxuan Ying1 , Tianle Cai2 , Shengjie Luo3 , Shuxin Zheng4 , Guolin Ke4 , Di He4 , Yanming Shen1, Tie-Yan Liu4 (1Dalian University of Technology, 2Princeton University, 3Peking University 4Microsoft Research Asia) 慶應義塾⼤学杉浦孔明研究室 B4 和⽥唯我 Chengxuan Ying et al. , “Do transformers really perform badly for graph representation?”, in NeurIPS (2021) NeurIPS 2021

Slide 2

Slide 2 text

概要 2 ü 背景 • Transformer構造がグラフの学習に適しているかどうかは未だ不明 ü 提案⼿法 • Transformerをベースとしたグラフ学習⼿法 Graphormerを提案 ü 結果 • GNNベースの⼿法やGraph Transformerを超える性能を達成

Slide 3

Slide 3 text

背景・関連研究: Transformerがグラフの学習に適しているかどうかは未だ不明 3 • Transformer [Vaswani+ NeurIPS17] ベースのグラフ学習⼿法は存在するが, いずれもGNNの⽂脈で研究されてきた ⇒ Transformer構造がグラフの学習に適しているかどうかは未だ不明ベース既存⼿法 GNN • GCN[Kipf+, ICLR17] • GIN[Ying+, NeurIPS18] Transformer • Graph Transformer [Dwivedi+, AAAI21] Graph Transformer [Dwivedi+, AAAI21]

Slide 4

Slide 4 text

提案⼿法: Graphormer 4 o Transformerをベースとしたグラフ学習⼿法 • ⼊⼒: ノードに対応する特徴量 • グラフ構造を扱えるようにAttention機構を変更 o 新規性 ① Centrality Encoding ② Spatial Encoding ③ Edge Encoding ② ③

Slide 5

Slide 5 text

① Centrality Encoding: ⼊次数と出次数を埋め込む 5 • ノードの次数は重要な特徴量となり得る • 例: SNSでのフォロー・フォロワー数 → ノードの影響⼒や重要度に直結 • ノード 𝑣! の特徴量 𝑥! について, 以下のように 𝑥! ⟼ ℎ! (#) を定義 • は学習可能パラメタであり, Centralityの埋め込みを⾏うノード 𝑣! の⼊次数ノード 𝑣! の出次数

Slide 6

Slide 6 text

① Centrality Encoding: 次数埋め込み後, ℎ ! (#)を算出 6 1. ノード 𝑣! の特徴量 𝑥! について, 𝑥! ⟼ ℎ! (#) を計算 2. ℎ! (&'()から ℎ! (&)を算出 (Graphormer Layers) ノード 𝑣! の⼊次数ノード 𝑣! の出次数

Slide 7

Slide 7 text

② Spatial Encoding: Attentionに位置埋め込みを追加 7 • Transformerの強さは受容野の広さだが, 位置関係の埋め込みが必要 • 系列データならばPositional Encoding(PE)で⼗分だが, グラフ上の位置関係の埋め込みにPEは不適切 • 提案⼿法: Spatial Encoding • ノード間の距離を表す写像 𝜙 𝑣!, 𝑣) : 𝑉 × 𝑉 → ℝ を⽤いて, Attentionに以下の項を追加

Slide 8

Slide 8 text

② Spatial Encoding: SPDによりAttentionを調整可能に 8 • 提案⼿法: Spatial Encoding • 写像 𝜙 𝑣!, 𝑣) : 𝑉 × 𝑉 → ℝ として本論⽂ではSPD(最短経路距離)を採⽤ • 隣接ノードのみを⾒るGNNよりも広い受容野を獲得可 (AGGREGATE) • 𝑏* (𝑣! , 𝑣) )は学習可能パラメタであり, 𝑏* によりAttentionを SPDで調整できる • 例えば𝜙(⋅)に対して 𝑏* が単調減少ならば, より隣接周囲へとAttentionが強く掛かるようになる

Slide 9

Slide 9 text

② Spatial Encoding: SPDを採⽤する妥当性 9 • 写像 𝜙 𝑣!, 𝑣) : 𝑉 × 𝑉 → ℝ としてSPD(最短経路距離)を採⽤することで, 1-WL-testで同型識別できないグラフを識別可能 → SPDによりMessage Passing型の古典的なGNNよりも強⼒な表現⼒を獲得可能 ⇒ 写像 𝜙 𝑣! , 𝑣) にSPDを採⽤する妥当性が確認できる互いに同型でないグラフ (1-WL-testで識別不可)

Slide 10

Slide 10 text

③ Edge Encoding: エッジの特徴量をAttentionに埋め込む 10 • エッジの情報 𝑒 ∈ 𝓔 も重要な特徴量なので, 埋め込む必要がある • 例: 分⼦構造の解析ではエッジに結合情報が存在 • 提案⼿法: Edge Encoding • 最短経路の特徴量𝑥+! の加重和𝑐!) をAttentionに追加 𝑤" # ∈ ℝ$! → n番⽬のEmbedding

Slide 11

Slide 11 text

[VNode] トークン: 超頂点VNodeをvirtualに追加 11 • ⼊⼒の先頭に特殊な[VNode]トークンを追加 • BERT [Devlin+, NAACL19] における[CLS]トークンと同様の仕組み • 最終層でグラフ全体の特徴量として取り出される • グラフ上では, 全てのノードとSPD=1で繋がる超頂点VNodeを成す • ただし, 実際にノードを追加するわけではない (=virtualに接続される) ⇒ Virtualに接続されているかどうかを区別するため, 𝑏* VNode , 𝑣! は他の𝑏* と独⽴した学習可能パラメタとする

Slide 12

Slide 12 text

GraphormerはGCNやGINといったGNN⼿法を表現可能 12 • ⼀般的なGNNの学習スキーム (GCN[Kipf+, ICLR17], GIN[Ying+, NeurIPS18]) • MEAN AGGREGATEの表現 • 𝜙 = 1 ⇒ 𝑏* = 1 , 𝜙 ≠ 1 ⇒ 𝑏* = −∞ • 𝑊/ = 𝑊0 = 0 , 𝑊1 = 𝐼 • 上のように設定すれば, 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝐴 𝑉 は隣接ノードの平均を表現 • 同様に, 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝐴 𝑉 に次数を掛ければ SUM AGGREGATEを表現できる

Slide 13

Slide 13 text

GraphormerはGCNやGINといったGNN⼿法を表現可能 13 • ⼀般的なGNNの学習スキーム • COMBINEの表現 • 前述のAGGREGATE近似に加えて, • 𝜙 = 0 ⇒ 𝑏* = 0 , 𝜙 ≠ 0 ⇒ 𝑏* = −∞ • 𝑊/ = 𝑊0 = 0 , 𝑊1 = 𝐼 • 上のように設定すれば, Transformer内のFFNにおいて, 普遍近似定理より任意のCOMBINEを表現可能

Slide 14

Slide 14 text

定量的結果: GNN系⼿法および既存⼿法を上回る結果を記録 14 • データセット: PCQM4M-LSC (分⼦の量⼦特性を予測するタスク) → GNN系⼿法およびGraph Transformerを上回る結果を記録 Graph Transformer [Dwivedi+, AAAI21]

Slide 15

Slide 15 text

Ablation: Centrality Encoding, Spatial Encoding, Edge Encoding は全て有効 15 • Laplacian PE: PEとしてラプラシアン⾏列 𝐿 の固有ベクトルを使⽤ (𝐿 の固有値は周波数的側⾯を持つ. Graph Transformerで導⼊された機構) ⇒ Centrality Encoding, Spatial Encoding, Edge Encoding は全て有効

Slide 16

Slide 16 text

まとめ 16 ü 背景 • Transformer構造がグラフの学習に適しているかどうかは未だ不明 ü 提案⼿法 • Transformerをベースとしたグラフ学習⼿法 Graphormerを提案 ü 結果 • GNNベースの⼿法やGraph Transformerを超える性能を達成