[Journal club] Do Transformers Really Perform Bad for Graph Representation?

Do Transformers Really Perform Bad for Graph Representation? Chengxuan Ying1
, Tianle Cai2 , Shengjie Luo3 , Shuxin Zheng4 , Guolin Ke4 , Di He4 , Yanming Shen1, Tie-Yan Liu4 (1Dalian University of Technology, 2Princeton University, 3Peking University 4Microsoft Research Asia) 慶應義塾⼤学杉浦孔明研究室 B4 和⽥唯我 Chengxuan Ying et al. , “Do transformers really perform badly for graph representation?”, in NeurIPS (2021) NeurIPS 2021

和田唯我 / Yuiga Wada

概要 2 ü 背景 • Transformer構造がグラフの学習に適しているかどうかは未だ不明 ü 提案⼿法 • Transformerをベースとしたグラフ学習⼿法
Graphormerを提案 ü 結果 • GNNベースの⼿法やGraph Transformerを超える性能を達成

背景・関連研究: Transformerがグラフの学習に適しているかどうかは未だ不明 3 • Transformer [Vaswani+ NeurIPS17] ベースのグラフ学習⼿法は存在するが, いずれもGNNの⽂脈で研究されてきた ⇒
Transformer構造がグラフの学習に適しているかどうかは未だ不明ベース既存⼿法 GNN • GCN[Kipf+, ICLR17] • GIN[Ying+, NeurIPS18] Transformer • Graph Transformer [Dwivedi+, AAAI21] Graph Transformer [Dwivedi+, AAAI21]

提案⼿法: Graphormer 4 o Transformerをベースとしたグラフ学習⼿法 • ⼊⼒: ノードに対応する特徴量 • グラフ構造を扱えるようにAttention機構を変更
o 新規性 ① Centrality Encoding ② Spatial Encoding ③ Edge Encoding ② ③

① Centrality Encoding: ⼊次数と出次数を埋め込む 5 • ノードの次数は重要な特徴量となり得る • 例: SNSでのフォロー・フォロワー数
→ ノードの影響⼒や重要度に直結 • ノード 𝑣! の特徴量 𝑥! について, 以下のように 𝑥! ⟼ ℎ! (#) を定義 • は学習可能パラメタであり, Centralityの埋め込みを⾏うノード 𝑣! の⼊次数ノード 𝑣! の出次数

① Centrality Encoding: 次数埋め込み後, ℎ ! (#)を算出 6 1. ノード
𝑣! の特徴量 𝑥! について, 𝑥! ⟼ ℎ! (#) を計算 2. ℎ! (&'()から ℎ! (&)を算出 (Graphormer Layers) ノード 𝑣! の⼊次数ノード 𝑣! の出次数

② Spatial Encoding: Attentionに位置埋め込みを追加 7 • Transformerの強さは受容野の広さだが, 位置関係の埋め込みが必要 • 系列データならばPositional
Encoding(PE)で⼗分だが, グラフ上の位置関係の埋め込みにPEは不適切 • 提案⼿法: Spatial Encoding • ノード間の距離を表す写像 𝜙 𝑣!, 𝑣) : 𝑉 × 𝑉 → ℝ を⽤いて, Attentionに以下の項を追加

② Spatial Encoding: SPDによりAttentionを調整可能に 8 • 提案⼿法: Spatial Encoding •
写像 𝜙 𝑣!, 𝑣) : 𝑉 × 𝑉 → ℝ として本論⽂ではSPD(最短経路距離)を採⽤ • 隣接ノードのみを⾒るGNNよりも広い受容野を獲得可 (AGGREGATE) • 𝑏* (𝑣! , 𝑣) )は学習可能パラメタであり, 𝑏* によりAttentionを SPDで調整できる • 例えば𝜙(⋅)に対して 𝑏* が単調減少ならば, より隣接周囲へとAttentionが強く掛かるようになる

② Spatial Encoding: SPDを採⽤する妥当性 9 • 写像 𝜙 𝑣!, 𝑣)
: 𝑉 × 𝑉 → ℝ としてSPD(最短経路距離)を採⽤することで, 1-WL-testで同型識別できないグラフを識別可能 → SPDによりMessage Passing型の古典的なGNNよりも強⼒な表現⼒を獲得可能 ⇒ 写像 𝜙 𝑣! , 𝑣) にSPDを採⽤する妥当性が確認できる互いに同型でないグラフ (1-WL-testで識別不可)

③ Edge Encoding: エッジの特徴量をAttentionに埋め込む 10 • エッジの情報 𝑒 ∈ 𝓔
も重要な特徴量なので, 埋め込む必要がある • 例: 分⼦構造の解析ではエッジに結合情報が存在 • 提案⼿法: Edge Encoding • 最短経路の特徴量𝑥+! の加重和𝑐!) をAttentionに追加 𝑤" # ∈ ℝ$! → n番⽬のEmbedding

[VNode] トークン: 超頂点VNodeをvirtualに追加 11 • ⼊⼒の先頭に特殊な[VNode]トークンを追加 • BERT [Devlin+, NAACL19]
における[CLS]トークンと同様の仕組み • 最終層でグラフ全体の特徴量として取り出される • グラフ上では, 全てのノードとSPD=1で繋がる超頂点VNodeを成す • ただし, 実際にノードを追加するわけではない (=virtualに接続される) ⇒ Virtualに接続されているかどうかを区別するため, 𝑏* VNode , 𝑣! は他の𝑏* と独⽴した学習可能パラメタとする

GraphormerはGCNやGINといったGNN⼿法を表現可能 12 • ⼀般的なGNNの学習スキーム (GCN[Kipf+, ICLR17], GIN[Ying+, NeurIPS18]) • MEAN
AGGREGATEの表現 • 𝜙 = 1 ⇒ 𝑏* = 1 , 𝜙 ≠ 1 ⇒ 𝑏* = −∞ • 𝑊/ = 𝑊0 = 0 , 𝑊1 = 𝐼 • 上のように設定すれば, 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝐴 𝑉 は隣接ノードの平均を表現 • 同様に, 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝐴 𝑉 に次数を掛ければ SUM AGGREGATEを表現できる

GraphormerはGCNやGINといったGNN⼿法を表現可能 13 • ⼀般的なGNNの学習スキーム • COMBINEの表現 • 前述のAGGREGATE近似に加えて, • 𝜙
= 0 ⇒ 𝑏* = 0 , 𝜙 ≠ 0 ⇒ 𝑏* = −∞ • 𝑊/ = 𝑊0 = 0 , 𝑊1 = 𝐼 • 上のように設定すれば, Transformer内のFFNにおいて, 普遍近似定理より任意のCOMBINEを表現可能

定量的結果: GNN系⼿法および既存⼿法を上回る結果を記録 14 • データセット: PCQM4M-LSC (分⼦の量⼦特性を予測するタスク) → GNN系⼿法およびGraph Transformerを上回る結果を記録
Graph Transformer [Dwivedi+, AAAI21]

Ablation: Centrality Encoding, Spatial Encoding, Edge Encoding は全て有効 15 •
Laplacian PE: PEとしてラプラシアン⾏列 𝐿 の固有ベクトルを使⽤ (𝐿 の固有値は周波数的側⾯を持つ. Graph Transformerで導⼊された機構) ⇒ Centrality Encoding, Spatial Encoding, Edge Encoding は全て有効

まとめ 16 ü 背景 • Transformer構造がグラフの学習に適しているかどうかは未だ不明 ü 提案⼿法 • Transformerをベースとしたグラフ学習⼿法
Graphormerを提案 ü 結果 • GNNベースの⼿法やGraph Transformerを超える性能を達成

Appendix: MAX AGGREGATEの表現 17

Appendix: 1-WL-testとSPD 18

[Journal club] Do Transformers Really Perform B...

[Journal club] Do Transformers Really Perform Bad for Graph Representation?

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

Do Transformers Really Perform Bad for Graph Representation? Chengxuan Ying1

概要 2 ü 背景 • Transformer構造がグラフの学習に適しているかどうかは未だ不明 ü 提案⼿法 • Transformerをベースとしたグラフ学習⼿法

背景・関連研究: Transformerがグラフの学習に適しているかどうかは未だ不明 3 • Transformer [Vaswani+ NeurIPS17] ベースのグラフ学習⼿法は存在するが, いずれもGNNの⽂脈で研究されてきた ⇒

提案⼿法: Graphormer 4 o Transformerをベースとしたグラフ学習⼿法 • ⼊⼒: ノードに対応する特徴量 • グラフ構造を扱えるようにAttention機構を変更

① Centrality Encoding: ⼊次数と出次数を埋め込む 5 • ノードの次数は重要な特徴量となり得る • 例: SNSでのフォロー・フォロワー数

① Centrality Encoding: 次数埋め込み後, ℎ ! (#)を算出 6 1. ノード

② Spatial Encoding: Attentionに位置埋め込みを追加 7 • Transformerの強さは受容野の広さだが, 位置関係の埋め込みが必要 • 系列データならばPositional

② Spatial Encoding: SPDによりAttentionを調整可能に 8 • 提案⼿法: Spatial Encoding •

② Spatial Encoding: SPDを採⽤する妥当性 9 • 写像 𝜙 𝑣!, 𝑣)

③ Edge Encoding: エッジの特徴量をAttentionに埋め込む 10 • エッジの情報 𝑒 ∈ 𝓔

[VNode] トークン: 超頂点VNodeをvirtualに追加 11 • ⼊⼒の先頭に特殊な[VNode]トークンを追加 • BERT [Devlin+, NAACL19]

GraphormerはGCNやGINといったGNN⼿法を表現可能 12 • ⼀般的なGNNの学習スキーム (GCN[Kipf+, ICLR17], GIN[Ying+, NeurIPS18]) • MEAN

GraphormerはGCNやGINといったGNN⼿法を表現可能 13 • ⼀般的なGNNの学習スキーム • COMBINEの表現 • 前述のAGGREGATE近似に加えて, • 𝜙

定量的結果: GNN系⼿法および既存⼿法を上回る結果を記録 14 • データセット: PCQM4M-LSC (分⼦の量⼦特性を予測するタスク) → GNN系⼿法およびGraph Transformerを上回る結果を記録

Ablation: Centrality Encoding, Spatial Encoding, Edge Encoding は全て有効 15 •

まとめ 16 ü 背景 • Transformer構造がグラフの学習に適しているかどうかは未だ不明 ü 提案⼿法 • Transformerをベースとしたグラフ学習⼿法

Appendix: MAX AGGREGATEの表現 17

Appendix: 1-WL-testとSPD 18