Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Do Transformers Really Perform Bad for Graph Representation?

[Journal club] Do Transformers Really Perform Bad for Graph Representation?

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Do Transformers Really Perform Bad
    for Graph Representation?
    Chengxuan Ying1 , Tianle Cai2 , Shengjie Luo3 , Shuxin Zheng4 , Guolin Ke4 ,
    Di He4 , Yanming Shen1, Tie-Yan Liu4
    (1Dalian University of Technology, 2Princeton University, 3Peking University
    4Microsoft Research Asia)
    慶應義塾⼤学
    杉浦孔明研究室 B4 和⽥唯我
    Chengxuan Ying et al. , “Do transformers really perform badly for graph representation?”, in NeurIPS (2021)
    NeurIPS 2021

    和田唯我 / Yuiga Wada

    View Slide

  2. 概要
    2
    ü 背景
    • Transformer構造がグラフの学習に適しているかどうかは未だ不明
    ü 提案⼿法
    • Transformerをベースとしたグラフ学習⼿法 Graphormerを提案
    ü 結果
    • GNNベースの⼿法やGraph Transformerを超える性能を達成

    View Slide

  3. 背景・関連研究: Transformerがグラフの学習に適しているかどうかは未だ不明
    3
    • Transformer [Vaswani+ NeurIPS17] ベースのグラフ学習⼿法は存在するが,
    いずれもGNNの⽂脈で研究されてきた
    ⇒ Transformer構造がグラフの学習に適しているかどうかは未だ不明
    ベース 既存⼿法
    GNN • GCN[Kipf+, ICLR17]
    • GIN[Ying+, NeurIPS18]
    Transformer • Graph Transformer
    [Dwivedi+, AAAI21]
    Graph Transformer
    [Dwivedi+, AAAI21]

    View Slide

  4. 提案⼿法: Graphormer
    4
    o Transformerをベースとしたグラフ学習⼿法
    • ⼊⼒: ノードに対応する特徴量
    • グラフ構造を扱えるようにAttention機構を変更
    o 新規性
    ① Centrality Encoding
    ② Spatial Encoding
    ③ Edge Encoding
    ② ③

    View Slide

  5. ① Centrality Encoding: ⼊次数と出次数を埋め込む
    5
    • ノードの次数は重要な特徴量となり得る
    • 例: SNSでのフォロー・フォロワー数 → ノードの影響⼒や重要度に直結
    • ノード 𝑣!
    の特徴量 𝑥!
    について, 以下のように 𝑥!
    ⟼ ℎ!
    (#) を定義
    • は学習可能パラメタであり, Centralityの埋め込みを⾏う
    ノード 𝑣!
    の⼊次数 ノード 𝑣!
    の出次数

    View Slide

  6. ① Centrality Encoding: 次数埋め込み後, ℎ
    !
    (#)を算出
    6
    1. ノード 𝑣!
    の特徴量 𝑥!
    について, 𝑥!
    ⟼ ℎ!
    (#) を計算
    2. ℎ!
    (&'()から ℎ!
    (&)を算出 (Graphormer Layers)
    ノード 𝑣!
    の⼊次数 ノード 𝑣!
    の出次数

    View Slide

  7. ② Spatial Encoding: Attentionに位置埋め込みを追加
    7
    • Transformerの強さは受容野の広さだが, 位置関係の埋め込みが必要
    • 系列データならばPositional Encoding(PE)で⼗分だが,
    グラフ上の位置関係の埋め込みにPEは不適切
    • 提案⼿法: Spatial Encoding
    • ノード間の距離を表す 写像 𝜙 𝑣!, 𝑣) : 𝑉 × 𝑉 → ℝ を⽤いて,
    Attentionに以下の項を追加

    View Slide

  8. ② Spatial Encoding: SPDによりAttentionを調整可能に
    8
    • 提案⼿法: Spatial Encoding
    • 写像 𝜙 𝑣!, 𝑣) : 𝑉 × 𝑉 → ℝ として本論⽂ではSPD(最短経路距離)を採⽤
    • 隣接ノードのみを⾒るGNNよりも広い受容野を獲得可 (AGGREGATE)
    • 𝑏*
    (𝑣!
    , 𝑣)
    )は学習可能パラメタであり, 𝑏*
    によりAttentionを SPDで調整できる
    • 例えば𝜙(⋅)に対して 𝑏*
    が単調減少ならば, より隣接周囲へとAttentionが強く
    掛かるようになる

    View Slide

  9. ② Spatial Encoding: SPDを採⽤する妥当性
    9
    • 写像 𝜙 𝑣!, 𝑣) : 𝑉 × 𝑉 → ℝ としてSPD(最短経路距離)を採⽤することで,
    1-WL-testで同型識別できないグラフを識別可能
    → SPDによりMessage Passing型の古典的なGNNよりも強⼒な表現⼒を獲得可能
    ⇒ 写像 𝜙 𝑣!
    , 𝑣)
    にSPDを採⽤する妥当性が確認できる
    互いに同型でないグラフ
    (1-WL-testで識別不可)

    View Slide

  10. ③ Edge Encoding: エッジの特徴量をAttentionに埋め込む
    10
    • エッジの情報 𝑒 ∈ 𝓔 も重要な特徴量なので, 埋め込む必要がある
    • 例: 分⼦構造の解析ではエッジに結合情報が存在
    • 提案⼿法: Edge Encoding
    • 最短経路 の特徴量𝑥+!
    の加重和𝑐!)
    をAttentionに追加
    𝑤"
    # ∈ ℝ$!
    → n番⽬のEmbedding

    View Slide

  11. [VNode] トークン: 超頂点VNodeをvirtualに追加
    11
    • ⼊⼒の先頭に特殊な[VNode]トークンを追加
    • BERT [Devlin+, NAACL19] における[CLS]トークンと同様の仕組み
    • 最終層でグラフ全体の特徴量として取り出される
    • グラフ上では, 全てのノードとSPD=1で繋がる超頂点VNodeを成す
    • ただし, 実際にノードを追加するわけではない (=virtualに接続される)
    ⇒ Virtualに接続されているかどうかを区別するため, 𝑏* VNode , 𝑣!

    他の𝑏*
    と独⽴した学習可能パラメタとする

    View Slide

  12. GraphormerはGCNやGINといったGNN⼿法を表現可能
    12
    • ⼀般的なGNNの学習スキーム (GCN[Kipf+, ICLR17], GIN[Ying+, NeurIPS18])
    • MEAN AGGREGATEの表現
    • 𝜙 = 1 ⇒ 𝑏*
    = 1 , 𝜙 ≠ 1 ⇒ 𝑏*
    = −∞
    • 𝑊/ = 𝑊0 = 0 , 𝑊1 = 𝐼
    • 上のように設定すれば, 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝐴 𝑉 は隣接ノードの平均を表現
    • 同様に, 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝐴 𝑉 に次数を掛ければ SUM AGGREGATEを表現できる

    View Slide

  13. GraphormerはGCNやGINといったGNN⼿法を表現可能
    13
    • ⼀般的なGNNの学習スキーム
    • COMBINEの表現
    • 前述のAGGREGATE近似に加えて,
    • 𝜙 = 0 ⇒ 𝑏* = 0 , 𝜙 ≠ 0 ⇒ 𝑏* = −∞
    • 𝑊/
    = 𝑊0
    = 0 , 𝑊1
    = 𝐼
    • 上のように設定すれば, Transformer内のFFNにおいて,
    普遍近似定理より任意のCOMBINEを表現可能

    View Slide

  14. 定量的結果: GNN系⼿法および既存⼿法を上回る結果を記録
    14
    • データセット: PCQM4M-LSC (分⼦の量⼦特性を予測するタスク)
    → GNN系⼿法およびGraph Transformerを上回る結果を記録
    Graph Transformer
    [Dwivedi+, AAAI21]

    View Slide

  15. Ablation: Centrality Encoding, Spatial Encoding, Edge Encoding は全て有効
    15
    • Laplacian PE: PEとしてラプラシアン⾏列 𝐿 の固有ベクトルを使⽤
    (𝐿 の固有値は周波数的側⾯を持つ. Graph Transformerで導⼊された機構)
    ⇒ Centrality Encoding, Spatial Encoding, Edge Encoding は全て有効

    View Slide

  16. まとめ
    16
    ü 背景
    • Transformer構造がグラフの学習に適しているかどうかは未だ不明
    ü 提案⼿法
    • Transformerをベースとしたグラフ学習⼿法 Graphormerを提案
    ü 結果
    • GNNベースの⼿法やGraph Transformerを超える性能を達成

    View Slide

  17. Appendix: MAX AGGREGATEの表現
    17

    View Slide

  18. Appendix: 1-WL-testとSPD
    18

    View Slide