Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] Do Transformers Really Perform B...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 15, 2022
Technology
4k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[Journal club] Do Transformers Really Perform Bad for Graph Representation?
慶應義塾⼤学 杉浦孔明研究室 B4 和田唯我 / Yuiga Wada
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 15, 2022
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club ] PHyCLIP: 𝒍𝟏-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning
keio_smilab
PRO
0
43
[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
keio_smilab
PRO
0
100
[Journal club] ReLaGS: Relational Language Gaussian Splatting
keio_smilab
PRO
0
110
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
90
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
160
A Gentle Introduction to Transformers
keio_smilab
PRO
16
6.9k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
58
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
1
140
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
200
Other Decks in Technology
See All in Technology
AWS Security Hub CSPMの成功・失敗体験
cmusudakeisuke
0
590
フルAIで個人開発して学んだあれこれ / yuruai vol.1
isaoshimizu
0
160
スタートアップにAmazon EKSは早すぎる? マルチプロダクト戦略を加速する Platform Engineeringの実践 / Is Amazon EKS Too Soon for Startups? Practical Platform Engineering to Accelerate a Multi-Product Strategy
elmodev09
1
1.9k
打造你的 AI 工作流:Agent Skill + MCP 實戰工作坊
appleboy
0
190
次世代ランサムウェア対策の考察 / 20260704 Mitsutoshi Matsuo
shift_evolve
PRO
2
360
AI 不只幫你寫 Code: 當專案從 300 暴增到 1500, 我們如何撐住 DevOps
appleboy
0
290
AIをフル活用してオンコール機能のプロトタイプを2日で作った話 / Building an AI-Powered On-Call Prototype in Just Two Days
nari_ex
0
150
4人目のSREはAgent
tanimuyk
0
290
AWS PrivateLink × SCIM で実現する セキュアで運⽤負荷の低い Databricks 基盤の構築
tsuda7
0
110
From Prompt Engineering to Loop Engineering
shibuiwilliam
1
290
NDIAS CTF 2026 問題解説会資料
bata_24
0
110
「勝手に広まる」人気 AI エージェントを爆速で作ろう!(AWS Summit Japan 2026講演資料)
minorun365
PRO
10
2.6k
Featured
See All Featured
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
4k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
260
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4.1k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
6k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.3k
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
1k
Are puppies a ranking factor?
jonoalderson
1
3.7k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
WENDY [Excerpt]
tessaabrams
11
38k
The Pragmatic Product Professional
lauravandoore
37
7.3k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
950
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
150
Transcript
Do Transformers Really Perform Bad for Graph Representation? Chengxuan Ying1
, Tianle Cai2 , Shengjie Luo3 , Shuxin Zheng4 , Guolin Ke4 , Di He4 , Yanming Shen1, Tie-Yan Liu4 (1Dalian University of Technology, 2Princeton University, 3Peking University 4Microsoft Research Asia) 慶應義塾⼤学 杉浦孔明研究室 B4 和⽥唯我 Chengxuan Ying et al. , “Do transformers really perform badly for graph representation?”, in NeurIPS (2021) NeurIPS 2021
和田唯我 / Yuiga Wada
概要 2 ü 背景 • Transformer構造がグラフの学習に適しているかどうかは未だ不明 ü 提案⼿法 • Transformerをベースとしたグラフ学習⼿法
Graphormerを提案 ü 結果 • GNNベースの⼿法やGraph Transformerを超える性能を達成
背景・関連研究: Transformerがグラフの学習に適しているかどうかは未だ不明 3 • Transformer [Vaswani+ NeurIPS17] ベースのグラフ学習⼿法は存在するが, いずれもGNNの⽂脈で研究されてきた ⇒
Transformer構造がグラフの学習に適しているかどうかは未だ不明 ベース 既存⼿法 GNN • GCN[Kipf+, ICLR17] • GIN[Ying+, NeurIPS18] Transformer • Graph Transformer [Dwivedi+, AAAI21] Graph Transformer [Dwivedi+, AAAI21]
提案⼿法: Graphormer 4 o Transformerをベースとしたグラフ学習⼿法 • ⼊⼒: ノードに対応する特徴量 • グラフ構造を扱えるようにAttention機構を変更
o 新規性 ① Centrality Encoding ② Spatial Encoding ③ Edge Encoding ② ③
① Centrality Encoding: ⼊次数と出次数を埋め込む 5 • ノードの次数は重要な特徴量となり得る • 例: SNSでのフォロー・フォロワー数
→ ノードの影響⼒や重要度に直結 • ノード 𝑣! の特徴量 𝑥! について, 以下のように 𝑥! ⟼ ℎ! (#) を定義 • は学習可能パラメタであり, Centralityの埋め込みを⾏う ノード 𝑣! の⼊次数 ノード 𝑣! の出次数
① Centrality Encoding: 次数埋め込み後, ℎ ! (#)を算出 6 1. ノード
𝑣! の特徴量 𝑥! について, 𝑥! ⟼ ℎ! (#) を計算 2. ℎ! (&'()から ℎ! (&)を算出 (Graphormer Layers) ノード 𝑣! の⼊次数 ノード 𝑣! の出次数
② Spatial Encoding: Attentionに位置埋め込みを追加 7 • Transformerの強さは受容野の広さだが, 位置関係の埋め込みが必要 • 系列データならばPositional
Encoding(PE)で⼗分だが, グラフ上の位置関係の埋め込みにPEは不適切 • 提案⼿法: Spatial Encoding • ノード間の距離を表す 写像 𝜙 𝑣!, 𝑣) : 𝑉 × 𝑉 → ℝ を⽤いて, Attentionに以下の項を追加
② Spatial Encoding: SPDによりAttentionを調整可能に 8 • 提案⼿法: Spatial Encoding •
写像 𝜙 𝑣!, 𝑣) : 𝑉 × 𝑉 → ℝ として本論⽂ではSPD(最短経路距離)を採⽤ • 隣接ノードのみを⾒るGNNよりも広い受容野を獲得可 (AGGREGATE) • 𝑏* (𝑣! , 𝑣) )は学習可能パラメタであり, 𝑏* によりAttentionを SPDで調整できる • 例えば𝜙(⋅)に対して 𝑏* が単調減少ならば, より隣接周囲へとAttentionが強く 掛かるようになる
② Spatial Encoding: SPDを採⽤する妥当性 9 • 写像 𝜙 𝑣!, 𝑣)
: 𝑉 × 𝑉 → ℝ としてSPD(最短経路距離)を採⽤することで, 1-WL-testで同型識別できないグラフを識別可能 → SPDによりMessage Passing型の古典的なGNNよりも強⼒な表現⼒を獲得可能 ⇒ 写像 𝜙 𝑣! , 𝑣) にSPDを採⽤する妥当性が確認できる 互いに同型でないグラフ (1-WL-testで識別不可)
③ Edge Encoding: エッジの特徴量をAttentionに埋め込む 10 • エッジの情報 𝑒 ∈ 𝓔
も重要な特徴量なので, 埋め込む必要がある • 例: 分⼦構造の解析ではエッジに結合情報が存在 • 提案⼿法: Edge Encoding • 最短経路 の特徴量𝑥+! の加重和𝑐!) をAttentionに追加 𝑤" # ∈ ℝ$! → n番⽬のEmbedding
[VNode] トークン: 超頂点VNodeをvirtualに追加 11 • ⼊⼒の先頭に特殊な[VNode]トークンを追加 • BERT [Devlin+, NAACL19]
における[CLS]トークンと同様の仕組み • 最終層でグラフ全体の特徴量として取り出される • グラフ上では, 全てのノードとSPD=1で繋がる超頂点VNodeを成す • ただし, 実際にノードを追加するわけではない (=virtualに接続される) ⇒ Virtualに接続されているかどうかを区別するため, 𝑏* VNode , 𝑣! は 他の𝑏* と独⽴した学習可能パラメタとする
GraphormerはGCNやGINといったGNN⼿法を表現可能 12 • ⼀般的なGNNの学習スキーム (GCN[Kipf+, ICLR17], GIN[Ying+, NeurIPS18]) • MEAN
AGGREGATEの表現 • 𝜙 = 1 ⇒ 𝑏* = 1 , 𝜙 ≠ 1 ⇒ 𝑏* = −∞ • 𝑊/ = 𝑊0 = 0 , 𝑊1 = 𝐼 • 上のように設定すれば, 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝐴 𝑉 は隣接ノードの平均を表現 • 同様に, 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝐴 𝑉 に次数を掛ければ SUM AGGREGATEを表現できる
GraphormerはGCNやGINといったGNN⼿法を表現可能 13 • ⼀般的なGNNの学習スキーム • COMBINEの表現 • 前述のAGGREGATE近似に加えて, • 𝜙
= 0 ⇒ 𝑏* = 0 , 𝜙 ≠ 0 ⇒ 𝑏* = −∞ • 𝑊/ = 𝑊0 = 0 , 𝑊1 = 𝐼 • 上のように設定すれば, Transformer内のFFNにおいて, 普遍近似定理より任意のCOMBINEを表現可能
定量的結果: GNN系⼿法および既存⼿法を上回る結果を記録 14 • データセット: PCQM4M-LSC (分⼦の量⼦特性を予測するタスク) → GNN系⼿法およびGraph Transformerを上回る結果を記録
Graph Transformer [Dwivedi+, AAAI21]
Ablation: Centrality Encoding, Spatial Encoding, Edge Encoding は全て有効 15 •
Laplacian PE: PEとしてラプラシアン⾏列 𝐿 の固有ベクトルを使⽤ (𝐿 の固有値は周波数的側⾯を持つ. Graph Transformerで導⼊された機構) ⇒ Centrality Encoding, Spatial Encoding, Edge Encoding は全て有効
まとめ 16 ü 背景 • Transformer構造がグラフの学習に適しているかどうかは未だ不明 ü 提案⼿法 • Transformerをベースとしたグラフ学習⼿法
Graphormerを提案 ü 結果 • GNNベースの⼿法やGraph Transformerを超える性能を達成
Appendix: MAX AGGREGATEの表現 17
Appendix: 1-WL-testとSPD 18