Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] Do Transformers Really Perform B...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 15, 2022
Technology
3.9k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[Journal club] Do Transformers Really Perform Bad for Graph Representation?
慶應義塾⼤学 杉浦孔明研究室 B4 和田唯我 / Yuiga Wada
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 15, 2022
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club ] PHyCLIP: 𝒍𝟏-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning
keio_smilab
PRO
0
35
[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
keio_smilab
PRO
0
95
[Journal club] ReLaGS: Relational Language Gaussian Splatting
keio_smilab
PRO
0
92
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
86
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
150
A Gentle Introduction to Transformers
keio_smilab
PRO
16
6.7k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
58
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
130
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
190
Other Decks in Technology
See All in Technology
Mastering Ruby Box
tagomoris
3
150
個人の発見を、組織の知恵に 〜生成AI活用を"探索"から"組織の仕組み"へ〜
kintotechdev
2
980
AI フレンドリーなエラー監視を TypeScript で実現する
shinyaigeek
2
260
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
50k
SIer20年! 培ったスキルがスタートアップで輝く時
shucho0103
0
350
価格.comをAI駆動で全面刷新する ー 30年分の技術的負債を返し、次の30年の土台をつくる ー / AI Engineering Summit Tokyo 2026
tkyowa
49
52k
EventBridge Connection
_kensh
4
520
Platform engineering for developers, architects & the rest of us (AI agents)
danielbryantuk
0
180
OCI Oracle AI Database Services新機能アップデート(2026/03-2026/05)
oracle4engineer
PRO
0
220
GoとSIMDとWasmの今。
askua
3
510
関西に縁あるMicrosoft MVPsが語るCopilotの未来
kasada
0
1.2k
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development
yoshidashingo
1
360
Featured
See All Featured
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
840
Side Projects
sachag
455
43k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
320
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
Everyday Curiosity
cassininazir
0
220
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
200
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
820
Building AI with AI
inesmontani
PRO
1
1.1k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
2
390
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.9k
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
150
Code Review Best Practice
trishagee
74
20k
Transcript
Do Transformers Really Perform Bad for Graph Representation? Chengxuan Ying1
, Tianle Cai2 , Shengjie Luo3 , Shuxin Zheng4 , Guolin Ke4 , Di He4 , Yanming Shen1, Tie-Yan Liu4 (1Dalian University of Technology, 2Princeton University, 3Peking University 4Microsoft Research Asia) 慶應義塾⼤学 杉浦孔明研究室 B4 和⽥唯我 Chengxuan Ying et al. , “Do transformers really perform badly for graph representation?”, in NeurIPS (2021) NeurIPS 2021
和田唯我 / Yuiga Wada
概要 2 ü 背景 • Transformer構造がグラフの学習に適しているかどうかは未だ不明 ü 提案⼿法 • Transformerをベースとしたグラフ学習⼿法
Graphormerを提案 ü 結果 • GNNベースの⼿法やGraph Transformerを超える性能を達成
背景・関連研究: Transformerがグラフの学習に適しているかどうかは未だ不明 3 • Transformer [Vaswani+ NeurIPS17] ベースのグラフ学習⼿法は存在するが, いずれもGNNの⽂脈で研究されてきた ⇒
Transformer構造がグラフの学習に適しているかどうかは未だ不明 ベース 既存⼿法 GNN • GCN[Kipf+, ICLR17] • GIN[Ying+, NeurIPS18] Transformer • Graph Transformer [Dwivedi+, AAAI21] Graph Transformer [Dwivedi+, AAAI21]
提案⼿法: Graphormer 4 o Transformerをベースとしたグラフ学習⼿法 • ⼊⼒: ノードに対応する特徴量 • グラフ構造を扱えるようにAttention機構を変更
o 新規性 ① Centrality Encoding ② Spatial Encoding ③ Edge Encoding ② ③
① Centrality Encoding: ⼊次数と出次数を埋め込む 5 • ノードの次数は重要な特徴量となり得る • 例: SNSでのフォロー・フォロワー数
→ ノードの影響⼒や重要度に直結 • ノード 𝑣! の特徴量 𝑥! について, 以下のように 𝑥! ⟼ ℎ! (#) を定義 • は学習可能パラメタであり, Centralityの埋め込みを⾏う ノード 𝑣! の⼊次数 ノード 𝑣! の出次数
① Centrality Encoding: 次数埋め込み後, ℎ ! (#)を算出 6 1. ノード
𝑣! の特徴量 𝑥! について, 𝑥! ⟼ ℎ! (#) を計算 2. ℎ! (&'()から ℎ! (&)を算出 (Graphormer Layers) ノード 𝑣! の⼊次数 ノード 𝑣! の出次数
② Spatial Encoding: Attentionに位置埋め込みを追加 7 • Transformerの強さは受容野の広さだが, 位置関係の埋め込みが必要 • 系列データならばPositional
Encoding(PE)で⼗分だが, グラフ上の位置関係の埋め込みにPEは不適切 • 提案⼿法: Spatial Encoding • ノード間の距離を表す 写像 𝜙 𝑣!, 𝑣) : 𝑉 × 𝑉 → ℝ を⽤いて, Attentionに以下の項を追加
② Spatial Encoding: SPDによりAttentionを調整可能に 8 • 提案⼿法: Spatial Encoding •
写像 𝜙 𝑣!, 𝑣) : 𝑉 × 𝑉 → ℝ として本論⽂ではSPD(最短経路距離)を採⽤ • 隣接ノードのみを⾒るGNNよりも広い受容野を獲得可 (AGGREGATE) • 𝑏* (𝑣! , 𝑣) )は学習可能パラメタであり, 𝑏* によりAttentionを SPDで調整できる • 例えば𝜙(⋅)に対して 𝑏* が単調減少ならば, より隣接周囲へとAttentionが強く 掛かるようになる
② Spatial Encoding: SPDを採⽤する妥当性 9 • 写像 𝜙 𝑣!, 𝑣)
: 𝑉 × 𝑉 → ℝ としてSPD(最短経路距離)を採⽤することで, 1-WL-testで同型識別できないグラフを識別可能 → SPDによりMessage Passing型の古典的なGNNよりも強⼒な表現⼒を獲得可能 ⇒ 写像 𝜙 𝑣! , 𝑣) にSPDを採⽤する妥当性が確認できる 互いに同型でないグラフ (1-WL-testで識別不可)
③ Edge Encoding: エッジの特徴量をAttentionに埋め込む 10 • エッジの情報 𝑒 ∈ 𝓔
も重要な特徴量なので, 埋め込む必要がある • 例: 分⼦構造の解析ではエッジに結合情報が存在 • 提案⼿法: Edge Encoding • 最短経路 の特徴量𝑥+! の加重和𝑐!) をAttentionに追加 𝑤" # ∈ ℝ$! → n番⽬のEmbedding
[VNode] トークン: 超頂点VNodeをvirtualに追加 11 • ⼊⼒の先頭に特殊な[VNode]トークンを追加 • BERT [Devlin+, NAACL19]
における[CLS]トークンと同様の仕組み • 最終層でグラフ全体の特徴量として取り出される • グラフ上では, 全てのノードとSPD=1で繋がる超頂点VNodeを成す • ただし, 実際にノードを追加するわけではない (=virtualに接続される) ⇒ Virtualに接続されているかどうかを区別するため, 𝑏* VNode , 𝑣! は 他の𝑏* と独⽴した学習可能パラメタとする
GraphormerはGCNやGINといったGNN⼿法を表現可能 12 • ⼀般的なGNNの学習スキーム (GCN[Kipf+, ICLR17], GIN[Ying+, NeurIPS18]) • MEAN
AGGREGATEの表現 • 𝜙 = 1 ⇒ 𝑏* = 1 , 𝜙 ≠ 1 ⇒ 𝑏* = −∞ • 𝑊/ = 𝑊0 = 0 , 𝑊1 = 𝐼 • 上のように設定すれば, 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝐴 𝑉 は隣接ノードの平均を表現 • 同様に, 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝐴 𝑉 に次数を掛ければ SUM AGGREGATEを表現できる
GraphormerはGCNやGINといったGNN⼿法を表現可能 13 • ⼀般的なGNNの学習スキーム • COMBINEの表現 • 前述のAGGREGATE近似に加えて, • 𝜙
= 0 ⇒ 𝑏* = 0 , 𝜙 ≠ 0 ⇒ 𝑏* = −∞ • 𝑊/ = 𝑊0 = 0 , 𝑊1 = 𝐼 • 上のように設定すれば, Transformer内のFFNにおいて, 普遍近似定理より任意のCOMBINEを表現可能
定量的結果: GNN系⼿法および既存⼿法を上回る結果を記録 14 • データセット: PCQM4M-LSC (分⼦の量⼦特性を予測するタスク) → GNN系⼿法およびGraph Transformerを上回る結果を記録
Graph Transformer [Dwivedi+, AAAI21]
Ablation: Centrality Encoding, Spatial Encoding, Edge Encoding は全て有効 15 •
Laplacian PE: PEとしてラプラシアン⾏列 𝐿 の固有ベクトルを使⽤ (𝐿 の固有値は周波数的側⾯を持つ. Graph Transformerで導⼊された機構) ⇒ Centrality Encoding, Spatial Encoding, Edge Encoding は全て有効
まとめ 16 ü 背景 • Transformer構造がグラフの学習に適しているかどうかは未だ不明 ü 提案⼿法 • Transformerをベースとしたグラフ学習⼿法
Graphormerを提案 ü 結果 • GNNベースの⼿法やGraph Transformerを超える性能を達成
Appendix: MAX AGGREGATEの表現 17
Appendix: 1-WL-testとSPD 18