DeepWalking Backwards:From Embeddings Back to Graphs

by Sansan DSOC

Slide 1

Slide 1 text

DeepWalking Backwards: From Embeddings Back to Graphs Sansan株式会社技術本部 DSOC R&D ⿊⽊裕鷹 ICML2021 論⽂読み会 8/18

Slide 2

Slide 2 text

Data Strategy and Operation Center ⾃⼰紹介⿊⽊裕鷹 • 2020年4⽉⼊社 • ⼊社後は、主にダイレクトリクルーティングサービスにおける研究開発業務に従事 Yutaka Kuroki Sansan 株式会社技術本部 DSOC R&D Data Analysis Group 研究員 @kur0cky_y

Slide 3

Slide 3 text

Data Strategy and Operation Center 論⽂情報 • 学会：ICML 2021 ポスター • 著者： > 筆頭著者は博⼠課程の学⽣ > ⾏列ベースの node embedding に興味がありそう HP: https://schariya.github.io/

Slide 4

Slide 4 text

Data Strategy and Operation Center 1ページでまとめ • node embedding が優れた結果をもたらす理由をより理解するため，どのような情報を保持する埋め込みであるのかを明らかにしたい • NetMF (DeepWalk) の逆変換を2つ提案 > 学習している対象が明らか > 学習が決定論的なので逆演算がしやすい > うち⼀つが（ある側⾯から）効率的に復元可能 • 局所的な情報を落としながらも，コミュニティのような⼤局的な構造は復元しやすいことを経験的に⽰す

Slide 5

Slide 5 text

背景・概要

Slide 6

Slide 6 text

Data Strategy and Operation Center Perozzi et al. (2014) Fig.1 node embedding • 離散的なグラフのノードを，低次元な密ベクトルで表現する技術 • 様々な後段に有⽤．使い勝⼿が良い • ⾊々なアルゴリズム > ⾏列分解系 > ランダムウォーク系 (skip-gram) > 深層学習系 • これらの多くは古典的なグラフスペクトルに根ざしているとみなせる (Qiu et al., 2018)

Slide 7

Slide 7 text

Data Strategy and Operation Center DeepWalk (Perozzi et al., 2014) • 当時⼀世を⾵靡していた word2vec をグラフに適⽤したアルゴリズム • ノードの系列をランダムウォークで得る • 様々な後続研究が存在し，活躍 > node2vec：BFSとDFSを組み合わせ，様々なランダムウォークを⾏う (Grover and Leskovec, 2016) > LINE：ランダムウォークの⻑さを1にすることに相当．⼤規模で軽量 (Tang et al., 2015) > NetMF：⾏列因⼦分解の観点で再解釈．決定論的な学習 (Qiu et al., 2018)

Slide 8

Slide 8 text

Data Strategy and Operation Center NetMF (Qiu et al., 2018) • DeepWalk 系アルゴリズムを⾏列因⼦分解の形で解釈 > DeepWalk は，ノード共起（ 𝑇 次まで）の⾃⼰相互情報量 (PMI) ⾏列を低ランク近似したものと解釈できる（正確には positive PMI; PPMI） > DeepWalk はこれを統計的に学習している > NetMF では SVD を⽤いて明⽰的に 𝑘 次元に埋め込む > PPMI ⾏列は隣接⾏列から定まるので，逆算する簡単な最適化を考えられる • PMI ⾏列 > 𝑣! ：ボリューム > 𝑇：ウィンドウサイズ > 𝐷：次数の対⾓ > 𝐴：隣接⾏列グラフラプラシアンとも関連していそうな形詳しくは Qiu et al. (2018)

Slide 9

Slide 9 text

Data Strategy and Operation Center 概要・モチベーション • node embedding が優れた結果をもたらす理由をより深く理解したい > NetMF (DeepWalk) を対象 • どんな情報を保存しているのか？ • 埋め込みを再度グラフに戻すことで確認 𝐺 " 𝐺 ℰ 𝐺 ℰ " 𝐺 ⼀般に node embedding では情報が落ちるここでは NetMF (DeepWalk) のみ考える ②. ここを⽐較する PPMI⾏列の低ランク近似はどのようなグラフ特性を保持している？ ①. 復元アルゴリズムを2つ提案妥当性を検証 NetMF (DeepWalk) では，特定の条件で完全に復元できる (Chanpuriya and Musco, 2020)

Slide 10

Slide 10 text

提案⼿法

Slide 11

Slide 11 text

Data Strategy and Operation Center 提案⼿法 (embedding inversion) • Analytical approach (Alg. 1) > 𝑇 → ∞ での極限 $ 𝑀! での漸近を⽤いた差し込み推定量 > 実際は 𝑇 は有限なので $ 𝑀! に $ 𝑀" を代⼊ • Optimization approach (Alg. 2) > 隣接⾏列の成分を、潜在的なエッジごとに独⽴したロジットでパラメーター化 > 閾値を設ければ離散化できる > PPMI ⾏列の誤差が⼩さくなっていくように，確率的隣接⾏列 [0, 1] を最適化（勾配ベース）

Slide 12

Slide 12 text

Data Strategy and Operation Center Algorithm 1：補⾜ • PPI ⾏列が Full rankであれば， 𝑇 → ∞ の極限が存在することを⽰した (Chanpuriya and Musco, 2020) • 逆算で完全に 𝐴 を復元できる

Slide 13

Slide 13 text

Data Strategy and Operation Center Algorithm 1, 2：詳細

Slide 14

Slide 14 text

実験

Slide 15

Slide 15 text

Data Strategy and Operation Center データセット • コミュニティを持つオープンなグラフデータ6個 > 最⼤連結成分のみ使⽤ > ラベル付き

Slide 16

Slide 16 text

Data Strategy and Operation Center 実験概要 1. 提案アルゴリズム (inversion) の評価 > ハイパーパラメータ：𝑘 = 2#~2$$, 𝑇 = 10. > 評価：PPI ⾏列の相対フロベニウス誤差 %& ' % ! % ! . 2. Graph reconstruction の実験 > どのような特性が復元できるか，相対評価 > 隣接⾏列，3-cliqueの数，平均経路⻑，コンダクタンス（コミュニティの指標） 3. 再度埋め込み，ノード分類（ロジスティック回帰） 4. ⼈⼝データでの同様の実験 (Stochastic Block Model; SBM)

Slide 17

Slide 17 text

Data Strategy and Operation Center 結果概要 1. 提案アルゴリズム (inversion) の評価 > Alg. 2 は良さそう．Alg. 1 はダメ 2. グラフ特性の保持 > ○ コミュニティ，平均経路⻑ ↔ × 隣接⾏列，3-clique > グローバルな特徴を保持する⼀⽅で，ローカルな情報は⼤きく変わる > コミュニティ構造は強調さえされる > PPMI ⾏列を学習・低ランク近似しても，微細なエッジの情報は洗い流される

Slide 18

Slide 18 text

Data Strategy and Operation Center 結果概要 3. 再度埋め込み，ノード分類（ロジスティック回帰） > エッジを離散化しない場合，局所的な接続性（三⾓形の情報）を失っていても，分類性能に⼤きな影響はない（ノード分類タスクには必要ない？） > ⼆値化された再構成の埋め込みを⽤いると性能が低下する 4. ⼈⼝データでの同様の実験 (Stochastic Block Model; SBM) > 実データと概ね同様の結果

Slide 19

Slide 19 text

Data Strategy and Operation Center まとめ・感想 • NetMF（PPMIの低ランク近似）は，コミュニティ構造などのグローバルな特性を捉える⼀⽅で，ローカルな構造（微細なエッジの情報）を洗い流してしまう > コミュニティ，平均経路⻑ ↔ 隣接⾏列，3-clique • DeepWalk が PPMI を学習していることに着⽬するのは良さそう • 𝑇 → ∞ の漸近についてはもっと何かできそう > ローカルな情報を保持したければ window size を⼤きくすれば良い？ > 漸近の早さは？ node2vec などではどうか？ > ローカルな情報を保持することと，後段タスクでの性能は別 • 時間の都合上細かい結果の説明は割愛しました

Slide 20

Slide 20 text

Data Strategy and Operation Center 参考⽂献 • Chanpuriya, S., Musco, C., Sotiropoulos, K., & Tsourakakis, C. E. (2021). DeepWalking Backwards: From Embeddings Back to Graphs. arXiv preprint arXiv:2102.08532. • Chanpuriya, S., Musco, C., Sotiropoulos, K., & Tsourakakis, C. (2020). Node embeddings and exact low-rank representations of complex networks. Advances in Neural Information Processing Systems, 33. • Perozzi, B., Al-Rfou, R., & Skiena, S. (2014). Deepwalk: Online learning of social representations. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 701-710. • Qiu, J., Dong, Y., Ma, H., Li, J., Wang, K., & Tang, J. (2018). Network embedding as matrix factorization: Unifying deepwalk, line, pte, and node2vec. In Proceedings of the eleventh ACM international conference on web search and data mining. 459-467.

Slide 21

Slide 21 text

No content

Slide 22

Slide 22 text

Appendix

Slide 23

Slide 23 text

Data Strategy and Operation Center 実験1：inversion アルゴリズムの評価 • Alg. 2 が埋め込み次元数 𝑘 に関わらず良い結果に > ここからの実験では Alg. 2 のみ使⽤ • Alg. 1 は漸近的な理論保証があるが，そうでない場合（𝑇 が有限）で危険 > ある次元数以降では良くならない

Slide 24

Slide 24 text

Data Strategy and Operation Center 実験2：グラフ特性の保持 • 隣接⾏列：次元数 𝑘 の増加と共にエラーは⼩さく > 低ランク PPMI ⾏列上では復元できているにも関わらず，⼤きく異なる > 細かいエッジのつなぎ替えが原因か • 三⾓形の数：低次元で顕著にエラー⼤きい > 局所的な接続性は保持されない？ • 平均経路⻑：ほぼ維持

Slide 25

Slide 25 text

Data Strategy and Operation Center 実験2：コミュニティの conductance • ほとんどのグラフで，𝑘 > 2& でほぼ⼩さく • コミュニティの情報が再構成後も保持されているといえる

Slide 26

Slide 26 text

Data Strategy and Operation Center 実験3：node classification • 再構成されたグラフをもう⼀度埋め込んでからの one-vs-rest ロジスティック回帰 > test データの割合：10%, 90% • エッジを離散化しない場合は，局所的な接続性（三⾓形）などのローカルな情報を失っていても，分類性能に⼤きな影響はない > コミュニティ構造のような，ノード分類に重要なグローバルな特性は維持されている？ • ⼆値化された再構成の埋め込みを⽤いると性能が低下する

Slide 27

Slide 27 text

No content

Slide 28

Slide 28 text

Data Strategy and Operation Center 実験4：⼈⼝データ (SBM) • SBM でも同様に実験，実ネットワークと同じような結果に

Slide 29

Slide 29 text

Data Strategy and Operation Center 実験4：⼈⼝データ (SBM)