い l 巨⼤なグラフなので、必要になった都度、学習するのは⼿間 l 頂点が組織だと、頂点数は数百万のオーダーになる l 頂点が個⼈だと、頂点数は数千万のオーダーになる 3. Embeddingの良さを正確に測れるようになることで、モデル/学習⽅法の ⽐較、採⽤する/しないの判断、をより⾃信を持ってできるようにしたい 4. そのため、embeddingの評価⽅法について調査した l なので、今⽇は俯瞰的な話 今⽇の話をする背景 6
Node Classification でなされることが多い l Link Predictionは、頂点間に辺があるかの2値分類 l Node Classificationは、頂点に対する分類 l なので、まずはこの2つを取り上げる Link Prediction, Node Classification 9
評価⽅法として良さそう l 2値分類なので、各々の辺の有無に対する連続的な評価はできない l 「辺が無い」と推論を間違えた場合に、どれぐらい間違えたかは分からない l 精度が⾼くても、⼤局的に⾒ると改善点がある可能性はある l あとで例⽰ Link Prediction, Node Classification 10
l 定理 (Bourgain ’85) l 任意の有限グラフに対して、ユークリッド空間へのnode embeddingͰ distortionが 𝑶(𝒍𝒐𝒈 𝒏) となるものがあるʢ𝑛は頂点数ʣ l ⽂献 l 原論⽂: https://doi.org/10.1007/BF02776078 l たいていのMetric EmbeddingのLecture Noteには説明してある l 精密化した論⽂: https://doi.org/10.1016/j.aim.2011.08.003 l さらに、次元を𝑂 log 𝑛 , average distortionを𝑂 1 にできる Distortion 27
Link PredictionやReconstructionのタスクに対して、ユークリッド空間への embedding(node2vec)と⽐較して、「⾼精度」かつ「Embedding Space が低次元」な結果を得た l ツリーの例→ Poincaré Embedding 31 https://ptwiddle.github.io/Graph-Theory-Notes/s_intro_trees.html より引⽤
l 具体的に計算するなら、とりあえずこれ 2. Distortion l 実践と理論の両⽅ l 頂点間の離れ具合いを連続的に評価したいとき l 理論に基づく評価がある 3. 絶対値誤差 l 理論寄り l この指標で理論評価がなされると嬉しい l 実際のembeddingの評価では⾒たことがない(論⽂があれば読みたい) Node Embedding 評価⽅法のまとめ 36
Link Predictionは、負例にそのような頂点ペアが含まれるので、その意味で評 価されている 2. グラフ距離を求めるには、最短パスを⾒つける必要があるが、⼀般には時 間がかなりかかる l サンプリングするなり、パスの⻑さに制限を加えるなり、考慮する頂点やパス を⼀部に制限した上で、評価する必要がありそう l Link Predictionは、⻑さ1のパスだけ考慮しているとみなせる Distortionや絶対値誤差を実際に使う場合の課題 37
l パスより⼀般に、部分グラフに着⽬してnode embeddingを評価 l 今⽇は俯瞰な話 l 「実際、名刺交換グラフのnode embeddingをどのように評価することにした か」という実践の話は、将来どこかの機会に話したい(予定は未定) l 今年のインターンのテーマ候補のひとつ l 興味が湧かれた⽅はぜひ ➤ https://www.wantedly.com/projects/625615 さいごに 39