WSDM 2012 勉強会 (When Will It Happen?)

勉強会関連

今日読むもの（本しっかり＋） 1. When Will It Happen? – Relationship
Prediction in Heterogeneous Information Networks [Sun+ 2012] 2. Inferring Social Ties across Heterogeneous Networks [Tang+ 2012] 3. 他 (※ Rights to all the images belong to their respective owners)

まとめ（問題と貢献） • 異種のノード、異種のリンクで作るネットワーク（Heterogeneous network）上のリンク予測 • Whether ではなく When を当てる
• 例: いつ「@y_benjo（人）」が「When Will It Happen? – Relationship Prediction in Heterogeneous Information Networks（論文）」を引用する（関係を作る）か？ • リンク予測のタスクを拡張して, Topological Feature として Meta path を導入 • GLM によるイベント発生時間のモデル化 ※ link prediction のタスク拡張として Relationship prediction を定義していますが時間を推定するとこ以外はただの問題の言い換えで新規性が薄いためスルー

どのような問題か？

• 異種のノード、異種のリンクで作るネットワーク（Heterogeneous network）上のリンク予測

• 異種のノード、異種のリンクで作るネットワーク（Heterogeneous network）上のリンク予測 – 論文, 著者用語, 開催地 →
A

• 異種のノード、異種のリンクで作るネットワーク（Heterogeneous network）上のリンク予測 – 言及, 執筆引用, 出版 →
A → R

特定の「」 → A → R 特定のの特定の
が作られる相対時間

どのように特徴量を作るか

(同類のノードとエッジで作られる) Homegeneous network での topological feature は既存の研究多数 Common neighbors, preferential
attachment, katzβ, Adamic/Adar, rooted PageRank, PropFlow など - ノードペアに関するスコアを計算してリンク予測する (unsupervised な link prediction) ⇒ Meta-path [Sun+ 2011a] を使い２つの頂点間に対する Heterogeneous network のための特徴量を作る

による関係の定義 Meta-Path = Heterogeneous network 上のパスのテンプレート → A → R
• 共著関係（A:=Author, P:=Paper） • Author citation 関係（引用してる人の関係）（※ 同じ vertex type 間の edge type は directed edge に対する mapping なので Meta-Path にも向きを記す）（簡略版）（簡略版）論文ではこの関係を予測する実験をしている ( Target relation )

どのようにを作るかまず「似た著者」の関係を Meta-Path で定義して特徴量を作る – 「似た著者が引用している論文」は引用する傾向がある、などの特徴量を作るため –
共著, 同じ共著者, 同じ語を用いるなど 6 つ

特徴量を作る３つのタイプ「似た著者」の関係を使って３つのタイプの特徴量を作る

似た著者がを持つ • (type a) – 似た著者が Target relation を持っている
• が Target relation • を展開して６つの特徴量作る似た著者

を持っている似た著者 • (type b) – 似た著者が Target relation を持っている •
が Target relation • を展開して６つ特徴量作る似た著者

• (type c) – C を仲介して関係を持っている • で６つ • A－P→P→P－A
で１つ特徴量作る

どのようにモデル化するか？

を使った従来手法 Input : object pair の features Output : {
True , False } グラフのノード間に対して特徴量を計算してロジスティック回帰のモデルを作成しリンク予測（時刻予測のモデルではない） ⇒ 一般化線形モデル (GLM) として一般化できる (Y = f( Xβ ) , Y~Bernoulli でパラメータを求める) ⇒ [Sun+ 2012] では Y にイベント待ち時間などのモデルとして用いられる分布を仮定しモデルを提案

イベント待ち時間によく用いられる分布 λ := mean waiting time k := shape
parameter shape parameter を変化させたときの pdf. 赤の pdf. (k = 1) が exponential distribution ( 注: 論文では λ:=shape, θ:=mean waiting time) λ (mean waiting time) は固定 k: Increase/decrease happening rate along the time

• 実験では引用ある/なし, それぞれ 7000 pair 用いる • Future interval 内に
y_i がある場合は pdf を使う • Future interval 外 (時間 T 以内に関係を作らない) に y_i がある場合 future interval より先の確率( CDF ) T 区間内の訓練データで引用関係がある場合 T 区間内の訓練データで引用関係がない場合

Log Log 共通項の Indicator func. 消す

• 同様に幾何分布 (離散) でもモデル化 – コイントスで負け続けはじめて勝ちが来る確率 • Weibull dist. の
pdf と似たような pmf • Weibull dist. と同様に log-likelihood 求める

• Log-likelihood を最大化するパラメータ探す – Weibull のモデルは β, λ (shape parameter)
– Geometric のモデルは β • 勾配法 (Newton-Raphson method) を使う – 勾配求めてパラメータ更新していく – Weibull のモデルでは交互にパラメータ更新

関係が作られる時間をモデル化したことで以下の質問に答えることができる 1. t 年以内に２つのオブジェクト間に関係が作られるか？ Ans: 得られたパラメータを用いてPr(y_test <= t)
2. ２つのオブジェクト間に関係が作られる平均の時間は？ Ans: 期待値 E(y_test) を計算すればよい 3. 確率αでいつ relationship ができるか？ Ans: F_Y(y_test) = α となる y_test を答える

どのような結果が得られたか？

• 「リンクの (ある/ない)」を隠して Test set 作成 • 予測する未来のインターバール T を変えて実験
• 時間予測ではなくリンク予測のみの性能はロジスティック回帰が良い（あまり変わらない） – では訓練時とテスト時のインターバル T が異なる場合は … ? (Table 3, Table 4)

• 訓練時とテスト時のインターバルを変えた時 Logistic よりイベントモデルを入れたほうが良い • やの大きさを片方固定して比較

• Table 5 は時間予測の評価. 指数分布が適していた • , （分布関数の中間）を関係のできる相対時刻として予測 •
Positive relation のときのみで MAE (Ground Truth との差の平均) を計算

• 得られた分布で、関係を作る時間を当てることができるのか？ – Confidence interval ごとに True relationship が出
現する割合を調べる • 特に小さい confidence interval で True relationship が出現する (10-90, 0-80 比較) • 推定のタイトな上限を与えるので有用

• Philip S. Yu と他の関係について citation 関係構築の時間予測（GLM-weib, λ=0.9331） –
the citation relationship has a higher hazard happening at an earlier time • Median や Confidence interval が予測において有用 • Ground truth と有意に異なるのでより深い研究が必要 • David Maier を引用すべきなのにしていない. 引用すべき文献を推薦する用途にも提案モデルが利用できる 50% quantile

まとめ（再掲） • 異種のノード、異種のリンクで作るネットワーク（Heterogeneous network）上のリンク予測 • Whether ではなく When を当てる
• 例: いつ「@y_benjo（人）」が「When Will It Happen? – Relationship Prediction in Heterogeneous Information Networks（論文）」を引用する（関係を作る）か？ • リンク予測のタスクを拡張して, Topological Feature として Meta path を導入 • GLM によるイベント発生時間のモデル化 ※ link prediction のタスク拡張として Relationship prediction を定義していますが時間を推定するとこ以外はただの問題の言い換えで新規性が薄いためスルー

気になったところ • Heterogeneous network として扱う必然性 OR Meta Path を topological
feature として使う必然性がわからない – 比較している [Popescul & Ungar 2003] は元々 homogeneous network におけるモデルであり, ノードごとに RDB から特徴量作成 – 他の homogeneous network における topological feature と比較して Meta Path が有用か気になる – Author-Author ではなく heterogeneous な関係を予測する検証であれば違和感少ないけど…

• Feature selection in a relational environment using relational language
[Popescul & Ungar 2003] • Systematically exploring the topological features in heterogeneous networks [Sun+ 2012]

表現が違うだけでできることは変わらないような … (´・ω・｀)

気になったところ • Table 5 の Predicted time の MAE が大きく
出来の良いモデルには見えない – 提案モデルごとの比較はできるが MAE が大きいのか小さいのか絶対的な判断ができない（＝問題がムズカシイか否か） – Ground Truth の平均をすべて出力する Predictor を baseline とすれば MAE 大きくても |T| / 2 程度

検証できるよう作ったデータ公開してほしい… (´・ω・｀)

今日読むもの（本しっかり＋） 1. When Will It Happen? – Relationship
Prediction in Heterogeneous Information Networks [Sun+ 2012] 2. Inferring Social Ties across Heterogeneous Networks [Tang+ 2012] 3. 他 (※ Rights to all the images belong to their respective owners)

スライド作る余裕なかった … 5 分くらいで残り説明します (´・ω・｀)

Social network における関係の背景で働く力を使い他のネットワークの関係を用いてリンク予測

エッジのみ heterogeneous なネットワークを考える. 一部の Labeled な relationship を用いて Unlabeled
な relationship を当てる問題

基本的なアイディアはノード関係の因子グラフを作成し, 推定したい Relationship をその隠れ変数としてモデルを作る

先行研究

4 つの Social Theory を用いて source network と Target network
で知識を共有 (Social balance, structural hole, social status, two-step-flow) → 詳しくは論文を参照してくｄｓ (´・ω・｀)

Social theories を使い Triad-based factor を用いて知識を移す

Repeat 未知変数の Merginal distribution → LBP Log-likelihood → Gradient Descent
でパラメータ更新

Social theory を混ぜることで有意に推定の精度を上げることができた

その他を扱った話題 • On clustering heterogeneous social media objects with
outlier links Guo-Jun Qi, Charu C. Aggarwal, Thomas S. Huang – Social media (Flicker) を clustering するために Tri-partite graph (tags, multimedia objs, users) 上の random filed model (HRF) を提案 • mTrust: discerning multi-faceted trust in a connected world Jiliang Tang, Huiji Gao, Huan Liu – Trust Relationship の表現と, その強さの推定 (Reting prediction など) について Product review (Epinion, Ciao) のドメインで研究 • Beyond 100 million entities: large-scale blocking-based resolution for heterogeneous data George Papadakis, Ekaterini Ioannou, Claudia Niederée, Themis Palpanas, Wolfgang Nejdl • Pairwise cross-domain factor model for heterogeneous transfer ranking Bo Long, Yi Chang, Anlei Dong, Jianzhang He 感想: 門外漢から見るとクロールしたものを使う研究が多く、実験結果を再現することが困難なものが多いという印象を受けた. メタデータいっぱい持つ会社様に期待したい.

コメント・誤りの指摘など歓迎します @smly (OR [email protected]) マデ

WSDM 2012 勉強会 (When Will It Happen?)

WSDM 2012 勉強会 (When Will It Happen?)

More Decks by @smly

Featured

Transcript