Slide 1

Slide 1 text

勉強会 関連

Slide 2

Slide 2 text

今日読むもの( 本しっかり+ ) 1. When Will It Happen? – Relationship Prediction in Heterogeneous Information Networks [Sun+ 2012] 2. Inferring Social Ties across Heterogeneous Networks [Tang+ 2012] 3. 他 (※ Rights to all the images belong to their respective owners)

Slide 3

Slide 3 text

まとめ(問題と貢献) • 異種のノード、異種のリンクで作るネットワー ク(Heterogeneous network)上のリンク予測 • Whether ではなく When を当てる • 例: いつ「@y_benjo(人)」が「When Will It Happen? – Relationship Prediction in Heterogeneous Information Networks(論文)」 を引用する(関係を作る)か? • リンク予測のタスクを拡張して, Topological Feature として Meta path を導入 • GLM によるイベント発生時間のモデル化 ※ link prediction のタスク拡張として Relationship prediction を定義していますが 時間を推定するとこ以外はただの問題の言い換えで新規性が薄いためスルー

Slide 4

Slide 4 text

どのような問題か?

Slide 5

Slide 5 text

• 異種のノード、異種のリンクで作るネットワー ク(Heterogeneous network)上のリンク予測

Slide 6

Slide 6 text

• 異種のノード、異種のリンクで作るネットワー ク(Heterogeneous network)上のリンク予測 – 論文, 著者 用語, 開催地 → A

Slide 7

Slide 7 text

• 異種のノード、異種のリンクで作るネットワー ク(Heterogeneous network)上のリンク予測 – 言及, 執筆 引用, 出版 → A → R

Slide 8

Slide 8 text

特定の 「 」 → A → R 特定の の 特定の が作られる相対時間

Slide 9

Slide 9 text

どのように特徴量を作るか

Slide 10

Slide 10 text

(同類のノードとエッジで作られる) Homegeneous network での topological feature は既存の研究多数 Common neighbors, preferential attachment, katzβ, Adamic/Adar, rooted PageRank, PropFlow など - ノードペアに関するスコアを計算してリンク 予測する (unsupervised な link prediction) ⇒ Meta-path [Sun+ 2011a] を使い 2つの頂点間に対する Heterogeneous network のための特徴量を作る

Slide 11

Slide 11 text

による関係の定義 Meta-Path = Heterogeneous network 上のパスのテンプレート → A → R • 共著関係(A:=Author, P:=Paper) • Author citation 関係(引用してる人の関係) (※ 同じ vertex type 間の edge type は directed edge に対する mapping なので Meta-Path にも向きを記す) (簡略版) (簡略版) 論文ではこの関係を 予測する実験をしている ( Target relation )

Slide 12

Slide 12 text

どのように を作るか まず「似た著者」の関係を Meta-Path で定義して 特徴量を作る – 「似た著者が引用している論文」は引用する傾 向がある、などの特徴量を作るため – 共著, 同じ共著者, 同じ語を用いるなど 6 つ

Slide 13

Slide 13 text

特徴量を作る3つのタイプ 「似た著者」 の関係を使って 3つのタイプの特徴量を作る

Slide 14

Slide 14 text

似た著者が を持つ • (type a) – 似た著者が Target relation を持っている • が Target relation • を展開して6つの特徴量作る 似た著者

Slide 15

Slide 15 text

を持っている似た著者 • (type b) – 似た著者が Target relation を持っている • が Target relation • を展開して6つ特徴量作る 似た著者

Slide 16

Slide 16 text

• (type c) – C を仲介して関係を持っている • で6つ • A-P→P→P-A で1つ特徴量作る

Slide 17

Slide 17 text

どのようにモデル化するか?

Slide 18

Slide 18 text

を使った従来手法 Input : object pair の features Output : { True , False } グラフのノード間に対して特徴量を計算して ロジスティック回帰のモデルを作成しリンク予測 (時刻予測のモデルではない) ⇒ 一般化線形モデル (GLM) として一般化できる (Y = f( Xβ ) , Y~Bernoulli でパラメータを求める) ⇒ [Sun+ 2012] では Y にイベント待ち時間などのモ デルとして用いられる分布を仮定しモデルを提案

Slide 19

Slide 19 text

イベント待ち時間によく 用いられる分布 λ := mean waiting time k := shape parameter shape parameter を 変化させたときの pdf. 赤の pdf. (k = 1) が exponential distribution ( 注: 論文では λ:=shape, θ:=mean waiting time) λ (mean waiting time) は固定 k: Increase/decrease happening rate along the time

Slide 20

Slide 20 text

• 実験では引用ある/なし, それぞれ 7000 pair 用いる • Future interval 内に y_i がある場合は pdf を使う • Future interval 外 (時間 T 以内に関係を作らない) に y_i がある場合 future interval より先の確率( CDF ) T 区間内の訓練データで 引用関係がある場合 T 区間内の訓練データで 引用関係がない場合

Slide 21

Slide 21 text

Log Log 共通項の Indicator func. 消す

Slide 22

Slide 22 text

• 同様に幾何分布 (離散) でもモデル化 – コイントスで負け続けはじめて勝ちが来る確率 • Weibull dist. の pdf と似たような pmf • Weibull dist. と同様に log-likelihood 求める

Slide 23

Slide 23 text

• Log-likelihood を最大化するパラメータ探す – Weibull のモデルは β, λ (shape parameter) – Geometric のモデルは β • 勾配法 (Newton-Raphson method) を使う – 勾配求めてパラメータ更新していく – Weibull のモデルでは交互にパラメータ更新

Slide 24

Slide 24 text

関係が作られる時間をモデル化したことで以下の 質問に答えることができる 1. t 年以内に2つのオブジェクト間に関係が作ら れるか? Ans: 得られたパラメータを用いてPr(y_test <= t) 2. 2つのオブジェクト間に関係が作られる平均 の時間は? Ans: 期待値 E(y_test) を計算すればよい 3. 確率αでいつ relationship ができるか? Ans: F_Y(y_test) = α となる y_test を答える

Slide 25

Slide 25 text

どのような結果が得られたか?

Slide 26

Slide 26 text

• 「リンクの (ある/ない)」を隠して Test set 作成 • 予測する未来のインターバール T を変えて実験 • 時間予測ではなくリンク予測のみの性能はロジ スティック回帰が良い(あまり変わらない) – では訓練時とテスト時のインターバル T が異 なる場合は … ? (Table 3, Table 4)

Slide 27

Slide 27 text

• 訓練時とテスト時のインターバルを変えた時 Logistic よりイベントモデルを入れたほうが良い • や の大きさを片方固定して比較

Slide 28

Slide 28 text

• Table 5 は時間予測の評価. 指数分布が適していた • , (分布関数の中間)を 関係のできる相対時刻として予測 • Positive relation のときのみで MAE (Ground Truth と の差の平均) を計算

Slide 29

Slide 29 text

• 得られた分布で、関係を作る時間を当てることが できるのか? – Confidence interval ごとに True relationship が出 現する割合を調べる • 特に小さい confidence interval で True relationship が出現する (10-90, 0-80 比較) • 推定のタイトな上限を与えるので有用

Slide 30

Slide 30 text

• Philip S. Yu と他の関係について citation 関係構築の時 間予測(GLM-weib, λ=0.9331) – the citation relationship has a higher hazard happening at an earlier time • Median や Confidence interval が予測において有用 • Ground truth と有意に異なるのでより深い研究が必要 • David Maier を引用すべきなのにしていない. 引用すべ き文献を推薦する用途にも提案モデルが利用できる 50% quantile

Slide 31

Slide 31 text

まとめ(再掲) • 異種のノード、異種のリンクで作るネットワー ク(Heterogeneous network)上のリンク予測 • Whether ではなく When を当てる • 例: いつ「@y_benjo(人)」が「When Will It Happen? – Relationship Prediction in Heterogeneous Information Networks(論文)」 を引用する(関係を作る)か? • リンク予測のタスクを拡張して, Topological Feature として Meta path を導入 • GLM によるイベント発生時間のモデル化 ※ link prediction のタスク拡張として Relationship prediction を定義していますが 時間を推定するとこ以外はただの問題の言い換えで新規性が薄いためスルー

Slide 32

Slide 32 text

気になったところ • Heterogeneous network として扱う必然性 OR Meta Path を topological feature として使う 必然性がわからない – 比較している [Popescul & Ungar 2003] は 元々 homogeneous network におけるモデル であり, ノードごとに RDB から特徴量作成 – 他の homogeneous network における topological feature と比較して Meta Path が有用か気になる – Author-Author ではなく heterogeneous な関係 を予測する検証であれば違和感少ないけど…

Slide 33

Slide 33 text

• Feature selection in a relational environment using relational language [Popescul & Ungar 2003] • Systematically exploring the topological features in heterogeneous networks [Sun+ 2012]

Slide 34

Slide 34 text

表現が違うだけで できることは変わらないような … (´・ω・`)

Slide 35

Slide 35 text

気になったところ • Table 5 の Predicted time の MAE が大きく 出来の良いモデルには見えない – 提案モデルごとの比較はできるが MAE が大きいの か小さいのか絶対的な判断ができない(=問題が ムズカシイか否か) – Ground Truth の平均をすべて出力する Predictor を baseline とすれば MAE 大きくても |T| / 2 程度

Slide 36

Slide 36 text

検証できるよう作ったデータ公開してほしい… (´・ω・`)

Slide 37

Slide 37 text

今日読むもの( 本しっかり+ ) 1. When Will It Happen? – Relationship Prediction in Heterogeneous Information Networks [Sun+ 2012] 2. Inferring Social Ties across Heterogeneous Networks [Tang+ 2012] 3. 他 (※ Rights to all the images belong to their respective owners)

Slide 38

Slide 38 text

スライド作る余裕なかった … 5 分くらいで残り説明します (´・ω・`)

Slide 39

Slide 39 text

Social network における関係の背景で働く力を使い 他のネットワークの関係を用いてリンク予測

Slide 40

Slide 40 text

エッジのみ heterogeneous なネットワークを考 える. 一部の Labeled な relationship を用いて Unlabeled な relationship を当てる問題

Slide 41

Slide 41 text

基本的なアイディアはノード関係の因子グラフを 作成し, 推定したい Relationship をその隠れ変数と してモデルを作る

Slide 42

Slide 42 text

先行研究

Slide 43

Slide 43 text

4 つの Social Theory を用いて source network と Target network で知識を共有 (Social balance, structural hole, social status, two-step-flow) → 詳しくは論文を参照してくds (´・ω・`)

Slide 44

Slide 44 text

Social theories を使い Triad-based factor を用いて 知識を移す

Slide 45

Slide 45 text

Repeat 未知変数の Merginal distribution → LBP Log-likelihood → Gradient Descent でパラメータ更新

Slide 46

Slide 46 text

Social theory を混ぜることで有意に推定の精度を上 げることができた

Slide 47

Slide 47 text

その他 を扱った話題 • On clustering heterogeneous social media objects with outlier links Guo-Jun Qi, Charu C. Aggarwal, Thomas S. Huang – Social media (Flicker) を clustering するために Tri-partite graph (tags, multimedia objs, users) 上の random filed model (HRF) を提案 • mTrust: discerning multi-faceted trust in a connected world Jiliang Tang, Huiji Gao, Huan Liu – Trust Relationship の表現と, その強さの推定 (Reting prediction な ど) について Product review (Epinion, Ciao) のドメインで研究 • Beyond 100 million entities: large-scale blocking-based resolution for heterogeneous data George Papadakis, Ekaterini Ioannou, Claudia Niederée, Themis Palpanas, Wolfgang Nejdl • Pairwise cross-domain factor model for heterogeneous transfer ranking Bo Long, Yi Chang, Anlei Dong, Jianzhang He 感想: 門外漢から見るとクロールしたものを使う研究が多く、 実験結果を再現することが困難なものが多いという 印象を受けた. メタデータいっぱい持つ会社様に期待したい.

Slide 48

Slide 48 text

コメント・誤りの指摘など歓迎します @smly (OR [email protected]) マデ