Save 37% off PRO during our Black Friday Sale! »

WSDM 2012 勉強会 (When Will It Happen?)

4742812a011db89b01a52af6722640b8?s=47 @smly
April 07, 2012
2.8k

WSDM 2012 勉強会 (When Will It Happen?)

WSDM勉強会 ( http://atnd.org/events/25943 ) での論文紹介に使ったスライドです

4742812a011db89b01a52af6722640b8?s=128

@smly

April 07, 2012
Tweet

Transcript

  1. 勉強会 関連

  2. 今日読むもの( 本しっかり+ ) 1. When Will It Happen? – Relationship

    Prediction in Heterogeneous Information Networks [Sun+ 2012] 2. Inferring Social Ties across Heterogeneous Networks [Tang+ 2012] 3. 他 (※ Rights to all the images belong to their respective owners)
  3. まとめ(問題と貢献) • 異種のノード、異種のリンクで作るネットワー ク(Heterogeneous network)上のリンク予測 • Whether ではなく When を当てる

    • 例: いつ「@y_benjo(人)」が「When Will It Happen? – Relationship Prediction in Heterogeneous Information Networks(論文)」 を引用する(関係を作る)か? • リンク予測のタスクを拡張して, Topological Feature として Meta path を導入 • GLM によるイベント発生時間のモデル化 ※ link prediction のタスク拡張として Relationship prediction を定義していますが 時間を推定するとこ以外はただの問題の言い換えで新規性が薄いためスルー
  4. どのような問題か?

  5. • 異種のノード、異種のリンクで作るネットワー ク(Heterogeneous network)上のリンク予測

  6. • 異種のノード、異種のリンクで作るネットワー ク(Heterogeneous network)上のリンク予測 – 論文, 著者 用語, 開催地 →

    A
  7. • 異種のノード、異種のリンクで作るネットワー ク(Heterogeneous network)上のリンク予測 – 言及, 執筆 引用, 出版 →

    A → R
  8. 特定の 「 」 → A → R 特定の の 特定の

    が作られる相対時間
  9. どのように特徴量を作るか

  10. (同類のノードとエッジで作られる) Homegeneous network での topological feature は既存の研究多数 Common neighbors, preferential

    attachment, katzβ, Adamic/Adar, rooted PageRank, PropFlow など - ノードペアに関するスコアを計算してリンク 予測する (unsupervised な link prediction) ⇒ Meta-path [Sun+ 2011a] を使い 2つの頂点間に対する Heterogeneous network のための特徴量を作る
  11. による関係の定義 Meta-Path = Heterogeneous network 上のパスのテンプレート → A → R

    • 共著関係(A:=Author, P:=Paper) • Author citation 関係(引用してる人の関係) (※ 同じ vertex type 間の edge type は directed edge に対する mapping なので Meta-Path にも向きを記す) (簡略版) (簡略版) 論文ではこの関係を 予測する実験をしている ( Target relation )
  12. どのように を作るか まず「似た著者」の関係を Meta-Path で定義して 特徴量を作る – 「似た著者が引用している論文」は引用する傾 向がある、などの特徴量を作るため –

    共著, 同じ共著者, 同じ語を用いるなど 6 つ
  13. 特徴量を作る3つのタイプ 「似た著者」 の関係を使って 3つのタイプの特徴量を作る

  14. 似た著者が を持つ • (type a) – 似た著者が Target relation を持っている

    • が Target relation • を展開して6つの特徴量作る 似た著者
  15. を持っている似た著者 • (type b) – 似た著者が Target relation を持っている •

    が Target relation • を展開して6つ特徴量作る 似た著者
  16. • (type c) – C を仲介して関係を持っている • で6つ • A-P→P→P-A

    で1つ特徴量作る
  17. どのようにモデル化するか?

  18. を使った従来手法 Input : object pair の features Output : {

    True , False } グラフのノード間に対して特徴量を計算して ロジスティック回帰のモデルを作成しリンク予測 (時刻予測のモデルではない) ⇒ 一般化線形モデル (GLM) として一般化できる (Y = f( Xβ ) , Y~Bernoulli でパラメータを求める) ⇒ [Sun+ 2012] では Y にイベント待ち時間などのモ デルとして用いられる分布を仮定しモデルを提案
  19. イベント待ち時間によく 用いられる分布 λ := mean waiting time k := shape

    parameter shape parameter を 変化させたときの pdf. 赤の pdf. (k = 1) が exponential distribution ( 注: 論文では λ:=shape, θ:=mean waiting time) λ (mean waiting time) は固定 k: Increase/decrease happening rate along the time
  20. • 実験では引用ある/なし, それぞれ 7000 pair 用いる • Future interval 内に

    y_i がある場合は pdf を使う • Future interval 外 (時間 T 以内に関係を作らない) に y_i がある場合 future interval より先の確率( CDF ) T 区間内の訓練データで 引用関係がある場合 T 区間内の訓練データで 引用関係がない場合
  21. Log Log 共通項の Indicator func. 消す

  22. • 同様に幾何分布 (離散) でもモデル化 – コイントスで負け続けはじめて勝ちが来る確率 • Weibull dist. の

    pdf と似たような pmf • Weibull dist. と同様に log-likelihood 求める
  23. • Log-likelihood を最大化するパラメータ探す – Weibull のモデルは β, λ (shape parameter)

    – Geometric のモデルは β • 勾配法 (Newton-Raphson method) を使う – 勾配求めてパラメータ更新していく – Weibull のモデルでは交互にパラメータ更新
  24. 関係が作られる時間をモデル化したことで以下の 質問に答えることができる 1. t 年以内に2つのオブジェクト間に関係が作ら れるか? Ans: 得られたパラメータを用いてPr(y_test <= t)

    2. 2つのオブジェクト間に関係が作られる平均 の時間は? Ans: 期待値 E(y_test) を計算すればよい 3. 確率αでいつ relationship ができるか? Ans: F_Y(y_test) = α となる y_test を答える
  25. どのような結果が得られたか?

  26. • 「リンクの (ある/ない)」を隠して Test set 作成 • 予測する未来のインターバール T を変えて実験

    • 時間予測ではなくリンク予測のみの性能はロジ スティック回帰が良い(あまり変わらない) – では訓練時とテスト時のインターバル T が異 なる場合は … ? (Table 3, Table 4)
  27. • 訓練時とテスト時のインターバルを変えた時 Logistic よりイベントモデルを入れたほうが良い • や の大きさを片方固定して比較

  28. • Table 5 は時間予測の評価. 指数分布が適していた • , (分布関数の中間)を 関係のできる相対時刻として予測 •

    Positive relation のときのみで MAE (Ground Truth と の差の平均) を計算
  29. • 得られた分布で、関係を作る時間を当てることが できるのか? – Confidence interval ごとに True relationship が出

    現する割合を調べる • 特に小さい confidence interval で True relationship が出現する (10-90, 0-80 比較) • 推定のタイトな上限を与えるので有用
  30. • Philip S. Yu と他の関係について citation 関係構築の時 間予測(GLM-weib, λ=0.9331) –

    the citation relationship has a higher hazard happening at an earlier time • Median や Confidence interval が予測において有用 • Ground truth と有意に異なるのでより深い研究が必要 • David Maier を引用すべきなのにしていない. 引用すべ き文献を推薦する用途にも提案モデルが利用できる 50% quantile
  31. まとめ(再掲) • 異種のノード、異種のリンクで作るネットワー ク(Heterogeneous network)上のリンク予測 • Whether ではなく When を当てる

    • 例: いつ「@y_benjo(人)」が「When Will It Happen? – Relationship Prediction in Heterogeneous Information Networks(論文)」 を引用する(関係を作る)か? • リンク予測のタスクを拡張して, Topological Feature として Meta path を導入 • GLM によるイベント発生時間のモデル化 ※ link prediction のタスク拡張として Relationship prediction を定義していますが 時間を推定するとこ以外はただの問題の言い換えで新規性が薄いためスルー
  32. 気になったところ • Heterogeneous network として扱う必然性 OR Meta Path を topological

    feature として使う 必然性がわからない – 比較している [Popescul & Ungar 2003] は 元々 homogeneous network におけるモデル であり, ノードごとに RDB から特徴量作成 – 他の homogeneous network における topological feature と比較して Meta Path が有用か気になる – Author-Author ではなく heterogeneous な関係 を予測する検証であれば違和感少ないけど…
  33. • Feature selection in a relational environment using relational language

    [Popescul & Ungar 2003] • Systematically exploring the topological features in heterogeneous networks [Sun+ 2012]
  34. 表現が違うだけで できることは変わらないような … (´・ω・`)

  35. 気になったところ • Table 5 の Predicted time の MAE が大きく

    出来の良いモデルには見えない – 提案モデルごとの比較はできるが MAE が大きいの か小さいのか絶対的な判断ができない(=問題が ムズカシイか否か) – Ground Truth の平均をすべて出力する Predictor を baseline とすれば MAE 大きくても |T| / 2 程度
  36. 検証できるよう作ったデータ公開してほしい… (´・ω・`)

  37. 今日読むもの( 本しっかり+ ) 1. When Will It Happen? – Relationship

    Prediction in Heterogeneous Information Networks [Sun+ 2012] 2. Inferring Social Ties across Heterogeneous Networks [Tang+ 2012] 3. 他 (※ Rights to all the images belong to their respective owners)
  38. スライド作る余裕なかった … 5 分くらいで残り説明します (´・ω・`)

  39. Social network における関係の背景で働く力を使い 他のネットワークの関係を用いてリンク予測

  40. エッジのみ heterogeneous なネットワークを考 える. 一部の Labeled な relationship を用いて Unlabeled

    な relationship を当てる問題
  41. 基本的なアイディアはノード関係の因子グラフを 作成し, 推定したい Relationship をその隠れ変数と してモデルを作る

  42. 先行研究

  43. 4 つの Social Theory を用いて source network と Target network

    で知識を共有 (Social balance, structural hole, social status, two-step-flow) → 詳しくは論文を参照してくds (´・ω・`)
  44. Social theories を使い Triad-based factor を用いて 知識を移す

  45. Repeat 未知変数の Merginal distribution → LBP Log-likelihood → Gradient Descent

    でパラメータ更新
  46. Social theory を混ぜることで有意に推定の精度を上 げることができた

  47. その他 を扱った話題 • On clustering heterogeneous social media objects with

    outlier links Guo-Jun Qi, Charu C. Aggarwal, Thomas S. Huang – Social media (Flicker) を clustering するために Tri-partite graph (tags, multimedia objs, users) 上の random filed model (HRF) を提案 • mTrust: discerning multi-faceted trust in a connected world Jiliang Tang, Huiji Gao, Huan Liu – Trust Relationship の表現と, その強さの推定 (Reting prediction な ど) について Product review (Epinion, Ciao) のドメインで研究 • Beyond 100 million entities: large-scale blocking-based resolution for heterogeneous data George Papadakis, Ekaterini Ioannou, Claudia Niederée, Themis Palpanas, Wolfgang Nejdl • Pairwise cross-domain factor model for heterogeneous transfer ranking Bo Long, Yi Chang, Anlei Dong, Jianzhang He 感想: 門外漢から見るとクロールしたものを使う研究が多く、 実験結果を再現することが困難なものが多いという 印象を受けた. メタデータいっぱい持つ会社様に期待したい.
  48. コメント・誤りの指摘など歓迎します @smly (OR kohei-o@is.naist.jp) マデ