Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Google PageRank勉強会#1 / Google PageRank 2011-06-22

Google PageRank勉強会#1 / Google PageRank 2011-06-22

Google PageRankの数理 第1章〜第5章の輪講スライドです。

Jun Hashimoto

June 22, 2011
Tweet

More Decks by Jun Hashimoto

Other Decks in Technology

Transcript

  1. Webの情報検索 • 巨大 – 2008年7月時点で1兆ページを超える • 動的 – “.com”ページの23%は毎日更新 •

    自己組織化 – データはつかの間.更新,リンクの破壊,ページ の消失 • ハイパーリンク付き – リンク構造から得られる情報を検索に役立てる 4
  2. Query-dependent Query-independent 検索エンジンの要素 WWW Crawler Module Page Repository Indexing Module

    Index User Query Module Ranking Module Input Query Output Result Structure Index Content Index Special-purpose Index クエリー独立:検索語と無関係 クエリー従属:検索語に依存 collect stock extract compress 5
  3. インデックス(Index) • 構造インデックス(Structure Index) – ページ間のリンク情報 • 内容インデックス(Content Index) –

    WebのKeyword,Subject,Key Sentenceを蓄積 • 特殊用途インデックス(Special-purpose Index) – 画像・pdfファイル等の特別なQuery処理に利用 Index Structure Index Content Index Special-purpose Index 6
  4. 内容インデックス(Content Index) • 内容インデックス – タイトル – メタタグの記述文 • Ex:<meta

    name=“description” content=“hogehuga”/> – アンカーテキスト(太字,大きなフォント,リンク) • これらの内容を転置ファイル(inverted file)へ格納 <Example> ・Word1(aardvark) - 3,117,3961 … ・Word10(aztec) - 3,15,19,101,673,1199 ・Word11(baby) - 3,31,56,94,673,909,11114,253791 … ・Word m(zymurgy) - 1159223 Page No. 7
  5. 内容得点(Content score) • 転置ファイルを以下のような3次元ベクトルで 表現 <Simple Example> ・Word10(aztec) - 3[1,1,27],94[1,0,7],673[0,0,3]

    ・Word11(baby) - 3[1,1,10],94[0,0,5],673[1,1,14] タイトルタグに現れた(1 or 0) metaタグに現れた(1 or 0) 本文中に現れた回数 aztec baby [Content score] Page3=(1+1+27)*(1+1+10)=348 Page94=(1+0+7)*(0+0+5)=40 Page673=(0+0+3)*(1+1+14)=48 1st 3rd 2nd ※内容得点は検索語に依存->クエリー依存(Query dependent) 10
  6. 人気得点(Popularity score) • 大きく分けて2つのやり方がある – PageRank[Google] • ハイパーリンクはリンク先への“推薦” – HITS(Hypertext

    Induced Topic Search)[Ask.com etc] • 入リンク,出リンク共に考える • 今日はPageRankについて紹介 11
  7. PageRankの起源 • ブリンとページにより発明 • ページ のPageRank:( ) – = ()

    || ∈ -(1)[総和方程式] • : を指すページの集合 • :ページ からの出リンクの個数 • 問題点:( )が未知 – 初期値を一様(1/n)とし,反復法を利用して算出 – +1 = () || ∈ -(2) 12
  8. 反復法の例 • 初期値1/6,反復法を利用 • +1 = () || ∈ 1

    2 3 4 5 6 0回目 1回目 2回目 0 1 = 1/6 1 1 = 1/18 2 1 = 1/36 0 2 = 1/6 1 2 = 5/36 2 2 = 1/18 0 3 = 1/6 1 3 = 1/12 2 3 = 1/36 0 4 = 1/6 1 4 = 1/4 2 4 = 17/72 0 5 = 1/6 1 5 = 5/36 2 5 = 11/72 0 6 = 1/6 1 6 = 1/6 2 6 = 14/72 13
  9. 総和方程式の行列表現 • ハイパーリンク行列H(n*n) – ノードi->jのリンクがあれば = 1 || ,それ以外0 •

    PageRankベクトルπ(1*n) • (2)式の行列表現: +1 = – Hは疎な行列 – 平均的なwebページは出リンクが10個 • O(10n)の計算量 14
  10. 基本モデルに対する調整① • ぶら下がり問題に対する解決策(確率的調整) – “ランダムサーファー(random surfer)”モデルの導入 • ぶら下がりノードに入った後はランダムに全ページに飛ぶ • この調整により,以下の行列が得られる

    – = + 1 ∗ – S:確率行列 – a:ぶら下がりノードベクトル • ぶら下がりノードなら = 1,そうでなければ0 • この調整により,Sは確率的(stochastic)となる – マルコフ連鎖の推移確率行列 16
  11. 原始的調整による効果 • Google行列Gには,以下の性質がある – 確率的(stochastic):確率的行列SとEの合成 • 各行の全成分を足し込むと1になる – 既約(irreducible):全ての 成分が非零

    • 任意の状態から,任意の状態へと遷移可能 – 非周期的(aperiodic):全ての対角成分が正 – 原始的(primitive):Gの全ての成分が正 • 原始性に対する必要十分条件: > を満たすm>0 が存在(m=1で成立している) 18 →Gはマルコフ連鎖の推移確率行列
  12. GoogleのPageRank調整手法 • +1 = ,これだけ • Gに適用したベキ乗法で計算できる – 最大の2つの固有値を1 ,

    2 とすると,漸近的な 収束の速さは, 2 1 ->0の速さ – Google行列では1 = 1, 2 ≦ である(次回説明) ため,がおおよその収束の目安となる 21
  13. PageRankモデルのパラメータ”E” • E=1 ∗ をへ(パーソナル化) – :テレポーテーションベクトル • で与えられる個人的な嗜好に基づき,次のページへ テレポートする

    • 現実的な問題として,全てのユーザに対して を計算することは不可能 – 1つのベクトルに対してでさえ,数日以上かかる 23