情報検索の基礎#20/IntroductionToInformationRetrieval-20

by yamasa

Slide 1

Slide 1 text

名古屋検索勉強会＃２１ウェブ検索の基礎 t-sayama

Slide 2

Slide 2 text

１９章の概要 • １９．１：背景と歴史 • １９．２：ウェブの特徴 • １９．３：経済モデルとしての宣伝 • １９．４：検索のユーザーエクスペリエンス • １９．５：インデックスのサイズと推定 • １９．６：ほぼ複製とシングリング

Slide 3

Slide 3 text

１９章の概要 • ウェブが持つグラフ的な側面 • ウェブが持つ商業的な側面 • 検索エンジンが持つインデックスサイズの相対的な推定 • ほぼ同一内容のウェブページを如何に判定するか

Slide 4

Slide 4 text

１９．１背景と歴史

Slide 5

Slide 5 text

１９．１背景と歴史 • HTMLとURLによりコンテンツ作成者（未熟なものを含み）が急速に増えていった • Webの世界では基本的に、コンテンツ作成者以外から発見され、使われなければ価値がない • この”発見”の試みは以下の２つのカテゴリーに分かれる • フルテキスト索引検索（Altavista、Excite、Infoeekなど） • カテゴリー分類（Yahoo!） • カテゴリー分類は、分類をノードに割り当てるためほとんど手作業による編集が必要 →ウェブのページが増えるのに応じてスケールすることが難しい

Slide 6

Slide 6 text

１９．２ウェブの特徴

Slide 7

Slide 7 text

１９．２ウェブの特徴 • 中央集権的な制御を持たない分散化されたコンテンツ出版 • たくさんの自然言語が使用されたコンテンツ • 文法、スタイルの膨大な多様性 • 真実、うそ、矛盾、憶測が含まれたコンテンツ ↓ これらの特徴がウェブコンテンツのインデックス付けを困難にする

Slide 8

Slide 8 text

１９．２．１ウェブグラフ • ウェブは、各ウェブページを点、ハイパーリンクを有向辺とするグラフとみることができる Aに向く辺がないため、強連結ではない

Slide 9

Slide 9 text

１９．２．１ウェブグラフ • この有向グラフは蝶ネクタイ構造を持っている SCC：強連結成分 (strongly connected components) Graph structure in the Web(A.Broder, R.Kumar他) Web構造マイニング https://www.ai-gakkai.or.jp/whatsai/AItopics6.html

Slide 10

Slide 10 text

１９．２．２スパム多くのコンテンツ作成者は商業的動機を持っており、検索エンジンの検索結果が将来の購買者を獲得する重要な手段 ↓ スパムが必然的に登場する ↓ SEO

Slide 11

Slide 11 text

１９．３経済モデルとしての宣伝

Slide 12

Slide 12 text

１９．３経済モデルとしての宣伝 • ウェブの初期では、企業はウェブページ上でグラフィカルなバナー広告を使った・ブランディングのため・広告の表示回数によりコストが掛かるモデル • Goto(Overture)による入札のモデルの開拓 • スポンサー付き検索・検索広告・ユーザーと広告主を強く結び付けられる・クリック単位によりコストが掛かるモデル ↓ またまた必然的にクリックスパムが現れる

Slide 13

Slide 13 text

１９．４検索のユーザーエクスペリエンス

Slide 14

Slide 14 text

１９．４検索のユーザーエクスペリエンス • ユーザートラフィックが増えれば、ウェブ検索エンジンがスポンサーから得られる売上が上がる ↓ どうすればユーザートラフィックを上げられるのか？ Googleは競争相手の費用で？トラフィックを増やせる方式を見出した（Here Google identified two principles that helped it grow at the expense of its competitors） 1. 再現率より関連性・適合率に焦点 2. 軽い（lightweight）検索結果

Slide 15

Slide 15 text

１９．４．１ユーザーのクエリー要求 • 情報型クエリー・広い話題（クエリー）に対し、一般的な情報を探す • 探索型クエリー・あるメーカーのホームページなど、特定のページを検索 • 取引型クエリー・ある商品を購入するサイトやホテルの予約サイトなどを検索 ↓ 分類としては分けられるが、実際に識別するのは難しい検索エンジンは上記のクエリーの適合状況より、競合とのインデックスの大小に注意を払う必要があった（次節への前振り）

Slide 16

Slide 16 text

１９．５インデックスのサイズと推定

Slide 17

Slide 17 text

１９．５インデックスのサイズと推定 • ある２つの検索エンジンのインデックスのサイズついて比較する場合、以下の２つの理由から比較は不正確である・検索エンジンはインデックス付けされていないページを返すことができる・検索エンジンはそれぞれ独自の層や分類分けをしており、　すべてのインデックスが捜査されるわけでなない End Of Size Wars? Google Says Most Comprehensive But Drops Home Page Count https://www.searchenginewatch.com/2005/09/26/end-of-size-wars-google-says-most-comprehensive-but-drops-home-page-count/

Slide 18

Slide 18 text

１９．５インデックスのサイズと推定 • 前ページの課題があるが、２つの仮定により、相対的なインデックスサイズを推定する１）各検索エンジンが部分集合として選択するウェブの世界が　　有限であること２）各検索エンジンが一様に選ばれた部分集合を選ぶこと

Slide 19

Slide 19 text

１９．５インデックスのサイズと推定１．検索エンジンE1のインデックスからランダムなページを選ぶ２．検索エンジンE2に「１．」のページがあるかを調べる１’．検索エンジンE2のインデックスからランダムなページを選ぶ２’．検索エンジンE1に「１’．」のページがあるか調べる３．「１．」～「２’．」を繰り返し、E1のページがE2に含まれる割合ｘと　　E2のページがE1に含まれる割合ｙを求める x y E E E y E x    2 1 2 1 i E を検索エンジン Ei i E のインデックスサイズとすると

Slide 20

Slide 20 text

１９．６ほぼ複製とシングリング

Slide 21

Slide 21 text

１９．６ほぼ複製とシングリング • ウェブページはコンテンツの複数のコピーを含んでいる・ある評価によると４０％がほかのページ複製・さらにその多くが単純な複製（ミラーリングなどを含む） • これらの複製をインデックス付けから回避する方法・単純な複製の場合、ウェブページのフィンガープリントを見る・ほぼ複製(near duplication)の場合、シングリング(shingling)が有効シングリングの定義　・正整数ｋと文書ｄの一連の用語において、ｄのｋシングリングを　　ｄの全てのｋ個の用語の引き続きの集合とする

Slide 22

Slide 22 text

１９．６ほぼ複製とシングリング例）　　ｄの文書を以下としたとき　　　　・「a rose is a rose is a rose」　　４シングリング（ｋ＝４）の各シングルは、以下の通り　　　　・「a rose is a」　　　　・「rose is a rose」　　　　・「is a rose is a」

Slide 23

Slide 23 text

１９．６ほぼ複製とシングリング • ある２つのシングルの集合がほぼ同じであれば、それらのウェブページはほぼ複製のはずである • ただし、全てのウェブページに対し、全てのシングリングを行うのは非常に大きな計算量が必要となる ↓ シングリングの計算を効率化する必要がある

Slide 24

Slide 24 text

１９．６ほぼ複製とシングリング１．ジャカール係数（p.54参照）により、　　２つの集合の重なりの度合いを測り、　　一定の閾値（0.9など）を超えている場合にほぼ重複とする ↓ 文書比較の手法であり、まだ計算量は大きいそこでシングルのスケッチでジャカール係数を求める   j d S を文書 j d のシングルの集合とした場合、２つの集合間のジャカール係数は               2 1 2 1 2 1 / , d S d S d S d S d S d S J   

Slide 25

Slide 25 text

１９．６ほぼ複製とシングリング２．各シングルをハッシュ値にマッピングする   j d H を   j d S から計算したハッシュ値の集合とする３．「２．」を更にランダムな整数値から整数値への置換を行う　　（これにより後述する最小の整数がランダムに決定される）    j d を   j d H からランダムに置換した整数値の集合とする

Slide 26

Slide 26 text

１９．６ほぼ複製とシングリング４．「３．」の中で最小の整数を選択し、２つの集合間で比較する５．「３．」～「４．」を２００回繰り返し、一致する確率を求める　　＝ジャカール係数となる　　※「３．」の置換は都度変更するをの中の最小値とする    j d

Slide 27

Slide 27 text

１９．６ほぼ複製とシングリングさらなる効率化のために　・似通った文書をクラスター化する　　（１７．２節）　・スケッチ中のをソートし、さらにシングリングして、　　超シングルの集合を作成し、重なりを測る

Slide 28

Slide 28 text

参考文献 • https://nlp.stanford.edu/IR-book/html/htmledition/web-search-basics-1.html • https://nlp.stanford.edu/IR-book/ppt/ • ウェブ構造マイニング https://www.ai-gakkai.or.jp/whatsai/AItopics6.html • シングリング https://www.cs.princeton.edu/courses/archive/spring05/cos598E/bib/Princeton.pdf スケッチを作成するときにハッシュに対して行う操作(π)を200の剰余とするとスッキリ