Upgrade to Pro — share decks privately, control downloads, hide ads and more …

情報検索の基礎#20/IntroductionToInformationRetrieval-20

yamasa
November 03, 2019
110

 情報検索の基礎#20/IntroductionToInformationRetrieval-20

yamasa

November 03, 2019
Tweet

Transcript

  1. 19.1 背景と歴史 • HTMLとURLによりコンテンツ作成者(未熟なものを含み)が急速に増 えていった • Webの世界では基本的に、コンテンツ作成者以外から発見され、使 われなければ価値がない • この”発見”の試みは以下の2つのカテゴリーに分かれる

    • フルテキスト索引検索(Altavista、Excite、Infoeekなど) • カテゴリー分類(Yahoo!) • カテゴリー分類は、分類をノードに割り当てるためほとんど手作業に よる編集が必要 →ウェブのページが増えるのに応じてスケールすることが難しい
  2. 19.3 経済モデルとしての宣伝 • ウェブの初期では、企業はウェブページ上でグラフィカルなバナー広 告を使った ・ブランディングのため ・広告の表示回数によりコストが掛かるモデル • Goto(Overture)による入札のモデルの開拓 •

    スポンサー付き検索・検索広告 ・ユーザーと広告主を強く結び付けられる ・クリック単位によりコストが掛かるモデル ↓ またまた必然的にクリックスパムが現れる
  3. 19.4.1 ユーザーのクエリー要求 • 情報型クエリー ・広い話題(クエリー)に対し、一般的な情報を探す • 探索型クエリー ・あるメーカーのホームページなど、特定のページを検索 • 取引型クエリー

    ・ある商品を購入するサイトやホテルの予約サイトなどを検索 ↓ 分類としては分けられるが、実際に識別するのは難しい 検索エンジンは上記のクエリーの適合状況より、競合とのインデックス の大小に注意を払う必要があった(次節への前振り)
  4. 19.6 ほぼ複製とシングリング 例)   dの文書を以下としたとき     ・「a rose is a rose is

    a rose」   4シングリング(k=4)の各シングルは、以下の通り     ・「a rose is a」     ・「rose is a rose」     ・「is a rose is a」
  5. 19.6 ほぼ複製とシングリング 2.各シングルをハッシュ値にマッピングする   j d H を 

     j d S から計算したハッシュ値の集合とする 3.「2.」を更にランダムな整数値から整数値への置換を行う   (これにより後述する最小の整数がランダムに決定される)    j d を   j d H からランダムに置換した整数値の集合とする
  6. 参考文献 • https://nlp.stanford.edu/IR-book/html/htmledition/web-search-basics-1.html • https://nlp.stanford.edu/IR-book/ppt/ • ウェブ構造マイニング https://www.ai-gakkai.or.jp/whatsai/AItopics6.html • シングリング

    https://www.cs.princeton.edu/courses/archive/spring05/cos598E/bib/Princeton.pdf スケッチを作成するときにハッシュに対して行う操作(π)を200の剰余とするとスッキリ