Upgrade to Pro — share decks privately, control downloads, hide ads and more …

情報検索2

F0374c992b2847f78a662cc964171343?s=47 nishi-k
March 01, 2016

 情報検索2

F0374c992b2847f78a662cc964171343?s=128

nishi-k

March 01, 2016
Tweet

More Decks by nishi-k

Other Decks in Education

Transcript

  1. -情報検索(2)- 第9回 B3勉強会 2016年2月3日 自然言語処理研究室 学部3年 西山 浩気

  2. はじめに  参考文献 黒橋 貞夫, 自然言語処理, 放送大学教 育振興会,(2015.3.20),pp.146-153  発表内容

    ◦ 1. 情報検索の評価 ◦ 2. ウェブ検索の仕組み ◦ 3. ページランク
  3. 前回の復習  クエリ ◦ 検索したい内容を表現する語集合  例: 「言語 コンピュータ」で検索 

    1万件以上がマッチする  ⇒ 関連度の高い文章でランキングする必要がある!  ベクトル空間モデル ◦ ベクトル間の類似度を用いてクエリに対する 文書のランキングを行う  cos (d 文書1 , q) = 0.83  cos (d 文書2 , q) = 0.38  cos (d 文書3 , q) = 0.74  cos (d 文書4 , q) = 0.30  cos (d 文書5 , q) = 0.00
  4. 情報検索の評価  評価の尺度 ◦ 適合率 (precision) ◦ 再現率 (recall) ◦

    F値 (F-measure) d 4 d 5 d 2 d 1 d 3 d 6 d 7 d 8 d 9 d 11 d 10 d 12 d 13 d 14 d 15 関連する文章 システムが 選択した文章 検索対象文章全体
  5. 適合率、再現率、F値  適合率 = |システムの選択文書 ∩ 関連文書| |システムの選択文書| = 3

    / 6 = 0.5  再現率 = |システムの選択文書 ∩ 関連文書| |関連文書| = 3 / 5 = 0.6  F値 = 2 × 適合率 × 再現率 適合率 + 再現率 = 2 × 0.5 × 0.6 = 0.6 0.5 + 0.6
  6.  適合率・再現率・F値 ◦ 各文書が関連するか否か  多くの文書から必要な文書を抽出するためにはラン ク付きで返すことが重要  平均適合率(average precision)

    : AP(q) ◦ AP(q) =  n : qに関連のある文書数  r k : システムのランキングの中でk 番目の関連文書 のランキング MAP(mean average precision)
  7. MAP(mean average precision) d 4 d 5 d 2 d

    1 d 3 d 6 d 7 d 8 d 9 d 11 d 10 d 12 d 13 d 14 d 15 検索対象文書全体 システムが15個の文書をランキング 関連文書 d 10 d 1 d 2 d 11 d 3 d 4 d 5 d 12 d 6 d 13 d 7 d 14 d 8 d 9 d 15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
  8. MAP(mean average precision)  m個の評価クエリの集合 Q ◦ Q = {

    q 1 ,q 2 ,...q m }
  9. ウェブ検索の仕組み  誘導型(navigational) ◦ 存在することが予想されるページを見つ けることが目的(企業や行政)  クエリは企業名など  クエリとは独立に、ページの重要度を考える

     調査型(informational) ◦ 何を調べたいかが明確でない  クエリとページの関連度が重要  ページの重要度も重要
  10.  クローラー(crawler) ◦ ウェブページを収集するソフトウェア  日本語のウェブページ ◦ 100億以上 ◦ 全言語では1000億以上

     ページの誕生・消滅、 既存ページの更新が行われる中で 新しいページを収集 ウェブ検索の仕組み ハイパー リンク ウェブ ページ1 ウェブ ページ2 ウェブ ページ3 クローラー
  11. ページランク  ページランク(PageRank) ◦ ハイパーリンクによるウェブの構造のみを利用 してページの重要度を計算するアルゴリズム  考え方:「重要なページは重要なページからリンク されている」 

    ページu の重要度PR(u) ◦ B u : ページuをリンクしてるページの集合 ◦ L v : ページvからのリンク数 ◦ N : 検索対象とするウェブページの総数 ◦ D: ダンピング・ファクター (0.85程度)
  12. ページランク PR(A): 0.20 PR(B): 0.12 ページA ページB ページC 0.1 0.1

    0.04 0.04 0.04 ページD 0.05 0.05 0.07 0.07 PR(C): 0.14 PR(D): 0.1