情報検索2

-情報検索(2)- 第9回 B3勉強会 2016年2月3日自然言語処理研究室学部3年西山浩気

はじめに  参考文献黒橋貞夫, 自然言語処理, 放送大学教育振興会,(2015.3.20),pp.146-153  発表内容
◦ 1. 情報検索の評価 ◦ 2. ウェブ検索の仕組み ◦ 3. ページランク

前回の復習  クエリ ◦ 検索したい内容を表現する語集合  例: 「言語コンピュータ」で検索 
1万件以上がマッチする  ⇒ 関連度の高い文章でランキングする必要がある!  ベクトル空間モデル ◦ ベクトル間の類似度を用いてクエリに対する文書のランキングを行う  cos (d 文書1 , q) = 0.83  cos (d 文書2 , q) = 0.38  cos (d 文書3 , q) = 0.74  cos (d 文書4 , q) = 0.30  cos (d 文書5 , q) = 0.00

情報検索の評価  評価の尺度 ◦ 適合率 (precision) ◦ 再現率 (recall) ◦
F値 (F-measure) d 4 d 5 d 2 d 1 d 3 d 6 d 7 d 8 d 9 d 11 d 10 d 12 d 13 d 14 d 15 関連する文章システムが選択した文章検索対象文章全体

 適合率・再現率・F値 ◦ 各文書が関連するか否か  多くの文書から必要な文書を抽出するためにはランク付きで返すことが重要  平均適合率(average precision)
: AP(q) ◦ AP(q) =  n : qに関連のある文書数  r k : システムのランキングの中でk 番目の関連文書のランキング MAP(mean average precision)

MAP(mean average precision) d 4 d 5 d 2 d
1 d 3 d 6 d 7 d 8 d 9 d 11 d 10 d 12 d 13 d 14 d 15 検索対象文書全体システムが15個の文書をランキング関連文書 d 10 d 1 d 2 d 11 d 3 d 4 d 5 d 12 d 6 d 13 d 7 d 14 d 8 d 9 d 15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

MAP(mean average precision)  m個の評価クエリの集合 Q ◦ Q = {
q 1 ,q 2 ,...q m }

ウェブ検索の仕組み  誘導型(navigational) ◦ 存在することが予想されるページを見つけることが目的(企業や行政)  クエリは企業名など  クエリとは独立に、ページの重要度を考える
 調査型(informational) ◦ 何を調べたいかが明確でない  クエリとページの関連度が重要  ページの重要度も重要

 クローラー(crawler) ◦ ウェブページを収集するソフトウェア  日本語のウェブページ ◦ 100億以上 ◦ 全言語では1000億以上
 ページの誕生・消滅、既存ページの更新が行われる中で新しいページを収集ウェブ検索の仕組みハイパーリンクウェブページ1 ウェブページ2 ウェブページ3 クローラー

ページランク  ページランク(PageRank) ◦ ハイパーリンクによるウェブの構造のみを利用してページの重要度を計算するアルゴリズム  考え方：「重要なページは重要なページからリンクされている」 
ページu の重要度PR(u) ◦ B u : ページuをリンクしてるページの集合 ◦ L ｖ : ページvからのリンク数 ◦ N : 検索対象とするウェブページの総数 ◦ D: ダンピング・ファクター (0.85程度)

ページランク PR(A): 0.20 PR(B): 0.12 ページA ページB ページC 0.1 0.1
0.04 0.04 0.04 ページD 0.05 0.05 0.07 0.07 PR(C): 0.14 PR(D): 0.1

情報検索2

情報検索2

nishi-k

More Decks by nishi-k

Other Decks in Education

Featured

Transcript

-情報検索(2)- 第9回 B3勉強会 2016年2月3日自然言語処理研究室学部3年西山浩気

はじめに  参考文献黒橋貞夫, 自然言語処理, 放送大学教育振興会,(2015.3.20),pp.146-153  発表内容

前回の復習  クエリ ◦ 検索したい内容を表現する語集合  例: 「言語コンピュータ」で検索 

情報検索の評価  評価の尺度 ◦ 適合率 (precision) ◦ 再現率 (recall) ◦

適合率、再現率、F値  適合率 = |システムの選択文書 ∩ 関連文書| |システムの選択文書| = 3

 適合率・再現率・F値 ◦ 各文書が関連するか否か  多くの文書から必要な文書を抽出するためにはランク付きで返すことが重要  平均適合率(average precision)

MAP(mean average precision) d 4 d 5 d 2 d

MAP(mean average precision)  m個の評価クエリの集合 Q ◦ Q = {

ウェブ検索の仕組み  誘導型(navigational) ◦ 存在することが予想されるページを見つけることが目的(企業や行政)  クエリは企業名など  クエリとは独立に、ページの重要度を考える

 クローラー(crawler) ◦ ウェブページを収集するソフトウェア  日本語のウェブページ ◦ 100億以上 ◦ 全言語では1000億以上

ページランク  ページランク(PageRank) ◦ ハイパーリンクによるウェブの構造のみを利用してページの重要度を計算するアルゴリズム  考え方：「重要なページは重要なページからリンクされている」 

ページランク PR(A): 0.20 PR(B): 0.12 ページA ページB ページC 0.1 0.1