2016/02/17 情報検索

- 情報検索- 第7回 B3勉強会 2016年2月17日自然言語処理研究室学部3年西山浩気

情報検索の歴史  参考文献黒橋貞夫, 自然言語処理, 放送大学教育振興会,(2015.3.20),pp.141-147  発表内容
1. 情報検索の歴史 2. 情報検索のしくみ 3. 語の重要度 4. TF-IDF法 5. ベクトル空間モデル

情報検索の歴史  初期 ◦ 論文・ビジネス書の内容にマッチするキーワードを付与  現在 ◦ 文書から重要なキーワードを自動抽出
◦ 全文検索  語の重要度を考慮しつつ文書全体を検索する ◦ 1990年代から  ウェブの全文検索(サーチエンジン)の開発が進展

情報検索の仕組み  転置インデックス ◦ あらゆる語がどの文書に出現するかを表す索引文書1 言語、コンピュータ、問題文書2 コンピュータ、問題
文書3 言語、問題、情報文書4 問題、情報文書5 情報、コンピュータ言語文書1、文書3 コンピュータ文書1、文書2、文書5 問題文書1、文書2、文書３、文書4 情報文書3、文書4、文書5

語の重要度  クエリ ◦ 検索したい内容を表現する語集合や自然文 ◦ 例: 「言語コンピュータ」で検索 
1千万件以上がマッチ → 関連度の高い文章でランキングすることが必要！  TF(term frequency) ◦ 文書d における語 t の頻度 t f t,d  例: 文書1における語「自然」の頻度  tf 文書1, 自然

語の重要度  例: クエリが「言語問題」であるとき ◦ 言語 : 検索の意図をより限定的に表現 ◦
問題：一般的な語 → クエリ中のどの語が検索においてより重要かを知る必要がある！  IDF(逆文書頻度) idf t ◦ クエリ中のどの語がより重要かを表現する尺度

語の重要度  文書頻度 ◦ ある語t を含む文書数 df t (各文書に t
が何回出現したかは問わない) ◦ 限定的な語 (例「言語」) → 小さい値 ◦ 一般的な語(例「問題」) → 大きい値  IDF(idf t )の計算式 idf t = log ◦ N : 検索対象の文書の総数 N df t

TF-IDF法  TF-IDF法 ◦ ある語tの文書dにおける重要度をTFと IDFの積とする方法  TF(tf t,d )：文書dにおけるある語tの頻度
 IDF(idf t ):クエリ中のどの語がより重要かを表現する尺度  文書頻度DF(df t ) ：ある語tを含む文書数

TF-IDF法  TF-IDF法の計算例(文書の列の2つの値はtj とtf ×idf)  例: 語t = 「言語」,
文書数n = 5のときのidf の計算 ◦ Idf 言語 = log (5 / 2) = 0.40  例:t= 「言語」の文書1における重要度の計算 ◦ tf × idf = 2 × 0.40 = 0.80 語 t 文書頻度d IDF 文書1 文書2 文書3 文書4 文書5 言語 2 0.40 2, 0.80 0, 0.00 1, 0.40 0, 0.00 0, 0.00 コンピュータ 3 0.22 1, 0.22 1, 0.22 0, 0.00 0, 0.00 2, 0.44 問題 4 0.10 2, 0.20 2, 0.20 3, 0.30 1, 0.10 0, 0.00 情報 3 0.22 0, 0.00 1, 0.22 2, 0.44 1, 0.22 1, 0.22

ベクトル空間モデル  ベクトル検索モデル ◦ ベクトル間の類似度を使ってクエリに対するランキングを行う検索モデル  例: 「言語問題」のランキング計算
◦ 各文書のベクトル ◦ 類似度を求めるためにベクトル間の余弦を用いる  cos (d 文書1 , q) = 0.83  cos (d 文書2 , q) = 0.38  cos (d 文書3 , q) = 0.74  cos (d 文書4 , q) = 0.30  cos (d 文書5 , q) = 0.00 ◦ 類似度の高い順番に並べ替える → ウェブ検索の結果も関連度の高い順番でランキングできる d 文書1 = 0.80 0.22 0.20 0.00 ,d 文書2 = 0.00 0.22 0.20 0.22 ,d 文書3 = 0.40 0.00 0.30 0.44 , ... ,q= 1 0 1 0

2016/02/17 情報検索

2016/02/17 情報検索

nishi-k

More Decks by nishi-k

Other Decks in Education

Featured

Transcript

- 情報検索- 第7回 B3勉強会 2016年2月17日自然言語処理研究室学部3年西山浩気

情報検索の歴史  参考文献黒橋貞夫, 自然言語処理, 放送大学教育振興会,(2015.3.20),pp.141-147  発表内容

情報検索の歴史  初期 ◦ 論文・ビジネス書の内容にマッチするキーワードを付与  現在 ◦ 文書から重要なキーワードを自動抽出

情報検索の仕組み  転置インデックス ◦ あらゆる語がどの文書に出現するかを表す索引文書1 言語、コンピュータ、問題文書2 コンピュータ、問題

語の重要度  クエリ ◦ 検索したい内容を表現する語集合や自然文 ◦ 例: 「言語コンピュータ」で検索 

語の重要度  例: クエリが「言語問題」であるとき ◦ 言語 : 検索の意図をより限定的に表現 ◦

語の重要度  文書頻度 ◦ ある語t を含む文書数 df t (各文書に t

TF-IDF法  TF-IDF法 ◦ ある語tの文書dにおける重要度をTFと IDFの積とする方法  TF(tf t,d )：文書dにおけるある語tの頻度

TF-IDF法  TF-IDF法の計算例(文書の列の2つの値はtj とtf ×idf)  例: 語t = 「言語」,

ベクトル空間モデル  ベクトル検索モデル ◦ ベクトル間の類似度を使ってクエリに対するランキングを行う検索モデル  例: 「言語問題」のランキング計算