Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2016/02/17 情報検索

nishi-k
February 16, 2016

2016/02/17 情報検索

nishi-k

February 16, 2016
Tweet

More Decks by nishi-k

Other Decks in Education

Transcript

  1. 情報検索の歴史  参考文献 黒橋 貞夫, 自然言語処理, 放送大学教 育振興会,(2015.3.20),pp.141-147  発表内容

    1. 情報検索の歴史 2. 情報検索のしくみ 3. 語の重要度 4. TF-IDF法 5. ベクトル空間モデル
  2. 情報検索の歴史  初期 ◦ 論文・ビジネス書の内容にマッチするキー ワードを付与  現在 ◦ 文書から重要なキーワードを自動抽出

    ◦ 全文検索  語の重要度を考慮しつつ文書全体を検索する ◦ 1990年代から  ウェブの全文検索(サーチエンジン)の開発が進展
  3. 情報検索の仕組み  転置インデックス ◦ あらゆる語がどの文書に出現するかを表 す索引 文書1 言語、コンピュータ、問題 文書2 コンピュータ、問題

    文書3 言語、問題、情報 文書4 問題、情報 文書5 情報、コンピュータ 言語 文書1、文書3 コンピュータ 文書1、文書2、文書5 問題 文書1、文書2、文書3、文書4 情報 文書3、文書4、文書5
  4. 語の重要度  クエリ ◦ 検索したい内容を表現する語集合や自然文 ◦ 例: 「言語 コンピュータ」で検索 

    1千万件以上がマッチ → 関連度の高い文章でランキングすることが必要!  TF(term frequency) ◦ 文書d における語 t の頻度 t f t,d  例: 文書1における語「自然」の頻度  tf 文書1, 自然
  5. 語の重要度  例: クエリが「言語 問題」であるとき ◦ 言語 : 検索の意図をより限定的に表現 ◦

    問題:一般的な語 → クエリ中のどの語が検索においてより重要か を知る必要がある!  IDF(逆文書頻度) idf t ◦ クエリ中のどの語がより重要かを表現する尺度
  6. 語の重要度  文書頻度 ◦ ある語t を含む文書数 df t (各文書に t

    が何回出現したかは問わない) ◦ 限定的な語 (例「言語」) → 小さい値 ◦ 一般的な語(例「問題」) → 大きい値  IDF(idf t )の計算式 idf t = log ◦ N : 検索対象の文書の総数 N df t
  7. TF-IDF法  TF-IDF法 ◦ ある語tの文書dにおける重要度をTFと IDFの積とする方法  TF(tf t,d ):文書dにおけるある語tの頻度

     IDF(idf t ):クエリ中のどの語がより重要かを表 現する尺度  文書頻度DF(df t ) :ある語tを含む文書数
  8. TF-IDF法  TF-IDF法の計算例(文書の列の2つの値はtj とtf ×idf)  例: 語t = 「言語」,

    文書数n = 5のときのidf の計算 ◦ Idf 言語 = log (5 / 2) = 0.40  例:t= 「言語」の文書1における重要度の計算 ◦ tf × idf = 2 × 0.40 = 0.80 語 t 文書頻度d IDF 文書1 文書2 文書3 文書4 文書5 言語 2 0.40 2, 0.80 0, 0.00 1, 0.40 0, 0.00 0, 0.00 コンピュータ 3 0.22 1, 0.22 1, 0.22 0, 0.00 0, 0.00 2, 0.44 問題 4 0.10 2, 0.20 2, 0.20 3, 0.30 1, 0.10 0, 0.00 情報 3 0.22 0, 0.00 1, 0.22 2, 0.44 1, 0.22 1, 0.22
  9. ベクトル空間モデル  ベクトル検索モデル ◦ ベクトル間の類似度を使ってクエリに対するランキングを行う検 索モデル  例: 「言語 問題」のランキング計算

    ◦ 各文書のベクトル ◦ 類似度を求めるためにベクトル間の余弦を用いる  cos (d 文書1 , q) = 0.83  cos (d 文書2 , q) = 0.38  cos (d 文書3 , q) = 0.74  cos (d 文書4 , q) = 0.30  cos (d 文書5 , q) = 0.00 ◦ 類似度の高い順番に並べ替える → ウェブ検索の結果も関連度の高い順番でランキングできる d 文書1 = 0.80 0.22 0.20 0.00 ,d 文書2 = 0.00 0.22 0.20 0.22 ,d 文書3 = 0.40 0.00 0.30 0.44 , ... ,q= 1 0 1 0