Upgrade to Pro — share decks privately, control downloads, hide ads and more …

TF-IDF

Atom
March 07, 2019
110

 TF-IDF

Atom

March 07, 2019
Tweet

Transcript

  1. 参考文献・資料 [1] 黒橋禎夫,柴田知秀:自然言語処理概論,サイエンス社(2016) [2] Dheeraj Mekala et al. : Sparse

    Composite Document Vectors using soft clustering over distributional representations https://www.arxiv-vanity.com/papers/1612.06778/ [3] @fufufukakaka :文書ベクトルをお手軽に高い精度で作れるSCDVって実際 どうなのか日本語コーパスで実験した(EMNLP2017) https://qiita.com/fufufukakaka/items/a7316273908a7c400868 2
  2. (1) 転置インデックス 5 文書1 言語,コンピュータ,問題 文書2 コンピュータ,問題 文書3 言語,問題,情報 文書4

    問題,情報 文書5 情報,コンピュータ 言語 文書1, 文書3 コンピュータ 文書1, 文書2, 文書5 問題 文書1, 文書2, 文書3,文書4 情報 文書3, 文書4, 文書5
  3. (2) 語の重要度(TF-IDF法) 7 DF(document frequency):ある語 を含む文書の頻度 IDF(inversed document frequency) DFの逆数に対数をとったもの.

    𝑖𝑖𝑖𝑖 = log 𝑑𝑑 −1 IDFが大きいほど,語 は稀な頻度で文書に現れることを表す. TF-IDF法:語の重要度を以下のように定義する. 𝑡𝑡 , × 𝑖𝑖𝑖𝑖
  4. (2) 語の重要度(TF-IDF法) 9 df idf 文書1 文書2 文書3 文書4 文書5

    言語 2 0.40 2, 0.80 0, 0.00 1, 0.40 0, 0.00 0, 0.00 コンピュータ 3 0.22 1, 0.22 1, 0.22 0, 0.00 0, 0.00 2, 0.44 問題 4 0.10 2, 0.20 2, 0.20 3, 0.30 1, 0.10 0, 0.00 情報 3 0.22 0, 0.00 0, 0.00 2, 0.44 1, 0.22 1, 0.22 TF-IDF法の計算例(文書の列の2 つの値は𝑡𝑡 と𝑡𝑡 − 𝑖𝑖𝑖𝑖 )
  5. (3) TF-IDF法における文書ベクトル 11 cos 1 , = 0.83 cos 2

    , = 0.48 cos 3 , = 0.74 cos 4 , = 0.30 cos 5 , = 0.00 検索のランキングは,文書1,文書3,文書2,文書4,文書5 となる.