TF-IDF

7b478cab8e68f81b1f6830077b6649ca?s=47 Atom
March 07, 2019
54

 TF-IDF

7b478cab8e68f81b1f6830077b6649ca?s=128

Atom

March 07, 2019
Tweet

Transcript

  1. TF-IDF法 文書検索の基礎 第9回 B3勉強会 2019/3/7 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武

  2. 参考文献・資料 [1] 黒橋禎夫,柴田知秀:自然言語処理概論,サイエンス社(2016) [2] Dheeraj Mekala et al. : Sparse

    Composite Document Vectors using soft clustering over distributional representations https://www.arxiv-vanity.com/papers/1612.06778/ [3] @fufufukakaka :文書ベクトルをお手軽に高い精度で作れるSCDVって実際 どうなのか日本語コーパスで実験した(EMNLP2017) https://qiita.com/fufufukakaka/items/a7316273908a7c400868 2
  3. Contents (1) 転置インデックス (2) 語の重要度(TF-IDF法) (3) TF-IDF法における文書ベクトル (4) SCDVについて 3

  4. (1) 転置インデックス 転置インデックス(inversed index) ・単語がどの文書に出現するかを事前に調べて置き, 索引としたもの. ・出現位置などもインデックスしているものもあり, 複合語などの検索も可能となる. 4

  5. (1) 転置インデックス 5 文書1 言語,コンピュータ,問題 文書2 コンピュータ,問題 文書3 言語,問題,情報 文書4

    問題,情報 文書5 情報,コンピュータ 言語 文書1, 文書3 コンピュータ 文書1, 文書2, 文書5 問題 文書1, 文書2, 文書3,文書4 情報 文書3, 文書4, 文書5
  6. (2) 語の重要度(TF-IDF法) 6 クエリ(query):検索したい語集合や自然文 文書をクエリに対する関連度によってランキングしたい. → 語の重要度に基づいて関連度を計算する. TF(term frequency):文書 における語

    の頻度 , TFが大きいほど,その文書と語は強く関連している.
  7. (2) 語の重要度(TF-IDF法) 7 DF(document frequency):ある語 を含む文書の頻度 IDF(inversed document frequency) DFの逆数に対数をとったもの.

    𝑖𝑖𝑖𝑖 = log 𝑑𝑑 −1 IDFが大きいほど,語 は稀な頻度で文書に現れることを表す. TF-IDF法:語の重要度を以下のように定義する. 𝑡𝑡 , × 𝑖𝑖𝑖𝑖
  8. (2) 語の重要度(TF-IDF法) 8 先ほどの転置インデックスを例にして, TF-IDFを求めてみる. 簡単のため,TFを頻度ではなく,出現回数とする. 例えば,「文書1」に対する「言語」の重要度を求める. 𝑡𝑡 言語, 文書1

    = 2 とし, 𝑖𝑖𝑖𝑖 言語 = log 2 5 −1 ≅ 0.40 ∴ 𝑡𝑡 言語, 文書1 × 𝑖𝑖𝑖𝑖 言語 = 0.80
  9. (2) 語の重要度(TF-IDF法) 9 df idf 文書1 文書2 文書3 文書4 文書5

    言語 2 0.40 2, 0.80 0, 0.00 1, 0.40 0, 0.00 0, 0.00 コンピュータ 3 0.22 1, 0.22 1, 0.22 0, 0.00 0, 0.00 2, 0.44 問題 4 0.10 2, 0.20 2, 0.20 3, 0.30 1, 0.10 0, 0.00 情報 3 0.22 0, 0.00 0, 0.00 2, 0.44 1, 0.22 1, 0.22 TF-IDF法の計算例(文書の列の2 つの値は𝑡𝑡 と𝑡𝑡 − 𝑖𝑖𝑖𝑖 )
  10. (3) TF-IDF法における文書ベクトル 10 クエリ,文書をベクトルで表現し,その類似度を計算することで ランキングすることができる. 1 = 0.80 0.22 0.20

    0.00 , 2 = 0.00 0.22 0.20 0.00 , 3 = 0.40 0.00 0.30 0.44 ⋯ , = 1 0 1 0
  11. (3) TF-IDF法における文書ベクトル 11 cos 1 , = 0.83 cos 2

    , = 0.48 cos 3 , = 0.74 cos 4 , = 0.30 cos 5 , = 0.00 検索のランキングは,文書1,文書3,文書2,文書4,文書5 となる.
  12. (3) TF-IDF法における文書ベクトル 12 問題点:言語の構造や意味(多義性や同義性)を考慮してない TF, IDFによる類似度の計算方法を変えたり, Word2Vec, Doc2Vec, SCDV, DoCoVを用いるなどの手法を用い

    て類似文書検索を模索しているのが現状.
  13. (4) SCDVについて 13 SCDV(Sparse Composite Document Vectors) word2vecのベクトル空間を混合ガウスモデルを用いてクラスタ リングして、各単語がどのトピックに属しているのか、それを考 慮したベクトル空間に修正し,スパース性を持たせたもの.

  14. (4) SCDVについて 14 引用[2]

  15. (4) SCDVについて 15 引用[2]