Upgrade to Pro — share decks privately, control downloads, hide ads and more …

検索の仕組みを知ってみよう~入門編~

yuki
January 28, 2023

 検索の仕組みを知ってみよう~入門編~

yuki

January 28, 2023
Tweet

Other Decks in Technology

Transcript

  1. 「明日の天気は晴れ」 「明日」「天気」「晴れ」 単語分割(形態素解析 + ストップワード除去) ① 全文検索を支えるデータ構造: 転置インデックス 単語から文書を引けるようにする 今日  :文書1

    明日  :文書2 明後日 :文書3 天気  :文書1, 文書2, 文書3 晴れ  :文書2 曇り  :文書3 雨   :文書1 ② これで単語から文章を探すのが簡単になる
  2. 計算式 tf-idf(単語i, 文章j) = tf(単語i, 文章j) ・idf(単語i) 全文検索でのスコアリング方法: TF-IDF 特定の文章内の単語がどれくらい重要か示す値

    文章j内での単語iの出現回数 文章jのすべての単語の出現回数の和 tf(単語i, 文章j) = idf(単語i, 文章j) = 全ての文章数 単語iが出現する文章数 log ( )