Upgrade to Pro — share decks privately, control downloads, hide ads and more …

特徴ベクトルを用いた全文検索について(1)

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for masaya82 masaya82
February 13, 2018
250

 特徴ベクトルを用いた全文検索について(1)

Avatar for masaya82

masaya82

February 13, 2018
Tweet

More Decks by masaya82

Transcript

  1. 特徴ベクトルの構成法 例:w=“full”,F=8としてアルファベットの内部コードをaから順番 に0,1,…25としたとき H "" = 5 + 20 +

    11 + 11 8 + 1 = 8 Sign "" = 0 0 0 0 0 0 0 1 この方法ではF通りのパターンが生成可能 パターンを増やすためにはmを増加させる必要がある
  2. 特徴ベクトルの構成法 例:1と同じ例で“fu”“ul”“ll”に対してハッシュ値を計算 H "" = 25 8 + 1 =

    2 H "" = 31 8 + 1 = 8 H "" = 22 8 + 1 = 7 "" = 0 1 0 0 0 0 1 1 何に利用するか →部分文字列検索に利用
  3. 特徴ベクトルの構成法 例:文書D“full text search”に対して文書シグネチャーを構成 H "" = 8 H "ℎ"

    = 48 8 + 1 = 1 H "" = 65 8 + 1 = 2 "" = 0 0 0 0 0 0 0 1 "" = 0 1 0 0 0 0 0 0 "ℎ" = 1 0 0 0 0 0 0 0 _() = "" "" "ℎ" = 1 1 0 0 0 0 0 1
  4. 特徴ベクトルによる検索 _ 1 =1 1 0 0 0 0 0

    1 _ 2 =0 1 0 1 1 0 0 0 _ 3 =1 1 0 0 0 0 1 0 _ 4 =1 0 0 1 0 0 1 0 _ 5 =0 0 0 1 0 1 1 0 =0 0 0 1 0 0 0 0 2 , 4 , 5 が一致→ 逐次検索で2 , 4 にindexがあることを確認