Upgrade to Pro — share decks privately, control downloads, hide ads and more …

特徴ベクトルを用いた全文検索について(1)

masaya82
February 13, 2018
200

 特徴ベクトルを用いた全文検索について(1)

masaya82

February 13, 2018
Tweet

More Decks by masaya82

Transcript

  1. 特徴ベクトルの構成法 例:w=“full”,F=8としてアルファベットの内部コードをaから順番 に0,1,…25としたとき H "" = 5 + 20 +

    11 + 11 8 + 1 = 8 Sign "" = 0 0 0 0 0 0 0 1 この方法ではF通りのパターンが生成可能 パターンを増やすためにはmを増加させる必要がある
  2. 特徴ベクトルの構成法 例:1と同じ例で“fu”“ul”“ll”に対してハッシュ値を計算 H "" = 25 8 + 1 =

    2 H "" = 31 8 + 1 = 8 H "" = 22 8 + 1 = 7 "" = 0 1 0 0 0 0 1 1 何に利用するか →部分文字列検索に利用
  3. 特徴ベクトルの構成法 例:文書D“full text search”に対して文書シグネチャーを構成 H "" = 8 H "ℎ"

    = 48 8 + 1 = 1 H "" = 65 8 + 1 = 2 "" = 0 0 0 0 0 0 0 1 "" = 0 1 0 0 0 0 0 0 "ℎ" = 1 0 0 0 0 0 0 0 _() = "" "" "ℎ" = 1 1 0 0 0 0 0 1
  4. 特徴ベクトルによる検索 _ 1 =1 1 0 0 0 0 0

    1 _ 2 =0 1 0 1 1 0 0 0 _ 3 =1 1 0 0 0 0 1 0 _ 4 =1 0 0 1 0 0 1 0 _ 5 =0 0 0 1 0 1 1 0 =0 0 0 1 0 0 0 0 2 , 4 , 5 が一致→ 逐次検索で2 , 4 にindexがあることを確認