特徴ベクトルを用いた全文検索について(2)

特徴ベクトルを用いた全文検索について（2）自然言語処理研究室 B3 福嶋真也

参考文献北研二、津田和彦、獅々堀正幹著「情報検索アルゴリズム」 2002年共立出版株式会社 6章
p139-160

特徴ベクトル法流れ文書集合のすべての文書から単語シグネチャー、文書シグネチャーを作成検索単語についても単語シグネチャーを作成検索単語シグネチャーと文書シグネチャーを用いて検索を行う単語シグネチャー・・・索引語となる単語の特徴を表すビット列文書シグネチャー・・・文書の特徴を表すビット列

特徴ベクトルによる検索・複数の検索単語である場合１つの場合は単に検索単語シグネチャーと文書シグネチャーで論理積をとることで判定複数の場合は前処理として複数の検索単語を論理演算子（AND、OR、NOT）と組み合わせて1つのクエリとする例 “search”,”algorithm”→”search AND algorithm”
”search OR algorithm”

特徴ベクトルによる検索 1つのクエリにしたら・・・論理演算子にしたがって処理を行い、検索を行う基本的な流れは検索単語が1つのときと同じ AND演算子による検索検索単語の単語シグネチャーについて論理和をとり、これと文書シグネチャーの論理積をとる。これを検索単語シグネチャーと比較する一致する文書なら逐次検索を行い、すべての検索単語が出現しているなら条件を満たしていると考える

特徴ベクトルによる検索例：key=“search AND algorithm” 1 =full text search 2 =inverted
index file 3=sequential search algorithm 4=index search algorithm 5=information retrieval algorithm

特徴ベクトルによる検索 _ 1 =1 1 0 0 0 0 0
1 _ 2 =0 1 0 1 1 0 0 0 _ 3 =1 1 0 0 0 0 1 0 _ 4 =1 0 0 1 0 0 1 0 _ 5 =0 0 0 1 0 1 1 0 “ℎ” =0 0 0 0 0 0 1 0 “ℎ” =1 0 0 0 0 0 0 0 =1 0 0 0 0 0 1 0 3 , 4 が一致 →逐次検索で3 , 4 が条件に当てはまることを確認

特徴ベクトルによる検索 OR演算子による検索単語シグネチャーの処理はANDと同じ単語シグネチャーをビット反転させ、それと文書シグネチャーの論理積をとり検索単語シグネチャーと比較 →不一致なら逐次検索し、検索単語のうち一つでも検出されるなら条件を満たすと考える NOT演算子による検索単語シグネチャーの処理は一つの検索単語のときと同じ文書シグネチャーの論理積をとり検索単語シグネチャーと比較
→不一致か一致後の逐次検索で検索単語が未検出であれば条件を満たすと考える

特徴ベクトルによる検索例：key1=“search OR algorithm” key2=“NOT sequential”, 1 =full text search
2 =inverted index file 3=sequential search algorithm 4=index search algorithm 5=information retrieval algorithm “ℎ” =0 0 0 0 0 0 1 0 “ℎ” =1 0 0 0 0 0 0 0 1 =1 0 0 0 0 0 1 0 "" =0 1 0 0 0 0 0 0

特徴ベクトルによる検索 _ 1 =1 1 0 0 0 0 0
1 _ 2 =0 1 0 1 1 0 0 0 _ 3 =1 1 0 0 0 0 1 0 _ 4 =1 0 0 1 0 0 1 0 _ 5 =0 0 0 1 0 1 1 0 1 =1 0 0 0 0 0 1 0 ~ 1 =0 1 1 1 1 1 0 1 2 =0 1 0 0 0 0 0 0 key1では2 が一致(他の文書は不一致) → 2 以外を逐次検索し、1 , 2 , 3 , 4 が条件に当てはまることを確認 key2では4 , 5 が不一致（他の文祖は一致） → 4 , 5 以外を逐次検索し、1 , 2 が条件に当てはまることを確認

特徴ベクトルによる検索・クラス分け検索単語シグネチャーと文書シグネチャーの照合結果により、 3つの文書集合に分類する →演算子が使われているときの逐次検索の回数を減らせる TRUEクラス:クエリを満足する文書 UNDEFクラス：クエリを満足するか否か未確定な文書 FALSEクラス：クエリを満たさない文書 AND F
U T F F F F U F U U T F U T OR F U T F F U T U U U T T T T T NOT F T U U T F

特徴ベクトルによる検索例:key1=“NOT sequential(1 )” key2=“search(2) OR algorithm()” key3=key1 AND key2
1 =full text search 2 =inverted index file 3=sequential search algorithm 4=index search algorithm 5=information retrieval algorithm 文書 NOT s1 s2 OR a D1 U U D2 U F D3 U U D4 T U D5 T U

特徴ベクトルによる検索文書 NOT s1 s2 OR a D1 U U
D2 U F D3 U U D4 T U D5 T U AND F U T F F F F U F U U T F U T 文書 (NOT s1) AND(s2 OR a) D1 U D2 F D3 U D4 U D5 U

分割管理による特徴ベクトルの構成法文書中の索引語が多くなると文書シグネチャーのほとんどのビットが1に →文書の特徴が分かりにくく、フォルスドロップが増加例 1 =full text search 2
=inverted index file 3=sequential search algorithm 4=index search algorithm 5=information retrieval algorithm =full text search inverted index file sequential search algorithm index search algorithm information retrieval algorithm _ = 1 1 0 1 1 1 1 1

分割管理による特徴ベクトルの構成法・逐次シグネチャーファイル（sequential signature file;SSF）文書をあらかじめいくつかのブロックに分割して、ブロックごとにブロック・シグネチャーを作成し、これらを連結させて文書シグネチャーにしたもの数式で表すと・・・ D =
{1 , 2 , … , , … , } = {_ 1 , _ 2 , … _ , … _ } :単語 :文書 :ブロック _:ブロック・シグネチャー

分割管理による特徴ベクトルの構成法例 1 =full text search 2 =inverted index file
3=sequential search algorithm 4=index search algorithm 5=information retrieval algorithm _ 1 =1 1 0 0 0 0 0 1 _ 2 =0 1 0 1 1 0 0 0 _ 3 =1 1 0 0 0 0 1 0 _ 4 =1 0 0 1 0 0 1 0 _ 5 =0 0 0 1 0 1 1 0 =full text search inverted index file sequential search algorithm index search algorithm information retrieval algorithm ={1 1 0 0 0 0 0 1, 0 1 0 1 1 0 0 0, 1 1 0 0 0 0 1 0, 1 0 0 1 0 0 1 0, 0 0 0 1 0 1 1 0 }

分割管理による特徴ベクトルの構成法 SSFによって検索単語がどこにあるかは分かりやすくなったしかし… このままではブロックごとに検索単語との照合を行う必要ありつまり、検索に時間かかる →特徴ベクトルを分割して管理することで検索しやすく (1)ビット・スライスト・シグネチャー・ファイル (2)FP分割シグネチャーファイル

分割管理による特徴ベクトルの構成法 (1)ビット・スライスト・シグネチャー・ファイル各ブロック・シグネチャーのビット位置ごとにビットスライスと呼ばれる単位でシグネチャーを格納例 1 1 0 0 0
0 0 1 0 1 0 1 1 0 0 0 1 1 0 0 0 0 1 0 1 0 0 1 0 0 1 0 0 0 0 1 0 1 1 0 _1=1 0 1 1 0 _2=1 1 1 0 0 _3=0 0 0 0 0 _4=0 1 0 1 1 _5=0 1 0 0 0 _6=0 0 0 0 1 _7=0 0 1 1 1 _8=1 0 0 0 0 _ 1 _ 2 _ 3 _ 4 _ 5

分割管理による特徴ベクトルの構成法検索例 key=“full” ( “” =0 0 0 0 0
0 0 1) _8 に注目して検索単語シグネチャーと比較左から1ビット目のみ一致 →1 のみを逐次検索すればOK →検索量を減らせる検索単語シグネチャーの1となっているビットが増えても同様のことができる _1=1 0 1 1 0 _2=1 1 1 0 0 _3=0 0 0 0 0 _4=0 1 0 1 1 _5=0 1 0 0 0 _6=0 0 0 0 1 _7=0 0 1 1 1 _8=1 0 0 0 0

分割管理による特徴ベクトルの構成法 (2)FP分割シグネチャーファイル各ブロック・シグネチャーの先頭数ビット（接頭ビット）でブロック・シグネチャーをグループ化し、分割管理を行う方法（フィックスト・プレフィックス）を用いてブロック・シグネチャー分割管理する例接頭ビットブロック・シグネチャー 0
0 0 0 1 0 1 1 0 _ 5 0 1 0 1 1 0 0 0 _ 2 1 1 0 0 1 0 0 1 0 _ 4 1 1 0 0 0 0 0 1 _ 1 1 1 0 0 0 0 1 0 _ 3

今回の発表内容特徴ベクトルによる検索複数の検索ワードの場合の検索・演算子を用いた検索方法・クラス分け分割管理による特徴ベクトルの構成法・逐次シグネチャーファイル・ビット・スライスト・シグネチャー・ファイル・FP分割シグネチャーファイル

特徴ベクトルを用いた全文検索について(2)

特徴ベクトルを用いた全文検索について(2)

masaya82

More Decks by masaya82

Featured

Transcript

特徴ベクトルを用いた全文検索について（2）自然言語処理研究室 B3 福嶋真也

参考文献北研二、津田和彦、獅々堀正幹著「情報検索アルゴリズム」 2002年共立出版株式会社 6章

特徴ベクトルによる検索例：key=“search AND algorithm” 1 =full text search 2 =inverted

特徴ベクトルによる検索 _ 1 =1 1 0 0 0 0 0

特徴ベクトルによる検索例：key1=“search OR algorithm” key2=“NOT sequential”, 1 =full text search

特徴ベクトルによる検索 _ 1 =1 1 0 0 0 0 0

特徴ベクトルによる検索例:key1=“NOT sequential(1 )” key2=“search(2) OR algorithm()” key3=key1 AND key2

特徴ベクトルによる検索文書 NOT s1 s2 OR a D1 U U

分割管理による特徴ベクトルの構成法文書中の索引語が多くなると文書シグネチャーのほとんどのビットが1に →文書の特徴が分かりにくく、フォルスドロップが増加例 1 =full text search 2

分割管理による特徴ベクトルの構成法例 1 =full text search 2 =inverted index file

分割管理による特徴ベクトルの構成法 (1)ビット・スライスト・シグネチャー・ファイル各ブロック・シグネチャーのビット位置ごとにビットスライスと呼ばれる単位でシグネチャーを格納例 1 1 0 0 0

分割管理による特徴ベクトルの構成法検索例 key=“full” ( “” =0 0 0 0 0