長岡技術科学大学 B4 三上侑城文献紹介 2016年 1月21日意味的類似性と多義解消を用いた文書検索手法自然言語処理研究室1
View Slide
出典意味的類似性と多義解消を用いた文書検索手法大井 耕三, 隅田 英一郎, 飯田 仁自然言語処理 Vol. 4(1997)No. 3 P51-702
概要従来の類似性の研究では、階層構造が平衡しているシソーラスを使っていた。階層構造が平衡していないシソーラスにも適用できる意味的類似度を提案。精度向上に多義解消を使用し、従来のシステムに比べ、性能の向上を確認した。3
はじめに先行研究で、シソーラスに基づく意味的類似性を使ったものは・シソーラスの階層構造が平衡と仮定・単語の多義性の解消を行なっていない本論文では、上記2点を改良し、類似検索システムを作成する。4
意味的類似度単語間の意味的類似度は、単語に付与されている概念間の関係に基づいて計算する。5
オンラインシソーラス階層によって「平衡シソーラス」と「非平衡シソーラス」の2種類に分けられる。6
概念間の類似度各概念に対して、「具体度」を割り当てる。具体度は 0 から NL-1 までのNL個の値の中で、下位になるほど大きな値をとる。概念A,B間の類似度Simは、AとBの相対的な位置関係を使う。A,Bの最下位共通上位概念をCとして、そのCの具体度をLCとする。1.0が最も似ている。7
概念間の類似度AとBが同じ場合(C=A=B)Sim=1.0CがAでもBでもない場合Sim=LC/NL(C=A)もしくは(C=B)Sim=(LC+1)/NL8
概念間の類似度9 Sim(1)=1.0 Sim(2)=LC/NL Sim(3)=(LC+1)/NL
具体度の割り当て深さがNL-1で、各概念からの分岐が一定の仮想の平衡シソーラスを想定する。NLと分岐数NBを決め、深さdの概念の総数TLD(d)より下位概念総数が小さくなる最小のdを具体度とする。10
単語間の類似度単語w1,w2間の類似度Sim(w1,w2)は次のように求める。単語一致の場合類似度は(NL+1)/NLそれ以外は、2単語全ての組み合わせに対する類似度の最大値とする。11
多義解消手法多くの単語は多義であり、複数の概念を持っている。実際に文章中で使われている概念を同定することができれば、検索の精度は向上できる。そこで、多義を解消する手法を導入した。12
多義解消手法本論文ではVoorheesの手法と、Yarowskyの手法を取り上げている。両手法は正解データを仮定しないため、大規模な制限のないテキストを扱う情報検索に向いた手法である。13
Voorheesの手法文章D中の単語dtの各概念に対して、hood(最も上位の概念)を求めた後、次の式で差異を求め、差異が正の最大である概念を単語dtとして選択する。14
Yarowskyの手法コーパス中の各単語に対して、前後W語ずつ合計2W語を抽出し、単語dtが属するシソーラス中の概念C毎に、あるしきい値Y以上の単語ctに対して、次の式で求め、最大となるものを概念とする。15
単語間の物理的近さ物理的近さPNの定義式を次に示す。16
単語の重要度単語の文章内の出現頻度と出現文章数に基いた重要度を使う。重要度ωは次のように定義される。17
質問・文章間の関連度質問Q中の1つの単語qtと文章中の1つの単語dtとの間の類似度をSim(qt,dt)とする。あらかじめ指定された、しきい値Tに対して、Sim(qt,dt)≧Tである単語dtが、ここでは類似している単語となる。18
実験非平衡シソーラスにも適用できる意味的類似度と単語の多義解消を組み合わせた提案手法を、従来手法と比較する。評価は再現率と適合率を用いた。19
実験実験条件20
実験結果21
実験結果22
まとめシソーラスが平衡または非平衡どちらの場合にも適用できる意味的類似度を提案。類似度と多義解消を用いた類似検索手法を提案した。比較実験より、本類似検索手法は従来の検索手法に比べて、改善を確認した。23
ご視聴ありがとうございました24