Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介_10_意味的類似性と多義解消を用いた文書検索手法

MIKAMI-YUKI
January 21, 2016

 文献紹介_10_意味的類似性と多義解消を用いた文書検索手法

MIKAMI-YUKI

January 21, 2016
Tweet

More Decks by MIKAMI-YUKI

Other Decks in Education

Transcript

  1. 長岡技術科学大学 B4 三上侑城
    文献紹介 2016年 1月21日
    意味的類似性と多義解消
    を用いた文書検索手法
    自然言語処理研究室
    1

    View Slide

  2. 出典
    意味的類似性と多義解消を用い
    た文書検索手法
    大井 耕三, 隅田 英一郎, 飯田 仁
    自然言語処理 Vol. 4(1997)
    No. 3 P51-70
    2

    View Slide

  3. 概要
    従来の類似性の研究では、階層構造が
    平衡しているシソーラスを使っていた。
    階層構造が平衡していないシソーラスに
    も適用できる意味的類似度を提案。
    精度向上に多義解消を使用し、従来の
    システムに比べ、性能の向上を確認した。
    3

    View Slide

  4. はじめに
    先行研究で、シソーラスに基づく意味的
    類似性を使ったものは
    ・シソーラスの階層構造が平衡と仮定
    ・単語の多義性の解消を行なっていない
    本論文では、上記2点を改良し、類似
    検索システムを作成する。
    4

    View Slide

  5. 意味的類似度
    単語間の意味的類似度は、単語に付
    与されている概念間の関係に基づいて
    計算する。
    5

    View Slide

  6. オンラインシソーラス
    階層によって「平衡シソーラス」と「非平衡
    シソーラス」の2種類に分けられる。
    6

    View Slide

  7. 概念間の類似度
    各概念に対して、「具体度」を割り当てる。
    具体度は 0 から NL-1 までのNL個の
    値の中で、下位になるほど大きな値をとる。
    概念A,B間の類似度Simは、AとBの相
    対的な位置関係を使う。A,Bの最下位
    共通上位概念をCとして、そのCの具体
    度をLCとする。1.0が最も似ている。
    7

    View Slide

  8. 概念間の類似度
    AとBが同じ場合(C=A=B)
    Sim=1.0
    CがAでもBでもない場合
    Sim=LC/NL
    (C=A)もしくは(C=B)
    Sim=(LC+1)/NL
    8

    View Slide

  9. 概念間の類似度
    9
     Sim(1)=1.0
     Sim(2)=LC/NL
     Sim(3)=(LC+1)/NL

    View Slide

  10. 具体度の割り当て
    深さがNL-1で、各概念からの分岐が一
    定の仮想の平衡シソーラスを想定する。
    NLと分岐数NBを決め、深さdの概念の
    総数TLD(d)より下位概念総数が小さく
    なる最小のdを具体度とする。
    10

    View Slide

  11. 単語間の類似度
    単語w1,w2間の類似度Sim(w1,w2)
    は次のように求める。
    単語一致の場合
    類似度は(NL+1)/NL
    それ以外は、2単語全ての組み合わせ
    に対する類似度の最大値とする。
    11

    View Slide

  12. 多義解消手法
    多くの単語は多義であり、複数の概念を
    持っている。
    実際に文章中で使われている概念を同
    定することができれば、検索の精度は向
    上できる。
    そこで、多義を解消する手法を導入した。
    12

    View Slide

  13. 多義解消手法
    本論文ではVoorheesの手法と、
    Yarowskyの手法を取り上げている。
    両手法は正解データを仮定しないため、
    大規模な制限のないテキストを扱う情報
    検索に向いた手法である。
    13

    View Slide

  14. Voorheesの手法
    文章D中の単語dtの各概念に対して、
    hood(最も上位の概念)を求めた後、次
    の式で差異を求め、差異が正の最大で
    ある概念を単語dtとして選択する。
    14

    View Slide

  15. Yarowskyの手法
    コーパス中の各単語に対して、前後W語
    ずつ合計2W語を抽出し、単語dtが属
    するシソーラス中の概念C毎に、あるしき
    い値Y以上の単語ctに対して、次の式で
    求め、最大となるものを概念とする。
    15

    View Slide

  16. 単語間の物理的近さ
    物理的近さPNの定義式を次に示す。
    16

    View Slide

  17. 単語の重要度
    単語の文章内の出現頻度と出現文章
    数に基いた重要度を使う。重要度ωは
    次のように定義される。
    17

    View Slide

  18. 質問・文章間の関連度
    質問Q中の1つの単語qtと文章中の1
    つの単語dtとの間の類似度を
    Sim(qt,dt)とする。
    あらかじめ指定された、しきい値Tに対し
    て、Sim(qt,dt)≧Tである単語dtが、こ
    こでは類似している単語となる。
    18

    View Slide

  19. 実験
    非平衡シソーラスにも適用できる意味的
    類似度と単語の多義解消を組み合わせ
    た提案手法を、従来手法と比較する。
    評価は再現率と適合率を用いた。
    19

    View Slide

  20. 実験
    実験条件
    20

    View Slide

  21. 実験結果
    21

    View Slide

  22. 実験結果
    22

    View Slide

  23. まとめ
    シソーラスが平衡または非平衡どちらの場
    合にも適用できる意味的類似度を提案。
    類似度と多義解消を用いた類似検索手
    法を提案した。
    比較実験より、本類似検索手法は従来
    の検索手法に比べて、改善を確認した。
    23

    View Slide

  24. ご視聴ありがとうございました
    24

    View Slide