Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介_9_コーパスに基づく動詞の多義解消

MIKAMI-YUKI
December 24, 2015

 文献紹介_9_コーパスに基づく動詞の多義解消

MIKAMI-YUKI

December 24, 2015
Tweet

More Decks by MIKAMI-YUKI

Other Decks in Education

Transcript

  1. 長岡技術科学大学 B4 三上侑城
    文献紹介 2015年12月24日
    コーパスに基づく動詞の
    多義解消
    自然言語処理研究室
    1

    View full-size slide

  2. 出典
    コーパスに基づく動詞の多義解消
    福本 文代, 辻井 潤一
    自然言語処理 Vol. 4 (1997)
    No. 2 P21-39
    2

    View full-size slide

  3. 概要
    言語処理における問題の一つに、言語
    に関する様々な曖昧性の問題がある。
    動詞の語義情報を利用し、文中に含ま
    れる多義語の曖昧性を解消する。
    本手法では71.1%の正解率が得られた。
    3

    View full-size slide

  4. 情報の抽出
    意味的に近い動詞は同じ名詞と共起し
    て出現する。
    s1,s1’ においてtakeとbuyはstakeと
    共起して現れ、ほぼ同じ意味をもつ。
    4

    View full-size slide

  5. 情報の抽出
    s1,s2両方に表れるtakeは多義語であ
    り、動詞buy, spendと共起して表れる
    名詞stake, timeと特徴付けができる。
    多義語の動詞を含む文において、意味
    を特徴づける名詞があれば、動詞の意
    味を同定することができる。
    5

    View full-size slide

  6. 仮想動詞
    多義語の意味を特徴づける名詞の集合
    を抽出する。
    多義語に対し、一つ一つの意味に対応
    させた要素(仮想動詞ベクトル)に分解し、
    クラスタを生成。
    6

    View full-size slide

  7. 仮想動詞
    7

    View full-size slide

  8. クラスタリング手法
    手法として、overlappingクラスタリング
    アルゴリズムを使用した。
    手法として例えば、takeがbuyとspend
    の意味を持つかどうかを判断するために、
    {take1, buy}と{take2,spend}の偏
    差を比較して決定する。
    8

    View full-size slide

  9. 相互情報量
    9

    View full-size slide

  10. 相互情報量
    クラスタリングの結果から得られたこのテー
    ブルをpvnテーブルと呼ぶ。
    複数の集合に属する名詞は、相互情報
    量が一番大きい値の仮想動詞とする。
    10

    View full-size slide

  11. 多義語の解消
    多義語の後方5字以内に出現する名
    詞がpvnテーブルに存在するときに、その
    仮想動詞の意味とする。
    2つ以上存在する場合は、相互情報量
    が一番高いものをその意味とする。
    11

    View full-size slide

  12. 多義語の解消
    名詞がpvnテーブルに存在しない場合は、
    その名詞と各仮想動詞を以下の式で計
    算し、最大になったものの意味とする。
    Mu:相互情報量 , Dis:偏差
    12

    View full-size slide

  13. 実験
    コーパスはタグ付けされたWall Street
    Journal(182,992文)を使用した。
    そこから動詞と名詞の組を5,940,193
    組(異なり組:2,743,974)を取得した。
    13

    View full-size slide

  14. 実験
    異なり組:2,743,974に対して、相互情
    報量を計算し、共起頻度の閾値が5、
    相互情報量の閾値が3以上である動
    詞と名詞、動詞と副詞の組を抽出した。
    結果、名詞が6768組、副詞が1200組
    を得た。
    14

    View full-size slide

  15. 実験
    実験にはその中から、14種類の多義語
    を用い、テスト文として、各多義語に対し
    てランダムに100文、合計1,400文を抽
    出した。
    この中で、人間が一意に決定できないも
    のは除き、1,226文を対象に実験を行っ
    た。
    15

    View full-size slide

  16. 実験結果
    16

    View full-size slide

  17. 実験結果
    17

    View full-size slide

  18. 実験結果
    18
    pvnテーブルにある方の正解は、総
    数606文の内、539文であり、正解
    率は88.9%に達している。

    View full-size slide

  19. 実験(他手法との比較)
    既存の手法であった、文脈ベクトルを用
    いた名詞の多義解消手法を動詞に適
    用した結果と比較した。
    文脈サイズ(対象語の前後何語を文脈
    としたか)には5語と10語を用いた。
    19

    View full-size slide

  20. 実験結果
    20

    View full-size slide

  21. まとめ
    コーパスから抽出した動詞の語義情報を
    利用し、曖昧性を解消する手法を提案。
    14種類の多義語動詞1226文に対し、
    71.1%の正解率が得られた。
    pvnテーブルにあるもののみの場合では
    88.9%の正解率が得られた。
    21

    View full-size slide

  22. ご視聴ありがとうございました
    22

    View full-size slide