Upgrade to Pro — share decks privately, control downloads, hide ads and more …

シソーラスを組み込んだ意味解析システム

19861bbc3b8d3ef89df5400d1e2c529a?s=47 katsutan
April 27, 2017

 シソーラスを組み込んだ意味解析システム

文献紹介
長岡技術科学大学 自然言語処理研究室
勝田哲弘

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

April 27, 2017
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. 文献紹介: シソーラスを組み込んだ意味解析シ ステム 国分 芳宏, 梅北 浩二, 松下 栄一, 末岡

    隆史 自然言語処理 Vol. 17 (2010) No. 4 P 4_43-4_57 長岡技術科学大学 自然言語処理研究室 学部4年 勝田哲弘 2017/4/28 図、表などは論文中から引用しています。
  2. 概要 • 用語の異なり、構文構造の異なりに対処し、解 析精度を向上させる • 対策としては、シソーラスを用いて用語間の意 味的な距離を決定する ▫ 用語の標準化や係り受けの正規化、省略された主 語の復元、文節意図を付与する

    • 0.9ポイントの向上
  3. 構文構造の決定 • シソーラスを用いて用語同士の意味的な距離の 近いところに係るという方式

  4. 構文構造の決定 <P>は並列の意味

  5. 意味的な距離の定義 • 例 ネットで -調べる -行く 意味的な距離 1 ∞

  6. 意味的な距離の定義 • 未定義のものは関係ごとの意味的な距離を加算 する 狭義語のさらに狭義語は1+1で2と定義される • 同じ言葉でも異なる意味のものは別の言葉とし て管理する

  7. 係り受けデータの整理 • シソーラスを用いて用語の標準化

  8. 係り受けデータの整理 • 係り受けの正規化 ▫ 限定用法を叙述用法に統一 例 青、い、リンゴ → リンゴ、が、青、い •

    間に挟む助詞は4種類に限定
  9. 情報の付与 • 文節意図 ▫ 係り受けの語幹までで区切りそれ以降の「付属語 の並び」を管理 • 例 お酒を飲 んでください

    係り受け 付属語の並び
  10. 情報の付与 このシステムでは130万 行の解析辞書を使用

  11. 情報の付与

  12. 主語の推定 • 待遇表現による推定 ▫ 謙譲語が使われている動詞は一人称 ▫ 尊敬語は二人称又は三人称 • 文節意図による推定

  13. 辞書-シソーラス

  14. 解析辞書 • 各用語に付与されている情報 • 名詞の意味

  15. 解析辞書 • 用言()内は活用語尾

  16. 解析辞書 • 動詞の性質 • 付属語の並び

  17. 実験 • Yahoo!知恵袋データ2004年4月の質問記事 (5957記事、15883文)を用いて、 cabochaとの解析精度を比較 • また、シソーラスをシステムに組み込んだ場合 とそうでない場合を比べる

  18. 結果 • 13.8ポイント上回っている • シソーラスの有無では全体の15883文に対 して0.9%向上している

  19. 結果 • 成功例 「音楽がいつまでたっても始まりません」 • 失敗例 「警察の方に話がいっているかわからない」

  20. まとめ • シソーラスによる意味的な距離を考慮すると、 0.9%向上した • 係り受け語の規模が小さかったため対応が取れ なかった • 会話体の文章を扱うため、用語をうまくまとめ られなかった