Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定

MIKAMI-YUKI
September 24, 2015

 文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定

MIKAMI-YUKI

September 24, 2015
Tweet

More Decks by MIKAMI-YUKI

Other Decks in Education

Transcript

  1. 長岡技術科学大学 B4 三上侑城
    文献紹介 2015年9月24日
    複数の言語的特徴を用いた
    日本語述部の同義判定
    自然言語処理研究室
    1

    View Slide

  2. 出典
    複数の言語的特徴を用いた
    日本語述部の同義判定
    泉 朋子, 柴田 知秀, 齋藤 邦子,
    松尾 義博, 黒橋 禎夫
    自然言語処理 Vol. 20(2013) No. 4
    2

    View Slide

  3. 概要
    テキストマイニング技術では、述語表現
    の多様性が大きな問題となる。
    述語表現を対象に異なる2つの述部が
    同義か否かを認識する同義判定を行う。
    実験の結果、既存手法に比べ、高い精
    度で述部の同義性を判定できた。
    3

    View Slide

  4. 述部の言語的特徴
    既存手法を述部の同義判定に適用す
    ると、再現率や精度に問題がでる。
    同義性を正しく計算機で判別するために
    述部の言語構造を言語学的な視点で
    分析する。
    4

    View Slide

  5. 述部の言語的特徴
    述部の意味を考えると、複数の単語要
    素が組み合わさって意味を形成している。
    計算機に意味を理解させるためには、複
    数の言語的特徴を与えなくてはいけない。
    そこで述部の言語情報を複数の言語レ
    ベルに分類し、計算機に認識させる。
    5

    View Slide

  6. 提案手法
    述部の同義判定を行うために、4つの言
    語情報を素性とし、識別学習を用いて
    同義か否かを判定する。
    4つの言語情報は「辞書定義文」、「用
    言属性」、「分布類似度」、「機能表現」
    である。
    6

    View Slide

  7. 辞書定義文
    述部の同義性を判別するためには、まず
    単語そのものの定義が必要となる。
    そのため、本稿でも国語辞書の定義文か
    らの情報を素性として用いた。
    辞書定義分を考察すると、2つの有益
    な特徴を見出すことができた。
    7

    View Slide

  8. 辞書定義文
    1つ目は「同義の述部同士は、お互いの
    定義文内に表れやすい。」点で、これを
    相互補完性とここでは呼ぶ。
    相互補完性の有無を第一の素性とする。
    8

    View Slide

  9. 辞書定義文
    2つ目は「意味が似ている述部同士は、
    定義文同士も似ている。」点である。
    これらの定義文間の内容語の重なり数を
    用いて第二の素性とする。
    9

    View Slide

  10. 用言属性
    同義の述部は、より抽象的な意味レベ
    ルでも共有性があると考えられる。
    双方とも「生成」という属性を持っている。
    意味レベルの素性として、日本語語彙
    体系の用言属性を用いた。
    10

    View Slide

  11. 用言属性
    用言属性には36種類のラベルがあり、そ
    れらが階層的に構造化されている。
    そこで用言属性の重なり度というものを
    用いて、2つの述部の共通性を計算する。
    11

    View Slide

  12. 12

    View Slide

  13. 分布類似度
    述部が同義であれば、それらの述部に現
    れる文脈も類似すると考えられる。
    本稿ではこれらの周辺の項や文脈の情
    報を、分布類似度の値を用いて表す。
    分布類似度の計算は「項 – 述部」また
    は「述部」を単位として行う。
    13

    View Slide

  14. 分布類似度
    分布類似度の計算には、JACCARD係
    数とSIMPSON係数の平均値を用いる。
    14

    View Slide

  15. 機能表現
    機能表現の意味そのものも述部の同義
    性に影響する。
    述部の機能表現に意味ラベルを付与し、
    その意味ラベルの重なり率を素性とする。
    15

    View Slide

  16. 16

    View Slide

  17. 同義述部コーパスの作成
    同義判定モデルの作成と提案手法の評
    価のため「項 – 述語」を単位とした同義
    述語コーパスを作成した。
    17

    View Slide

  18. 実験
    作成したコーパスを用いて提案手法の評
    価を行った。
    本稿で使用するリソースである学研国語
    大辞典と語彙体系の用言属性にエント
    リがあり、かつ分布類似度計算の「項 –
    述部」の出現頻度が10以上のデータの
    みを選出した。
    18

    View Slide

  19. 実験
    学習データには同義述部コーパスから
    3503ペアを使用した。
    学習データの4/5を用いてトレーニングを
    行い1/5で評価し、これを5回繰り返した。
    19

    View Slide

  20. 実験
    20

    View Slide

  21. 実験結果
    21

    View Slide

  22. まとめ
    内容語と機能表現からなる述部を対象
    に、異なる2つの述部が同義か否かを判
    定する同義判定手法を提案した。
    結果、既存の分布類似度のみを用いた
    手法ではできなかった同技術部の認識が
    可能となった。
    22

    View Slide

  23. ご視聴ありがとうございました
    23

    View Slide