大規模コーパスに基づく日本語二重目的語構文の基本語順の分析

029be5ac1ce0db70c46dcd7152308e2e?s=47 masaya82
April 25, 2018
77

 大規模コーパスに基づく日本語二重目的語構文の基本語順の分析

029be5ac1ce0db70c46dcd7152308e2e?s=128

masaya82

April 25, 2018
Tweet

Transcript

  1. 大規模コーパスに基づく 日本語二重目的語構文の基本語順の分析 笹野 遼平,奥村 学 自然言語処理 24巻 5号 p687-703 長岡技術科学大学 自然言語処理研究室 福嶋 真也 文献紹介

    ※例文、図、表は本論文より引用
  2. 2 概要 • 日本語二重目的語構文の基本語順を分析 →大規模コーパスを用いて分析することで多くの仮説を網羅的に検証 することが可能 • 分析結果からわかったこと ・動詞によって基本語順が異なる ・省略されにくい格は動詞の近くに出現する傾向がある

    ・動詞のタイプは基本語順と関係しない ・二格名詞が着点を表す場合、有生性を持つ名詞の方が「にを」の語 順を取りやすい ・対象の動詞と高頻度に共起するヲ格名詞、ニ格名詞は動詞の近くに 出現しやすい
  3. 3 はじめに • 二重目的語構文とは 二格(与格,DAT)、ヲ格(対格,ACC)で表される2つの目的 語を取る構文 ex)太郎が次郎に写真を見せた。 • 関連研究では日本語に基本語順が存在していることが示 唆されており、どの語順を基本語順とみなすかは意見が別

    れている。 二重目的語構文にも様々な説が存在。
  4. 4 はじめに • 分析方法は理論研究、心理実験、脳科学に基づく研究 などが存在 →信頼性が高いが、網羅的な検証が不可能  →大規模コーパスで用例を収集し、分析することで解消 • コーパス内で多数を占める語順が基本語順とは限らないため、 コストのかかる検証を行う前段階の検証として有用と思われる

  5. 5 検証する仮説 本研究では代表的な仮説及びその類型として 五つの仮説を検証 A.動詞によらず基本語順は「にを」である B.基本語順は動詞のタイプによって異なる C.省略されにくい格は基本語順において  動詞の近くに出現する D.基本語順はニ格名詞の意味役割や有生性によって異なる E.対象の動詞と高頻度に共起するヲ格、ニ格名詞は基本語順において

     動詞の近くに位置する
  6. 6 検証する仮説 • 仮説A 日本語二重目的語構文には大きく分けて二つの基本語順が存在 ・「がにを」語順 ・「がをに」語順 「が」は共通のため、以後「にを」語順、「をに」語順と表記 • 仮説B

    動詞のタイプ:使役起動交替を適用した時の主語で判断 ・Showタイプ・・・二格名詞が主語 ex)彼に本を見せる。(彼が見る) ・Passタイプ・・・ヲ格名詞が主語 ex)本を彼に渡す。(本が渡る)
  7. 7 検証する仮説 • 仮説C 省略されにくい格は動詞の直前に出現しやすい • 仮説D ニ格名詞が生物である時(有生性)、「にを」語順を取りやすい ex) 先生に本を返却した /

    本を学校に返却した • 仮説E 高頻度で動詞と共起する二格名詞、ヲ格名詞は動詞の近くに 出現しやすい
  8. 8 分析に使用する用例の収集 Webから収集したテキスト集合の中から以下の作業手順で 用例を収集する→648種類の動詞が分析対象に 1.テキスト集合を文に分割し、また重複がないようにする 2.KNPを用いて構文解析を行い、構文的曖昧性がないと解析  された用例を抽出 3.用例を動詞ごとにまとめ、用例が一定数存在する動詞のみ  を収集

  9. 9 分析方法と結果 • 動詞ごとの基本語順の分析 分析対象の動詞に対して、 ・ヲ格、ニ格どちらかが一方が出現した用例のうち、ニ格のみが 出現した割合RACC-only ・ヲ格、ニ格どちらかも出現した用例のうち、「をに」語順の 割合RACC-DAT を算出するとともに、それらの相関を調査

  10. 10 分析方法と結果 • 動詞ごとの基本語順の分析 RACC-only とRACC-DAT 間に弱い相関 →仮説Cのような、動詞に近い格は  省略されにくい傾向が見られる 動詞の38%は「をに」語順が優勢

    →すべての動詞の基本語順が「にを」というわけでない →仮説Aが正しいと言えない
  11. 11 分析方法と結果 • 動詞のタイプと基本語順 仮説Bの検証のため、Showタイプの動詞11個とPassタイプの 動詞22個を対象に語順を調査 →両者に有意な差は見られなかった

  12. 12 分析方法と結果 • ニ格名詞の性質と基本語順 仮説Dの検証のために、二格名詞のカテゴリが「人」である用例と 「場所ー施設」である用例がそれぞれ100以上存在する動詞を対 象に「をに」語順の割合を調査 →126個の動詞が条件に合致 その中で出現割合に有意な差 があると判定された動詞が94個

     さらに64個の動詞で  カテゴリが「人」の時、  「にを」語順になる割合が高い
  13. 13 分析方法と結果 • 動詞と名詞の共起度合と語順の関係 ・それぞれの格の名詞と動詞の共起度合いを正規化自己相互 情報量(NPMI)で表現 ・データは500回以上出現したヲ格名詞、二格名詞、動詞の組 み合わせを使用(2302個) ・慣用表現の影響も調査(慣用表現は手作業で収集)

  14. 14 分析方法と結果 • 動詞と名詞の共起度合と語順の関係 二格名詞と動詞、ヲ格名詞と動詞のNPMIの差と「をに」語順の 割合の相関係数は0.567 慣用表現を除いた場合の相関係数は0.513 →仮説Eが正しいことを示唆している

  15. 15 まとめ • 網羅的な検証方法で日本語二重目的語構文の基本語順について の仮説を検証した • 大規模コーパスで収集した用例から五つの仮説を検証 • 分析結果から以下のことが示唆される ・基本語順は必ず「にを」語順というわけではない

    ・基本語順に動詞のタイプは影響しない ・省略されにくい格は動詞の近くに出現する傾向がある ・二格名詞が着点を表すとき、有生性を持つ場合に「にを」語順を取 りやすい ・対象の動詞と高頻度に共起するヲ格、二格名詞は動詞の近くに 出現しやすい
  16. 16 まとめ • 構文的曖昧性がない文を対象にしたため、正しく分析できてい ない可能性のある動詞が存在すると考えられる • 本研究の手法は網羅的な検証に向いているが、信頼性を得る ためには直接的な検証を行う必要がある。