Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
大規模コーパスに基づく日本語二重目的語構文の基本語順の分析
Search
masaya82
April 25, 2018
0
200
大規模コーパスに基づく日本語二重目的語構文の基本語順の分析
masaya82
April 25, 2018
Tweet
Share
More Decks by masaya82
See All by masaya82
文献紹介 : More is not always better: balancing sense distributions for all-words
masaya82
0
110
文献紹介:Enhancing Modern Supervised Word Sense Disambiguation Models
masaya82
0
120
文献紹介:The Word Sense Disambiguation Test Suite at WMT18
masaya82
0
69
文献紹介:Preposition Sense Disambiguation and Representation
masaya82
0
96
文献紹介:Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph
masaya82
0
120
Distributional Lesk: Effective Knowledge-Based Word Sense Disambiguation
masaya82
0
79
Japanese all-words WSD system using the Kyoto Text Analysis ToolKit
masaya82
0
93
Improving Word Sense Disambiguation in Neural Machine Translation with Sense Embeddings
masaya82
0
110
Learning_to_Identify_the_Best_Contexts_for_Knowledge-based_WSD
masaya82
0
100
Featured
See All Featured
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
231
17k
Building Your Own Lightsaber
phodgson
102
6.1k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
[RailsConf 2023] Rails as a piece of cake
palkan
51
4.9k
Docker and Python
trallard
40
3.1k
Fireside Chat
paigeccino
33
3k
Building Adaptive Systems
keathley
38
2.3k
The Cost Of JavaScript in 2023
addyosmani
45
6.7k
4 Signs Your Business is Dying
shpigford
180
21k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
A Philosophy of Restraint
colly
203
16k
Transcript
大規模コーパスに基づく 日本語二重目的語構文の基本語順の分析 笹野 遼平,奥村 学 自然言語処理 24巻 5号 p687-703 長岡技術科学大学 自然言語処理研究室 福嶋 真也 文献紹介
※例文、図、表は本論文より引用
2 概要 • 日本語二重目的語構文の基本語順を分析 →大規模コーパスを用いて分析することで多くの仮説を網羅的に検証 することが可能 • 分析結果からわかったこと ・動詞によって基本語順が異なる ・省略されにくい格は動詞の近くに出現する傾向がある
・動詞のタイプは基本語順と関係しない ・二格名詞が着点を表す場合、有生性を持つ名詞の方が「にを」の語 順を取りやすい ・対象の動詞と高頻度に共起するヲ格名詞、ニ格名詞は動詞の近くに 出現しやすい
3 はじめに • 二重目的語構文とは 二格(与格,DAT)、ヲ格(対格,ACC)で表される2つの目的 語を取る構文 ex)太郎が次郎に写真を見せた。 • 関連研究では日本語に基本語順が存在していることが示 唆されており、どの語順を基本語順とみなすかは意見が別
れている。 二重目的語構文にも様々な説が存在。
4 はじめに • 分析方法は理論研究、心理実験、脳科学に基づく研究 などが存在 →信頼性が高いが、網羅的な検証が不可能 →大規模コーパスで用例を収集し、分析することで解消 • コーパス内で多数を占める語順が基本語順とは限らないため、 コストのかかる検証を行う前段階の検証として有用と思われる
5 検証する仮説 本研究では代表的な仮説及びその類型として 五つの仮説を検証 A.動詞によらず基本語順は「にを」である B.基本語順は動詞のタイプによって異なる C.省略されにくい格は基本語順において 動詞の近くに出現する D.基本語順はニ格名詞の意味役割や有生性によって異なる E.対象の動詞と高頻度に共起するヲ格、ニ格名詞は基本語順において
動詞の近くに位置する
6 検証する仮説 • 仮説A 日本語二重目的語構文には大きく分けて二つの基本語順が存在 ・「がにを」語順 ・「がをに」語順 「が」は共通のため、以後「にを」語順、「をに」語順と表記 • 仮説B
動詞のタイプ:使役起動交替を適用した時の主語で判断 ・Showタイプ・・・二格名詞が主語 ex)彼に本を見せる。(彼が見る) ・Passタイプ・・・ヲ格名詞が主語 ex)本を彼に渡す。(本が渡る)
7 検証する仮説 • 仮説C 省略されにくい格は動詞の直前に出現しやすい • 仮説D ニ格名詞が生物である時(有生性)、「にを」語順を取りやすい ex) 先生に本を返却した /
本を学校に返却した • 仮説E 高頻度で動詞と共起する二格名詞、ヲ格名詞は動詞の近くに 出現しやすい
8 分析に使用する用例の収集 Webから収集したテキスト集合の中から以下の作業手順で 用例を収集する→648種類の動詞が分析対象に 1.テキスト集合を文に分割し、また重複がないようにする 2.KNPを用いて構文解析を行い、構文的曖昧性がないと解析 された用例を抽出 3.用例を動詞ごとにまとめ、用例が一定数存在する動詞のみ を収集
9 分析方法と結果 • 動詞ごとの基本語順の分析 分析対象の動詞に対して、 ・ヲ格、ニ格どちらかが一方が出現した用例のうち、ニ格のみが 出現した割合RACC-only ・ヲ格、ニ格どちらかも出現した用例のうち、「をに」語順の 割合RACC-DAT を算出するとともに、それらの相関を調査
10 分析方法と結果 • 動詞ごとの基本語順の分析 RACC-only とRACC-DAT 間に弱い相関 →仮説Cのような、動詞に近い格は 省略されにくい傾向が見られる 動詞の38%は「をに」語順が優勢
→すべての動詞の基本語順が「にを」というわけでない →仮説Aが正しいと言えない
11 分析方法と結果 • 動詞のタイプと基本語順 仮説Bの検証のため、Showタイプの動詞11個とPassタイプの 動詞22個を対象に語順を調査 →両者に有意な差は見られなかった
12 分析方法と結果 • ニ格名詞の性質と基本語順 仮説Dの検証のために、二格名詞のカテゴリが「人」である用例と 「場所ー施設」である用例がそれぞれ100以上存在する動詞を対 象に「をに」語順の割合を調査 →126個の動詞が条件に合致 その中で出現割合に有意な差 があると判定された動詞が94個
さらに64個の動詞で カテゴリが「人」の時、 「にを」語順になる割合が高い
13 分析方法と結果 • 動詞と名詞の共起度合と語順の関係 ・それぞれの格の名詞と動詞の共起度合いを正規化自己相互 情報量(NPMI)で表現 ・データは500回以上出現したヲ格名詞、二格名詞、動詞の組 み合わせを使用(2302個) ・慣用表現の影響も調査(慣用表現は手作業で収集)
14 分析方法と結果 • 動詞と名詞の共起度合と語順の関係 二格名詞と動詞、ヲ格名詞と動詞のNPMIの差と「をに」語順の 割合の相関係数は0.567 慣用表現を除いた場合の相関係数は0.513 →仮説Eが正しいことを示唆している
15 まとめ • 網羅的な検証方法で日本語二重目的語構文の基本語順について の仮説を検証した • 大規模コーパスで収集した用例から五つの仮説を検証 • 分析結果から以下のことが示唆される ・基本語順は必ず「にを」語順というわけではない
・基本語順に動詞のタイプは影響しない ・省略されにくい格は動詞の近くに出現する傾向がある ・二格名詞が着点を表すとき、有生性を持つ場合に「にを」語順を取 りやすい ・対象の動詞と高頻度に共起するヲ格、二格名詞は動詞の近くに 出現しやすい
16 まとめ • 構文的曖昧性がない文を対象にしたため、正しく分析できてい ない可能性のある動詞が存在すると考えられる • 本研究の手法は網羅的な検証に向いているが、信頼性を得る ためには直接的な検証を行う必要がある。