Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
大規模コーパスに基づく日本語二重目的語構文の基本語順の分析
Search
masaya82
April 25, 2018
0
200
大規模コーパスに基づく日本語二重目的語構文の基本語順の分析
masaya82
April 25, 2018
Tweet
Share
More Decks by masaya82
See All by masaya82
文献紹介 : More is not always better: balancing sense distributions for all-words
masaya82
0
120
文献紹介:Enhancing Modern Supervised Word Sense Disambiguation Models
masaya82
0
130
文献紹介:The Word Sense Disambiguation Test Suite at WMT18
masaya82
0
73
文献紹介:Preposition Sense Disambiguation and Representation
masaya82
0
100
文献紹介:Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph
masaya82
0
120
Distributional Lesk: Effective Knowledge-Based Word Sense Disambiguation
masaya82
0
83
Japanese all-words WSD system using the Kyoto Text Analysis ToolKit
masaya82
0
99
Improving Word Sense Disambiguation in Neural Machine Translation with Sense Embeddings
masaya82
0
110
Learning_to_Identify_the_Best_Contexts_for_Knowledge-based_WSD
masaya82
0
110
Featured
See All Featured
The World Runs on Bad Software
bkeepers
PRO
66
11k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
Learning to Love Humans: Emotional Interface Design
aarron
274
40k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
Producing Creativity
orderedlist
PRO
343
39k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.9k
Designing for humans not robots
tammielis
250
25k
Docker and Python
trallard
43
3.2k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.9k
Transcript
大規模コーパスに基づく 日本語二重目的語構文の基本語順の分析 笹野 遼平,奥村 学 自然言語処理 24巻 5号 p687-703 長岡技術科学大学 自然言語処理研究室 福嶋 真也 文献紹介
※例文、図、表は本論文より引用
2 概要 • 日本語二重目的語構文の基本語順を分析 →大規模コーパスを用いて分析することで多くの仮説を網羅的に検証 することが可能 • 分析結果からわかったこと ・動詞によって基本語順が異なる ・省略されにくい格は動詞の近くに出現する傾向がある
・動詞のタイプは基本語順と関係しない ・二格名詞が着点を表す場合、有生性を持つ名詞の方が「にを」の語 順を取りやすい ・対象の動詞と高頻度に共起するヲ格名詞、ニ格名詞は動詞の近くに 出現しやすい
3 はじめに • 二重目的語構文とは 二格(与格,DAT)、ヲ格(対格,ACC)で表される2つの目的 語を取る構文 ex)太郎が次郎に写真を見せた。 • 関連研究では日本語に基本語順が存在していることが示 唆されており、どの語順を基本語順とみなすかは意見が別
れている。 二重目的語構文にも様々な説が存在。
4 はじめに • 分析方法は理論研究、心理実験、脳科学に基づく研究 などが存在 →信頼性が高いが、網羅的な検証が不可能 →大規模コーパスで用例を収集し、分析することで解消 • コーパス内で多数を占める語順が基本語順とは限らないため、 コストのかかる検証を行う前段階の検証として有用と思われる
5 検証する仮説 本研究では代表的な仮説及びその類型として 五つの仮説を検証 A.動詞によらず基本語順は「にを」である B.基本語順は動詞のタイプによって異なる C.省略されにくい格は基本語順において 動詞の近くに出現する D.基本語順はニ格名詞の意味役割や有生性によって異なる E.対象の動詞と高頻度に共起するヲ格、ニ格名詞は基本語順において
動詞の近くに位置する
6 検証する仮説 • 仮説A 日本語二重目的語構文には大きく分けて二つの基本語順が存在 ・「がにを」語順 ・「がをに」語順 「が」は共通のため、以後「にを」語順、「をに」語順と表記 • 仮説B
動詞のタイプ:使役起動交替を適用した時の主語で判断 ・Showタイプ・・・二格名詞が主語 ex)彼に本を見せる。(彼が見る) ・Passタイプ・・・ヲ格名詞が主語 ex)本を彼に渡す。(本が渡る)
7 検証する仮説 • 仮説C 省略されにくい格は動詞の直前に出現しやすい • 仮説D ニ格名詞が生物である時(有生性)、「にを」語順を取りやすい ex) 先生に本を返却した /
本を学校に返却した • 仮説E 高頻度で動詞と共起する二格名詞、ヲ格名詞は動詞の近くに 出現しやすい
8 分析に使用する用例の収集 Webから収集したテキスト集合の中から以下の作業手順で 用例を収集する→648種類の動詞が分析対象に 1.テキスト集合を文に分割し、また重複がないようにする 2.KNPを用いて構文解析を行い、構文的曖昧性がないと解析 された用例を抽出 3.用例を動詞ごとにまとめ、用例が一定数存在する動詞のみ を収集
9 分析方法と結果 • 動詞ごとの基本語順の分析 分析対象の動詞に対して、 ・ヲ格、ニ格どちらかが一方が出現した用例のうち、ニ格のみが 出現した割合RACC-only ・ヲ格、ニ格どちらかも出現した用例のうち、「をに」語順の 割合RACC-DAT を算出するとともに、それらの相関を調査
10 分析方法と結果 • 動詞ごとの基本語順の分析 RACC-only とRACC-DAT 間に弱い相関 →仮説Cのような、動詞に近い格は 省略されにくい傾向が見られる 動詞の38%は「をに」語順が優勢
→すべての動詞の基本語順が「にを」というわけでない →仮説Aが正しいと言えない
11 分析方法と結果 • 動詞のタイプと基本語順 仮説Bの検証のため、Showタイプの動詞11個とPassタイプの 動詞22個を対象に語順を調査 →両者に有意な差は見られなかった
12 分析方法と結果 • ニ格名詞の性質と基本語順 仮説Dの検証のために、二格名詞のカテゴリが「人」である用例と 「場所ー施設」である用例がそれぞれ100以上存在する動詞を対 象に「をに」語順の割合を調査 →126個の動詞が条件に合致 その中で出現割合に有意な差 があると判定された動詞が94個
さらに64個の動詞で カテゴリが「人」の時、 「にを」語順になる割合が高い
13 分析方法と結果 • 動詞と名詞の共起度合と語順の関係 ・それぞれの格の名詞と動詞の共起度合いを正規化自己相互 情報量(NPMI)で表現 ・データは500回以上出現したヲ格名詞、二格名詞、動詞の組 み合わせを使用(2302個) ・慣用表現の影響も調査(慣用表現は手作業で収集)
14 分析方法と結果 • 動詞と名詞の共起度合と語順の関係 二格名詞と動詞、ヲ格名詞と動詞のNPMIの差と「をに」語順の 割合の相関係数は0.567 慣用表現を除いた場合の相関係数は0.513 →仮説Eが正しいことを示唆している
15 まとめ • 網羅的な検証方法で日本語二重目的語構文の基本語順について の仮説を検証した • 大規模コーパスで収集した用例から五つの仮説を検証 • 分析結果から以下のことが示唆される ・基本語順は必ず「にを」語順というわけではない
・基本語順に動詞のタイプは影響しない ・省略されにくい格は動詞の近くに出現する傾向がある ・二格名詞が着点を表すとき、有生性を持つ場合に「にを」語順を取 りやすい ・対象の動詞と高頻度に共起するヲ格、二格名詞は動詞の近くに 出現しやすい
16 まとめ • 構文的曖昧性がない文を対象にしたため、正しく分析できてい ない可能性のある動詞が存在すると考えられる • 本研究の手法は網羅的な検証に向いているが、信頼性を得る ためには直接的な検証を行う必要がある。