Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20150708 文献紹介
Search
Yuta
July 08, 2015
Education
0
150
20150708 文献紹介
Yuta
July 08, 2015
Tweet
Share
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
160
NLP2016 報告
sudo
0
180
NLP2016 発表スライド
sudo
0
200
20160218 文献紹介
sudo
0
220
20150909 発表資料
sudo
0
140
20150820 文献紹介
sudo
0
170
20150610 文献紹介
sudo
0
170
20150512 文献紹介
sudo
0
180
20150415 文献紹介
sudo
1
200
Other Decks in Education
See All in Education
第1回全国商業高校Webアプリコンテスト総括
asial_corp
0
410
保育とふりかえりをコネクト! / connect childcare and retrospectives!
psj59129
1
150
全員参加型で会社を強くしていく活動を考えてみる
ikefukurou777
0
210
千葉県印西市立・原山小学校における新たな学び「情報探究の時間」実践報告』
codeforeveryone
1
710
AWS試験全冠したら新しい道が開けた話
nagisa53
3
1.1k
[SemanaX-UFCG-2024] Guia descomplicado de entrevistas FAANG
hugaomarques
2
450
Data Management and Analytics Specialisation
signer
PRO
0
990
Analysis and Validation - Lecture 4 - Information Visualisation (4019538FNR)
signer
PRO
0
1.4k
パフォーマンス・チューニング入門
oracle4engineer
PRO
2
620
STEAM教育の枠組で行うプログラミング学習
asial_edu
0
210
Design Guidelines and Principles - Lecture 7 - Information Visualisation (4019538FNR)
signer
PRO
0
1.7k
Introduction - Lecture 1 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
3k
Featured
See All Featured
Rebuilding a faster, lazier Slack
samanthasiow
73
8.2k
Reflections from 52 weeks, 52 projects
jeffersonlam
345
19k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
17
1.4k
Navigating Team Friction
lara
178
13k
How STYLIGHT went responsive
nonsquared
92
4.8k
ParisWeb 2013: Learning to Love: Crash Course in Emotional UX Design
dotmariusz
104
6.6k
Keith and Marios Guide to Fast Websites
keithpitt
408
22k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
241
1.2M
It's Worth the Effort
3n
180
27k
Git: the NoSQL Database
bkeepers
PRO
422
63k
Atom: Resistance is Futile
akmur
259
25k
How to Ace a Technical Interview
jacobian
272
22k
Transcript
文献紹介 大規模日本語文法の開発 野呂 智哉, 橋本 泰一, 徳永 健伸, 田中 穂積
自然言語処理 Vol.12 (2005) No.1 P3-32 自然言語処理研究室 B4 須戸悠太 1
概要 • 構文解析において、大規模な文法は必要 – 人手での開発は困難。(網羅性に欠ける) – コーパスから文法を抽出すると曖昧性が増大することが 避けられない。 • 曖昧性を極力抑えた文法開発の方針の提案
– 解析木の数のオーダーを1012から105まで減少 – 約90%の係り受け精度 2
問題点 • 日本語では、Penn Treebankのような大規模な構文 構造付きコーパスが存在しない • 構文構造付きコーパスから抽出した大規模な文法 で解析→膨大な数の結果が出力 • 曖昧性の削減には要因を分析し、文法規則を変化
させる必要がある – 機械的な変更だけでなく、人手による変更も必要 3
大規模日本語文法の作成手順 1. 構文構造付きコーパスから文法を抽出 2. 構文解析結果を増大させる要因を分析 3. 結果をもとにコーパスの変更方針を作成 4. 変更した後、新しい文法を再抽出 5.
2~4を繰り返す 4
使用したコーパス • EDRコーパス中の文(約2万文)に対し、人手で構文 構造を付与 • 異なる点 1. 基本構造 2. 単語区切りと品詞体系
3. 構文構造 5
EDRコーパスと異なる点 1. 基本構造(以下の3つの層に分かれている) 1. 形態素と終端記号(品詞)を対応付ける層 2. 終端記号をやや粗い品詞分類に変換する層 3. 実際の構文構造を示す層 2.
単語区切りと品詞体系 – EDRコーパスでは品詞が15種類しかないため、EDR日本 語単語辞書を用いて細分化した品詞を追加 6
3. 構文構造 – 各中間ノードに非終端記号を付与する。 – ただし、一つの中間ノードに複数の非終端記号を縦に続 けて割り当てる場合もある。 7
曖昧性増大の要因 1. ラベル付けの誤り 2. 構文構造の不一致 3. 構文情報の欠落 4. 意味情報の必要性 –
1, 2はコーパスの誤りであり、要訂正 – 3は必要な構文情報を考察し、非終端記号に追加する。 – 4は曖昧性を包含した単一の構文構造を付与し、文法を 再抽出する。 8
文法・コーパスの変更方針 • 要因3については文法とコーパスを変更しながら曖 昧性を抑える。 • 要因4については出力される構文解析木の数を抑え ることは、その後の意味解析を困難にすることもあ り得る。 – どれを単一の構文構造で表現するか詳細に検討
9
• 使用したコーパスの不備・欠点 1. 用言の活用系に関する情報の欠落 2. 複合名詞内の構造の曖昧性 3. 連用/連体 修飾句の係り先の曖昧性 4.
並列構造の曖昧性 • これらを解消するように方針を定める – ラベルの追加 – 構造の一定化 など 10
文法・コーパスの構文構造の変更 • 以下の2点について評価を行った。 1. 構文解析結果の曖昧性がどの程度抑えられているか 2. どの程度の構文解析結果が得られるか • 8911文に対し、以下の手順で構文構造を変更 1.
変更方針に従って文法を人手で変更 2. MSLRパーザでコーパス中の文を構文解析し、解析結果 の集合を獲得 3. コーパス作成支援ツールで、集合を絞込み、最終的に 一つの正しい構文構成を選択 11
構文解析結果の曖昧性の変化 • 変更前、変更後のコーパス全8911文から文法を抽 出し、MSLRパーザで解析 • 結果、文法規則数は約250個増加しているが、解析 結果の数は O 1012 から
O 105 に減少した。 12
構文解析精度の変化 • 8911文を10分割し、一つを評価用、残りをPGLRモデ ルの学習用とし、10分割交差検定で評価を行う。 – 文法は全文から抽出したもの( )と、学習用データの みから抽出したもの( )の2通り •
PGLRモデルによる生成確率の上位100位以内の解 析結果について、変更後の方が8~10%高い。 13 変更前 [%] 変更後 [%] 88.45 98.62 86.23 94.66
PGLRモデルによる解析結果を利用した 係り受け解析 • 係り受け関係は以下の手順で高分木から抽出 1. 文節区切りを決定する 2. 構文構造を基に、各文節について、係り先となる文節を 決定する •
評価について – 変更後の8912文で評価を行う。 – 評価用として100文をランダムに選択、残りを学習用 14
実験結果 • PGLRモデルにより構文解析を行い、構文木から係り 受け構造を抽出する。 • 以下の3つの尺度で評価 1. 係り受けA型:全ての係り受け関係の正解率 2. 係り受けB型:文末2文節以外の係り受け関係の正解率
3. 文正解率:文全体の文節の係り受け関係の正解率 15