Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20150708 文献紹介
Search
Yuta
July 08, 2015
Education
0
160
20150708 文献紹介
Yuta
July 08, 2015
Tweet
Share
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
180
NLP2016 報告
sudo
0
200
NLP2016 発表スライド
sudo
0
220
20160218 文献紹介
sudo
0
270
20150909 発表資料
sudo
0
150
20150820 文献紹介
sudo
0
190
20150610 文献紹介
sudo
0
200
20150512 文献紹介
sudo
0
190
20150415 文献紹介
sudo
1
240
Other Decks in Education
See All in Education
P3NFEST 2026 Spring ハンズオン「ハッキング・ラブ!はじめてのハッキングをやってみよう」資料
nomizone
0
300
Data Representation - Lecture 3 - Information Visualisation (4019538FNR)
signer
PRO
1
2.9k
小さなまちで始める デジタル創作の居場所〜すべての子どもが創造的に未来を描ける社会へ〜
codeforeveryone
0
180
Gitの仕組みと用語 / 01-b-term
kaityo256
PRO
0
190
インシデント対応
akira345
0
290
Gesture-based Interaction - Lecture 6 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
2k
高校数学B「統計的な推測」 分野の問題と課題
shimizudan
1
120
Human Perception and Colour Theory - Lecture 2 - Information Visualisation (4019538FNR)
signer
PRO
0
3k
ブランチ操作 / 02-a-branch
kaityo256
PRO
0
200
MySmartSTEAM 2526
cbtlibrary
0
210
地区危機管理委員会 出前セミナー「ロータリーにおける危機管理」:膳所 和彦 氏(国際ロータリー第2720地区 パストガバナー・日田ロータリークラブ・医療法人恒心会ぜぜ医院 理事長):2720 Japan O.K. ロータリーEクラブ2026年2月16日卓話
2720japanoke
1
600
国際卓越研究大学計画|Science Tokyo(東京科学大学)
sciencetokyo
PRO
0
48k
Featured
See All Featured
Become a Pro
speakerdeck
PRO
31
5.8k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.2k
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
120
We Are The Robots
honzajavorek
0
200
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
150
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
9.9k
30 Presentation Tips
portentint
PRO
1
250
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.4k
Why Our Code Smells
bkeepers
PRO
340
58k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
350
Transcript
文献紹介 大規模日本語文法の開発 野呂 智哉, 橋本 泰一, 徳永 健伸, 田中 穂積
自然言語処理 Vol.12 (2005) No.1 P3-32 自然言語処理研究室 B4 須戸悠太 1
概要 • 構文解析において、大規模な文法は必要 – 人手での開発は困難。(網羅性に欠ける) – コーパスから文法を抽出すると曖昧性が増大することが 避けられない。 • 曖昧性を極力抑えた文法開発の方針の提案
– 解析木の数のオーダーを1012から105まで減少 – 約90%の係り受け精度 2
問題点 • 日本語では、Penn Treebankのような大規模な構文 構造付きコーパスが存在しない • 構文構造付きコーパスから抽出した大規模な文法 で解析→膨大な数の結果が出力 • 曖昧性の削減には要因を分析し、文法規則を変化
させる必要がある – 機械的な変更だけでなく、人手による変更も必要 3
大規模日本語文法の作成手順 1. 構文構造付きコーパスから文法を抽出 2. 構文解析結果を増大させる要因を分析 3. 結果をもとにコーパスの変更方針を作成 4. 変更した後、新しい文法を再抽出 5.
2~4を繰り返す 4
使用したコーパス • EDRコーパス中の文(約2万文)に対し、人手で構文 構造を付与 • 異なる点 1. 基本構造 2. 単語区切りと品詞体系
3. 構文構造 5
EDRコーパスと異なる点 1. 基本構造(以下の3つの層に分かれている) 1. 形態素と終端記号(品詞)を対応付ける層 2. 終端記号をやや粗い品詞分類に変換する層 3. 実際の構文構造を示す層 2.
単語区切りと品詞体系 – EDRコーパスでは品詞が15種類しかないため、EDR日本 語単語辞書を用いて細分化した品詞を追加 6
3. 構文構造 – 各中間ノードに非終端記号を付与する。 – ただし、一つの中間ノードに複数の非終端記号を縦に続 けて割り当てる場合もある。 7
曖昧性増大の要因 1. ラベル付けの誤り 2. 構文構造の不一致 3. 構文情報の欠落 4. 意味情報の必要性 –
1, 2はコーパスの誤りであり、要訂正 – 3は必要な構文情報を考察し、非終端記号に追加する。 – 4は曖昧性を包含した単一の構文構造を付与し、文法を 再抽出する。 8
文法・コーパスの変更方針 • 要因3については文法とコーパスを変更しながら曖 昧性を抑える。 • 要因4については出力される構文解析木の数を抑え ることは、その後の意味解析を困難にすることもあ り得る。 – どれを単一の構文構造で表現するか詳細に検討
9
• 使用したコーパスの不備・欠点 1. 用言の活用系に関する情報の欠落 2. 複合名詞内の構造の曖昧性 3. 連用/連体 修飾句の係り先の曖昧性 4.
並列構造の曖昧性 • これらを解消するように方針を定める – ラベルの追加 – 構造の一定化 など 10
文法・コーパスの構文構造の変更 • 以下の2点について評価を行った。 1. 構文解析結果の曖昧性がどの程度抑えられているか 2. どの程度の構文解析結果が得られるか • 8911文に対し、以下の手順で構文構造を変更 1.
変更方針に従って文法を人手で変更 2. MSLRパーザでコーパス中の文を構文解析し、解析結果 の集合を獲得 3. コーパス作成支援ツールで、集合を絞込み、最終的に 一つの正しい構文構成を選択 11
構文解析結果の曖昧性の変化 • 変更前、変更後のコーパス全8911文から文法を抽 出し、MSLRパーザで解析 • 結果、文法規則数は約250個増加しているが、解析 結果の数は O 1012 から
O 105 に減少した。 12
構文解析精度の変化 • 8911文を10分割し、一つを評価用、残りをPGLRモデ ルの学習用とし、10分割交差検定で評価を行う。 – 文法は全文から抽出したもの( )と、学習用データの みから抽出したもの( )の2通り •
PGLRモデルによる生成確率の上位100位以内の解 析結果について、変更後の方が8~10%高い。 13 変更前 [%] 変更後 [%] 88.45 98.62 86.23 94.66
PGLRモデルによる解析結果を利用した 係り受け解析 • 係り受け関係は以下の手順で高分木から抽出 1. 文節区切りを決定する 2. 構文構造を基に、各文節について、係り先となる文節を 決定する •
評価について – 変更後の8912文で評価を行う。 – 評価用として100文をランダムに選択、残りを学習用 14
実験結果 • PGLRモデルにより構文解析を行い、構文木から係り 受け構造を抽出する。 • 以下の3つの尺度で評価 1. 係り受けA型:全ての係り受け関係の正解率 2. 係り受けB型:文末2文節以外の係り受け関係の正解率
3. 文正解率:文全体の文節の係り受け関係の正解率 15