Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20150708 文献紹介
Search
Yuta
July 08, 2015
Education
0
160
20150708 文献紹介
Yuta
July 08, 2015
Tweet
Share
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
170
NLP2016 報告
sudo
0
190
NLP2016 発表スライド
sudo
0
220
20160218 文献紹介
sudo
0
260
20150909 発表資料
sudo
0
140
20150820 文献紹介
sudo
0
190
20150610 文献紹介
sudo
0
190
20150512 文献紹介
sudo
0
180
20150415 文献紹介
sudo
1
230
Other Decks in Education
See All in Education
America and the World
oripsolob
0
510
第1回大学院理工学系説明会|東京科学大学(Science Tokyo)
sciencetokyo
PRO
0
3.9k
アントレプレナーシップ教育 ~ 自分で自分の幸せを決めるために ~
yoshizaki
0
120
OpenSourceSummitJapanを運営してみた話
kujiraitakahiro
0
720
CHARMS-HP-Banner
weltraumreisende
0
230
バックオフィス組織にも「チームトポロジー」の考えが使えるかもしれない!!
masakiokuda
0
110
人になにかを教えるときに考えていること(2025-05版 / VRC-LT #18)
sksat
4
1k
OpenRobomaster 中国のロボットコンテスト 日本連携の可能性
takasumasakazu
0
450
プレゼンテーション実践
takenawa
0
6.6k
Case Studies and Course Review - Lecture 12 - Information Visualisation (4019538FNR)
signer
PRO
1
2k
2025年度春学期 統計学 第5回 分布をまとめるー記述統計量(平均・分散など) (2025. 5. 8)
akiraasano
PRO
0
120
ビジネスモデル理解
takenawa
0
6.6k
Featured
See All Featured
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
The Invisible Side of Design
smashingmag
301
51k
Designing for Performance
lara
610
69k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
138
34k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
22k
Music & Morning Musume
bryan
46
6.6k
Site-Speed That Sticks
csswizardry
10
690
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
960
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
820
Making Projects Easy
brettharned
116
6.3k
Java REST API Framework Comparison - PWX 2021
mraible
31
8.7k
Scaling GitHub
holman
460
140k
Transcript
文献紹介 大規模日本語文法の開発 野呂 智哉, 橋本 泰一, 徳永 健伸, 田中 穂積
自然言語処理 Vol.12 (2005) No.1 P3-32 自然言語処理研究室 B4 須戸悠太 1
概要 • 構文解析において、大規模な文法は必要 – 人手での開発は困難。(網羅性に欠ける) – コーパスから文法を抽出すると曖昧性が増大することが 避けられない。 • 曖昧性を極力抑えた文法開発の方針の提案
– 解析木の数のオーダーを1012から105まで減少 – 約90%の係り受け精度 2
問題点 • 日本語では、Penn Treebankのような大規模な構文 構造付きコーパスが存在しない • 構文構造付きコーパスから抽出した大規模な文法 で解析→膨大な数の結果が出力 • 曖昧性の削減には要因を分析し、文法規則を変化
させる必要がある – 機械的な変更だけでなく、人手による変更も必要 3
大規模日本語文法の作成手順 1. 構文構造付きコーパスから文法を抽出 2. 構文解析結果を増大させる要因を分析 3. 結果をもとにコーパスの変更方針を作成 4. 変更した後、新しい文法を再抽出 5.
2~4を繰り返す 4
使用したコーパス • EDRコーパス中の文(約2万文)に対し、人手で構文 構造を付与 • 異なる点 1. 基本構造 2. 単語区切りと品詞体系
3. 構文構造 5
EDRコーパスと異なる点 1. 基本構造(以下の3つの層に分かれている) 1. 形態素と終端記号(品詞)を対応付ける層 2. 終端記号をやや粗い品詞分類に変換する層 3. 実際の構文構造を示す層 2.
単語区切りと品詞体系 – EDRコーパスでは品詞が15種類しかないため、EDR日本 語単語辞書を用いて細分化した品詞を追加 6
3. 構文構造 – 各中間ノードに非終端記号を付与する。 – ただし、一つの中間ノードに複数の非終端記号を縦に続 けて割り当てる場合もある。 7
曖昧性増大の要因 1. ラベル付けの誤り 2. 構文構造の不一致 3. 構文情報の欠落 4. 意味情報の必要性 –
1, 2はコーパスの誤りであり、要訂正 – 3は必要な構文情報を考察し、非終端記号に追加する。 – 4は曖昧性を包含した単一の構文構造を付与し、文法を 再抽出する。 8
文法・コーパスの変更方針 • 要因3については文法とコーパスを変更しながら曖 昧性を抑える。 • 要因4については出力される構文解析木の数を抑え ることは、その後の意味解析を困難にすることもあ り得る。 – どれを単一の構文構造で表現するか詳細に検討
9
• 使用したコーパスの不備・欠点 1. 用言の活用系に関する情報の欠落 2. 複合名詞内の構造の曖昧性 3. 連用/連体 修飾句の係り先の曖昧性 4.
並列構造の曖昧性 • これらを解消するように方針を定める – ラベルの追加 – 構造の一定化 など 10
文法・コーパスの構文構造の変更 • 以下の2点について評価を行った。 1. 構文解析結果の曖昧性がどの程度抑えられているか 2. どの程度の構文解析結果が得られるか • 8911文に対し、以下の手順で構文構造を変更 1.
変更方針に従って文法を人手で変更 2. MSLRパーザでコーパス中の文を構文解析し、解析結果 の集合を獲得 3. コーパス作成支援ツールで、集合を絞込み、最終的に 一つの正しい構文構成を選択 11
構文解析結果の曖昧性の変化 • 変更前、変更後のコーパス全8911文から文法を抽 出し、MSLRパーザで解析 • 結果、文法規則数は約250個増加しているが、解析 結果の数は O 1012 から
O 105 に減少した。 12
構文解析精度の変化 • 8911文を10分割し、一つを評価用、残りをPGLRモデ ルの学習用とし、10分割交差検定で評価を行う。 – 文法は全文から抽出したもの( )と、学習用データの みから抽出したもの( )の2通り •
PGLRモデルによる生成確率の上位100位以内の解 析結果について、変更後の方が8~10%高い。 13 変更前 [%] 変更後 [%] 88.45 98.62 86.23 94.66
PGLRモデルによる解析結果を利用した 係り受け解析 • 係り受け関係は以下の手順で高分木から抽出 1. 文節区切りを決定する 2. 構文構造を基に、各文節について、係り先となる文節を 決定する •
評価について – 変更後の8912文で評価を行う。 – 評価用として100文をランダムに選択、残りを学習用 14
実験結果 • PGLRモデルにより構文解析を行い、構文木から係り 受け構造を抽出する。 • 以下の3つの尺度で評価 1. 係り受けA型:全ての係り受け関係の正解率 2. 係り受けB型:文末2文節以外の係り受け関係の正解率
3. 文正解率:文全体の文節の係り受け関係の正解率 15