Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20150708 文献紹介
Search
Yuta
July 08, 2015
Education
0
160
20150708 文献紹介
Yuta
July 08, 2015
Tweet
Share
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
170
NLP2016 報告
sudo
0
190
NLP2016 発表スライド
sudo
0
220
20160218 文献紹介
sudo
0
260
20150909 発表資料
sudo
0
140
20150820 文献紹介
sudo
0
190
20150610 文献紹介
sudo
0
190
20150512 文献紹介
sudo
0
180
20150415 文献紹介
sudo
1
230
Other Decks in Education
See All in Education
HTML5 and the Open Web Platform - Lecture 3 - Web Technologies (1019888BNR)
signer
PRO
2
3k
~キャラ付け考えていますか?~ AI時代だからこそ技術者に求められるセルフブランディングのすゝめ
masakiokuda
7
500
2025年度春学期 統計学 第13回 不確かな測定の不確かさを測る ー 不偏分散とt分布 (2025. 7. 3)
akiraasano
PRO
0
140
Web Architectures - Lecture 2 - Web Technologies (1019888BNR)
signer
PRO
0
3.2k
the difficulty into words
ukky86
0
140
Online Privacy
takahitosakamoto
1
120
Transición del Management al Neuromanagement
jvpcubias
0
240
ハッカソンを活用したモノづくり教育について
yusk1450
PRO
2
110
シリコンバレーでスタートアップを共同創業したファウンディングエンジニアとしての学び
tomoima525
1
1.3k
GOVERNOR ADDRESS:2025年9月29日合同公式訪問例会:2720 Japan O.K. ロータリーEクラブ、2025年10月6日卓話:藤田 千克由 氏(国際ロータリー第2720地区 2025-2026年度 ガバナー・大分中央ロータリークラブ・大分トキハタクシー(株)顧問)
2720japanoke
0
620
あなたの言葉に力を与える、演繹的なアプローチ
logica0419
1
190
Adobe Express
matleenalaakso
1
8k
Featured
See All Featured
Code Review Best Practice
trishagee
72
19k
Embracing the Ebb and Flow
colly
88
4.9k
Agile that works and the tools we love
rasmusluckow
331
21k
The Pragmatic Product Professional
lauravandoore
36
6.9k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
35
6.1k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
How to train your dragon (web standard)
notwaldorf
97
6.3k
Site-Speed That Sticks
csswizardry
12
900
Scaling GitHub
holman
463
140k
Building Applications with DynamoDB
mza
96
6.7k
The Art of Programming - Codeland 2020
erikaheidi
56
14k
How to Think Like a Performance Engineer
csswizardry
27
2k
Transcript
文献紹介 大規模日本語文法の開発 野呂 智哉, 橋本 泰一, 徳永 健伸, 田中 穂積
自然言語処理 Vol.12 (2005) No.1 P3-32 自然言語処理研究室 B4 須戸悠太 1
概要 • 構文解析において、大規模な文法は必要 – 人手での開発は困難。(網羅性に欠ける) – コーパスから文法を抽出すると曖昧性が増大することが 避けられない。 • 曖昧性を極力抑えた文法開発の方針の提案
– 解析木の数のオーダーを1012から105まで減少 – 約90%の係り受け精度 2
問題点 • 日本語では、Penn Treebankのような大規模な構文 構造付きコーパスが存在しない • 構文構造付きコーパスから抽出した大規模な文法 で解析→膨大な数の結果が出力 • 曖昧性の削減には要因を分析し、文法規則を変化
させる必要がある – 機械的な変更だけでなく、人手による変更も必要 3
大規模日本語文法の作成手順 1. 構文構造付きコーパスから文法を抽出 2. 構文解析結果を増大させる要因を分析 3. 結果をもとにコーパスの変更方針を作成 4. 変更した後、新しい文法を再抽出 5.
2~4を繰り返す 4
使用したコーパス • EDRコーパス中の文(約2万文)に対し、人手で構文 構造を付与 • 異なる点 1. 基本構造 2. 単語区切りと品詞体系
3. 構文構造 5
EDRコーパスと異なる点 1. 基本構造(以下の3つの層に分かれている) 1. 形態素と終端記号(品詞)を対応付ける層 2. 終端記号をやや粗い品詞分類に変換する層 3. 実際の構文構造を示す層 2.
単語区切りと品詞体系 – EDRコーパスでは品詞が15種類しかないため、EDR日本 語単語辞書を用いて細分化した品詞を追加 6
3. 構文構造 – 各中間ノードに非終端記号を付与する。 – ただし、一つの中間ノードに複数の非終端記号を縦に続 けて割り当てる場合もある。 7
曖昧性増大の要因 1. ラベル付けの誤り 2. 構文構造の不一致 3. 構文情報の欠落 4. 意味情報の必要性 –
1, 2はコーパスの誤りであり、要訂正 – 3は必要な構文情報を考察し、非終端記号に追加する。 – 4は曖昧性を包含した単一の構文構造を付与し、文法を 再抽出する。 8
文法・コーパスの変更方針 • 要因3については文法とコーパスを変更しながら曖 昧性を抑える。 • 要因4については出力される構文解析木の数を抑え ることは、その後の意味解析を困難にすることもあ り得る。 – どれを単一の構文構造で表現するか詳細に検討
9
• 使用したコーパスの不備・欠点 1. 用言の活用系に関する情報の欠落 2. 複合名詞内の構造の曖昧性 3. 連用/連体 修飾句の係り先の曖昧性 4.
並列構造の曖昧性 • これらを解消するように方針を定める – ラベルの追加 – 構造の一定化 など 10
文法・コーパスの構文構造の変更 • 以下の2点について評価を行った。 1. 構文解析結果の曖昧性がどの程度抑えられているか 2. どの程度の構文解析結果が得られるか • 8911文に対し、以下の手順で構文構造を変更 1.
変更方針に従って文法を人手で変更 2. MSLRパーザでコーパス中の文を構文解析し、解析結果 の集合を獲得 3. コーパス作成支援ツールで、集合を絞込み、最終的に 一つの正しい構文構成を選択 11
構文解析結果の曖昧性の変化 • 変更前、変更後のコーパス全8911文から文法を抽 出し、MSLRパーザで解析 • 結果、文法規則数は約250個増加しているが、解析 結果の数は O 1012 から
O 105 に減少した。 12
構文解析精度の変化 • 8911文を10分割し、一つを評価用、残りをPGLRモデ ルの学習用とし、10分割交差検定で評価を行う。 – 文法は全文から抽出したもの( )と、学習用データの みから抽出したもの( )の2通り •
PGLRモデルによる生成確率の上位100位以内の解 析結果について、変更後の方が8~10%高い。 13 変更前 [%] 変更後 [%] 88.45 98.62 86.23 94.66
PGLRモデルによる解析結果を利用した 係り受け解析 • 係り受け関係は以下の手順で高分木から抽出 1. 文節区切りを決定する 2. 構文構造を基に、各文節について、係り先となる文節を 決定する •
評価について – 変更後の8912文で評価を行う。 – 評価用として100文をランダムに選択、残りを学習用 14
実験結果 • PGLRモデルにより構文解析を行い、構文木から係り 受け構造を抽出する。 • 以下の3つの尺度で評価 1. 係り受けA型:全ての係り受け関係の正解率 2. 係り受けB型:文末2文節以外の係り受け関係の正解率
3. 文正解率:文全体の文節の係り受け関係の正解率 15