Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介2015年5月
Search
miyanishi
April 30, 2015
0
270
文献紹介2015年5月
miyanishi
April 30, 2015
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
86
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
The Limits of Empathy - UXLibs8
cassininazir
1
220
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
1
130
Design in an AI World
tapps
0
150
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
200
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Why Our Code Smells
bkeepers
PRO
340
58k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.4k
Embracing the Ebb and Flow
colly
88
5k
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
120
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
57
We Are The Robots
honzajavorek
0
170
Transcript
文献紹介 2015年5月 自然言語処理研究室 修士2年 宮西 由貴
文献情報 タイトル: The Penn Parsed Corpus of Modern British
English: First Parsing Result and Analysis 著者: Seth Kulick et. al. ACL short Papers 2014, Pages 662-667
概要 Penn Parsed Corpus of Modern British English(PPCMBE)を利用
Penn Tree Bank(PTB)と比較 PPCMBEを改良 実験でその成果を提示 今回は構文解析に着目して改良 PTBに寄せることで精度向上(PTBと同等)
Penn Parsed Corpus of Modern British English(PPCMBE) 100万語を超えるツリーバンク (今回は101ファイル中94ファイル使用)
英語の構文の変化を研究するための資源 歴史的調査用のツリーバンクの中では 最も現代的(1700-1914年) Penn Tree Bank(PTB)内のWSJくらいの規模
PPCMBEとPTB PPCMBEとPTBにはタグが付与されている 品詞タグ 文法タグ 良く似ているが違う部分もある
違いを調査している論文が1つしかない
今回目指すこと PPCMBEとPTBのアノテーションを比較 アノテーションをPTBに寄せて実験 構文解析を行っての比較 エラー分析
構文解析器の問題
PPCMBEとPTBの比較 (品詞タグの数) PPCMBE:248種類(全時代に対応するため) PTB:45種類 PPCMBEは複合タグ(Complex)が多い (例)gentlemen
-> ADJ+NS(形容詞+複数形名詞) 特殊なタグが多い 表1 PPCMBEに付与されているタグの種類数と割合
PPCMBEとPTBの比較 (対等関係の記述) ANDやORなどが文に入った場合 PPCMBE:AND(OR)以降をCONJPとしてまとめる ¥¥ PTB:PPCMBEに比べて平らな木になる
PPCMBEとPTBの比較 (名詞句の構造:PP) PPの場合はどちらも補足と修飾を区別しない PPCMBE:補足(修飾)部が名詞部の弟となる PTB:補足部と名詞部が隣接する
PPCMBEとPTBの比較 (名詞句の構造:CP) PPCMBE:修飾と補足を区別する PTB:修飾節は隣接,補足節は隣接しない
PPCMBEとPTBの比較 (節構造) PPCMBE:VPのレベルがない(平らな木になる) PTB:VPのレベルがある
コーパスの変換 Reduce Reduce+NPs Reduce+NPs+VPs
コーパスの変換 Reduce 複合タグを単一タグへ変換 (例)gentleman:ADJ+N -> N タグ数:
248個 -> 71個 Reduce+NPs Reduce+NPs+VPs
コーパスの変換 Reduce Reduce+NPs PTBのように名詞部と修飾(補足)部は隣接させる Reduce+NPs+VPs
コーパスの変換 Reduce Reduce+NPs Reduce+NPs+VPs IP以下の時にVPレベルを追加する
PPCMBEデータの切り分け 以下の様にデータを分割 基本的に年代で分割 文長が40語以下が8割以上(PTBは9割以上)
実験設定 構文解析器:Berkeley parser スコアリング:evalb program Train &
Val section: fine-tuning parameters POS tagging: 正解タグを使用(Gold Tags) Berkeley parserを使用(Parser Tags)
実験結果(Gold Tags) Rl :そのまま Rd:Reduce RdNPs:Reduce+NPs RdNPsVPs:Reduce+NPs+VPs
実験結果(Parser Tags) Rl :そのまま Rd:Reduce RdNPs:Reduce+NPs RdNPsVPs:Reduce+NPs+VPs
標準的な格構造に違反する出力 (a)正解 (b)出力 RRC関係ができない 非文法的構造を作る
概要 Penn Parsed Corpus of Modern British English(PPCMBE)を利用
Penn Tree Bank(PTB)と比較 PPCMBEを改良 実験でその成果を提示 今回は構文解析に着目して改良 PTBに寄せることで精度向上(PTBと同等)