Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介2015年5月
Search
miyanishi
April 30, 2015
0
270
文献紹介2015年5月
miyanishi
April 30, 2015
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
86
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
200
Discover your Explorer Soul
emna__ayadi
2
1k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
0
110
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
180
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
BBQ
matthewcrist
89
9.9k
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
130
Marketing to machines
jonoalderson
1
4.5k
Utilizing Notion as your number one productivity tool
mfonobong
2
190
Fireside Chat
paigeccino
41
3.8k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
54k
The Pragmatic Product Professional
lauravandoore
37
7.1k
Transcript
文献紹介 2015年5月 自然言語処理研究室 修士2年 宮西 由貴
文献情報 タイトル: The Penn Parsed Corpus of Modern British
English: First Parsing Result and Analysis 著者: Seth Kulick et. al. ACL short Papers 2014, Pages 662-667
概要 Penn Parsed Corpus of Modern British English(PPCMBE)を利用
Penn Tree Bank(PTB)と比較 PPCMBEを改良 実験でその成果を提示 今回は構文解析に着目して改良 PTBに寄せることで精度向上(PTBと同等)
Penn Parsed Corpus of Modern British English(PPCMBE) 100万語を超えるツリーバンク (今回は101ファイル中94ファイル使用)
英語の構文の変化を研究するための資源 歴史的調査用のツリーバンクの中では 最も現代的(1700-1914年) Penn Tree Bank(PTB)内のWSJくらいの規模
PPCMBEとPTB PPCMBEとPTBにはタグが付与されている 品詞タグ 文法タグ 良く似ているが違う部分もある
違いを調査している論文が1つしかない
今回目指すこと PPCMBEとPTBのアノテーションを比較 アノテーションをPTBに寄せて実験 構文解析を行っての比較 エラー分析
構文解析器の問題
PPCMBEとPTBの比較 (品詞タグの数) PPCMBE:248種類(全時代に対応するため) PTB:45種類 PPCMBEは複合タグ(Complex)が多い (例)gentlemen
-> ADJ+NS(形容詞+複数形名詞) 特殊なタグが多い 表1 PPCMBEに付与されているタグの種類数と割合
PPCMBEとPTBの比較 (対等関係の記述) ANDやORなどが文に入った場合 PPCMBE:AND(OR)以降をCONJPとしてまとめる ¥¥ PTB:PPCMBEに比べて平らな木になる
PPCMBEとPTBの比較 (名詞句の構造:PP) PPの場合はどちらも補足と修飾を区別しない PPCMBE:補足(修飾)部が名詞部の弟となる PTB:補足部と名詞部が隣接する
PPCMBEとPTBの比較 (名詞句の構造:CP) PPCMBE:修飾と補足を区別する PTB:修飾節は隣接,補足節は隣接しない
PPCMBEとPTBの比較 (節構造) PPCMBE:VPのレベルがない(平らな木になる) PTB:VPのレベルがある
コーパスの変換 Reduce Reduce+NPs Reduce+NPs+VPs
コーパスの変換 Reduce 複合タグを単一タグへ変換 (例)gentleman:ADJ+N -> N タグ数:
248個 -> 71個 Reduce+NPs Reduce+NPs+VPs
コーパスの変換 Reduce Reduce+NPs PTBのように名詞部と修飾(補足)部は隣接させる Reduce+NPs+VPs
コーパスの変換 Reduce Reduce+NPs Reduce+NPs+VPs IP以下の時にVPレベルを追加する
PPCMBEデータの切り分け 以下の様にデータを分割 基本的に年代で分割 文長が40語以下が8割以上(PTBは9割以上)
実験設定 構文解析器:Berkeley parser スコアリング:evalb program Train &
Val section: fine-tuning parameters POS tagging: 正解タグを使用(Gold Tags) Berkeley parserを使用(Parser Tags)
実験結果(Gold Tags) Rl :そのまま Rd:Reduce RdNPs:Reduce+NPs RdNPsVPs:Reduce+NPs+VPs
実験結果(Parser Tags) Rl :そのまま Rd:Reduce RdNPs:Reduce+NPs RdNPsVPs:Reduce+NPs+VPs
標準的な格構造に違反する出力 (a)正解 (b)出力 RRC関係ができない 非文法的構造を作る
概要 Penn Parsed Corpus of Modern British English(PPCMBE)を利用
Penn Tree Bank(PTB)と比較 PPCMBEを改良 実験でその成果を提示 今回は構文解析に着目して改良 PTBに寄せることで精度向上(PTBと同等)