Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介2015年5月
Search
miyanishi
April 30, 2015
0
260
文献紹介2015年5月
miyanishi
April 30, 2015
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
76
文献紹介1月
miyanishi
0
160
文献紹介12月
miyanishi
0
210
文献紹介11月
miyanishi
0
240
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
230
15年7月文献紹介
miyanishi
0
250
Featured
See All Featured
Facilitating Awesome Meetings
lara
43
5.6k
We Have a Design System, Now What?
morganepeng
43
6.8k
GraphQLとの向き合い方2022年版
quramy
33
12k
Typedesign – Prime Four
hannesfritz
36
2.1k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
358
22k
Design by the Numbers
sachag
274
18k
Fireside Chat
paigeccino
22
2.6k
The Pragmatic Product Professional
lauravandoore
26
5.8k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
126
32k
StorybookのUI Testing Handbookを読んだ
zakiyama
13
4.6k
Building a Scalable Design System with Sketch
lauravandoore
457
32k
Designing Experiences People Love
moore
136
23k
Transcript
文献紹介 2015年5月 自然言語処理研究室 修士2年 宮西 由貴
文献情報 タイトル: The Penn Parsed Corpus of Modern British
English: First Parsing Result and Analysis 著者: Seth Kulick et. al. ACL short Papers 2014, Pages 662-667
概要 Penn Parsed Corpus of Modern British English(PPCMBE)を利用
Penn Tree Bank(PTB)と比較 PPCMBEを改良 実験でその成果を提示 今回は構文解析に着目して改良 PTBに寄せることで精度向上(PTBと同等)
Penn Parsed Corpus of Modern British English(PPCMBE) 100万語を超えるツリーバンク (今回は101ファイル中94ファイル使用)
英語の構文の変化を研究するための資源 歴史的調査用のツリーバンクの中では 最も現代的(1700-1914年) Penn Tree Bank(PTB)内のWSJくらいの規模
PPCMBEとPTB PPCMBEとPTBにはタグが付与されている 品詞タグ 文法タグ 良く似ているが違う部分もある
違いを調査している論文が1つしかない
今回目指すこと PPCMBEとPTBのアノテーションを比較 アノテーションをPTBに寄せて実験 構文解析を行っての比較 エラー分析
構文解析器の問題
PPCMBEとPTBの比較 (品詞タグの数) PPCMBE:248種類(全時代に対応するため) PTB:45種類 PPCMBEは複合タグ(Complex)が多い (例)gentlemen
-> ADJ+NS(形容詞+複数形名詞) 特殊なタグが多い 表1 PPCMBEに付与されているタグの種類数と割合
PPCMBEとPTBの比較 (対等関係の記述) ANDやORなどが文に入った場合 PPCMBE:AND(OR)以降をCONJPとしてまとめる ¥¥ PTB:PPCMBEに比べて平らな木になる
PPCMBEとPTBの比較 (名詞句の構造:PP) PPの場合はどちらも補足と修飾を区別しない PPCMBE:補足(修飾)部が名詞部の弟となる PTB:補足部と名詞部が隣接する
PPCMBEとPTBの比較 (名詞句の構造:CP) PPCMBE:修飾と補足を区別する PTB:修飾節は隣接,補足節は隣接しない
PPCMBEとPTBの比較 (節構造) PPCMBE:VPのレベルがない(平らな木になる) PTB:VPのレベルがある
コーパスの変換 Reduce Reduce+NPs Reduce+NPs+VPs
コーパスの変換 Reduce 複合タグを単一タグへ変換 (例)gentleman:ADJ+N -> N タグ数:
248個 -> 71個 Reduce+NPs Reduce+NPs+VPs
コーパスの変換 Reduce Reduce+NPs PTBのように名詞部と修飾(補足)部は隣接させる Reduce+NPs+VPs
コーパスの変換 Reduce Reduce+NPs Reduce+NPs+VPs IP以下の時にVPレベルを追加する
PPCMBEデータの切り分け 以下の様にデータを分割 基本的に年代で分割 文長が40語以下が8割以上(PTBは9割以上)
実験設定 構文解析器:Berkeley parser スコアリング:evalb program Train &
Val section: fine-tuning parameters POS tagging: 正解タグを使用(Gold Tags) Berkeley parserを使用(Parser Tags)
実験結果(Gold Tags) Rl :そのまま Rd:Reduce RdNPs:Reduce+NPs RdNPsVPs:Reduce+NPs+VPs
実験結果(Parser Tags) Rl :そのまま Rd:Reduce RdNPs:Reduce+NPs RdNPsVPs:Reduce+NPs+VPs
標準的な格構造に違反する出力 (a)正解 (b)出力 RRC関係ができない 非文法的構造を作る
概要 Penn Parsed Corpus of Modern British English(PPCMBE)を利用
Penn Tree Bank(PTB)と比較 PPCMBEを改良 実験でその成果を提示 今回は構文解析に着目して改良 PTBに寄せることで精度向上(PTBと同等)