Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介2015年5月
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
miyanishi
April 30, 2015
270
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
文献紹介2015年5月
miyanishi
April 30, 2015
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
91
文献紹介1月
miyanishi
0
200
文献紹介12月
miyanishi
0
260
文献紹介11月
miyanishi
0
260
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
230
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
270
Featured
See All Featured
GraphQLとの向き合い方2022年版
quramy
50
15k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.8k
Discover your Explorer Soul
emna__ayadi
2
1.1k
YesSQL, Process and Tooling at Scale
rocio
174
15k
How to Ace a Technical Interview
jacobian
281
24k
Statistics for Hackers
jakevdp
799
230k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Side Projects
sachag
455
43k
The Cost Of JavaScript in 2023
addyosmani
55
10k
BBQ
matthewcrist
89
10k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
390
Transcript
文献紹介 2015年5月 自然言語処理研究室 修士2年 宮西 由貴
文献情報 タイトル: The Penn Parsed Corpus of Modern British
English: First Parsing Result and Analysis 著者: Seth Kulick et. al. ACL short Papers 2014, Pages 662-667
概要 Penn Parsed Corpus of Modern British English(PPCMBE)を利用
Penn Tree Bank(PTB)と比較 PPCMBEを改良 実験でその成果を提示 今回は構文解析に着目して改良 PTBに寄せることで精度向上(PTBと同等)
Penn Parsed Corpus of Modern British English(PPCMBE) 100万語を超えるツリーバンク (今回は101ファイル中94ファイル使用)
英語の構文の変化を研究するための資源 歴史的調査用のツリーバンクの中では 最も現代的(1700-1914年) Penn Tree Bank(PTB)内のWSJくらいの規模
PPCMBEとPTB PPCMBEとPTBにはタグが付与されている 品詞タグ 文法タグ 良く似ているが違う部分もある
違いを調査している論文が1つしかない
今回目指すこと PPCMBEとPTBのアノテーションを比較 アノテーションをPTBに寄せて実験 構文解析を行っての比較 エラー分析
構文解析器の問題
PPCMBEとPTBの比較 (品詞タグの数) PPCMBE:248種類(全時代に対応するため) PTB:45種類 PPCMBEは複合タグ(Complex)が多い (例)gentlemen
-> ADJ+NS(形容詞+複数形名詞) 特殊なタグが多い 表1 PPCMBEに付与されているタグの種類数と割合
PPCMBEとPTBの比較 (対等関係の記述) ANDやORなどが文に入った場合 PPCMBE:AND(OR)以降をCONJPとしてまとめる ¥¥ PTB:PPCMBEに比べて平らな木になる
PPCMBEとPTBの比較 (名詞句の構造:PP) PPの場合はどちらも補足と修飾を区別しない PPCMBE:補足(修飾)部が名詞部の弟となる PTB:補足部と名詞部が隣接する
PPCMBEとPTBの比較 (名詞句の構造:CP) PPCMBE:修飾と補足を区別する PTB:修飾節は隣接,補足節は隣接しない
PPCMBEとPTBの比較 (節構造) PPCMBE:VPのレベルがない(平らな木になる) PTB:VPのレベルがある
コーパスの変換 Reduce Reduce+NPs Reduce+NPs+VPs
コーパスの変換 Reduce 複合タグを単一タグへ変換 (例)gentleman:ADJ+N -> N タグ数:
248個 -> 71個 Reduce+NPs Reduce+NPs+VPs
コーパスの変換 Reduce Reduce+NPs PTBのように名詞部と修飾(補足)部は隣接させる Reduce+NPs+VPs
コーパスの変換 Reduce Reduce+NPs Reduce+NPs+VPs IP以下の時にVPレベルを追加する
PPCMBEデータの切り分け 以下の様にデータを分割 基本的に年代で分割 文長が40語以下が8割以上(PTBは9割以上)
実験設定 構文解析器:Berkeley parser スコアリング:evalb program Train &
Val section: fine-tuning parameters POS tagging: 正解タグを使用(Gold Tags) Berkeley parserを使用(Parser Tags)
実験結果(Gold Tags) Rl :そのまま Rd:Reduce RdNPs:Reduce+NPs RdNPsVPs:Reduce+NPs+VPs
実験結果(Parser Tags) Rl :そのまま Rd:Reduce RdNPs:Reduce+NPs RdNPsVPs:Reduce+NPs+VPs
標準的な格構造に違反する出力 (a)正解 (b)出力 RRC関係ができない 非文法的構造を作る
概要 Penn Parsed Corpus of Modern British English(PPCMBE)を利用
Penn Tree Bank(PTB)と比較 PPCMBEを改良 実験でその成果を提示 今回は構文解析に着目して改良 PTBに寄せることで精度向上(PTBと同等)