Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介8月分
Search
miyanishi
September 02, 2014
0
350
文献紹介8月分
miyanishi
September 02, 2014
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
76
文献紹介1月
miyanishi
0
160
文献紹介12月
miyanishi
0
210
文献紹介11月
miyanishi
0
240
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
230
15年7月文献紹介
miyanishi
0
250
Featured
See All Featured
Adopting Sorbet at Scale
ufuk
69
8.6k
Rebuilding a faster, lazier Slack
samanthasiow
74
8.3k
Clear Off the Table
cherdarchuk
86
310k
The Invisible Side of Design
smashingmag
294
49k
Optimizing for Happiness
mojombo
370
69k
Web development in the modern age
philhawksworth
203
10k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
323
20k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
188
16k
How to name files
jennybc
65
94k
Pencils Down: Stop Designing & Start Developing
hursman
117
11k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
14
1.5k
GraphQLとの向き合い方2022年版
quramy
33
13k
Transcript
文献紹介ゼミ 山本研究室 修士1年 宮西 由貴
論文情報 • Part-of-Speech Tagging using Conditional Random Fields: Exploiting Sub-Label
Dependencies for Improved Accuracy • Miikka Silfverberg et al. • Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Short Papers), pages 259–264,Baltimore, Maryland, USA, June 23-25 2014.
概要 • 様々な言語での形態素解析 – 品詞付与のみ:CRFを使用することが多い • コーパスの品詞情報を使って精度向上! – 品詞タグをよりきめ細かくする •
多言語での実験 – 英語以外の言語で精度が向上した
既存の形態素解析 • 品詞付与のみのもの – CRFを使用 – トレーニングデータではツリーバンクを使用 • トレーニング時の品詞の扱い –
付いたタグをそのまま使用 – もっと大切な情報があるのでは・・・? PRON+1SG V+NON3SG+PRES N+SG I like him
提案手法 • 品詞の扱い方について – サブラベルを使用 – Ex. PRON+1SGのサブラベルはPRONと1SG • 実験について
– 様々な品詞を扱いを比較 – 5つの言語に適応させて比較
Conditional Random Field • xは文そのもの(x1・・・x|x|は形態素) • yは品詞タグの集合 • wはパラメータベクトル •
φは素性抽出の関数
ベースライン • Yは実際にタグ付けされた品詞集合 • はifと同義(1or0が返る)
ベースライン • Xは関数の集合 – 文が大文字,ハイフン,ダッシュ,数字を 含んでいるか? など – バイナリ関数なので答えは1か0 •
(2)に,変遷要素を加えると・・・
ベースラインを拡張 • s∈Sはサブラベル • P(yi)はyiラベルをサブラベルに区切ったもの • (2)ラベルそのまま比較/(5)サブラベルを比較 • 変遷要素を加えると・・・
実験での扱いと表記 • 3種類のパターンを用意 – (2)と(4)のみ使用・・・CRF(n,-) ※ベースライン – (2),(4)に加えて(5)使用・・・CRF(n,0) – (2),(4),(5),(6)を使用・・・CRF(n,m)
• nは1と2を用意 – n:CRFの次数
実験 • 使用した言語資源 – Penn Treebank・・・英語 – Turku Depedency Treebank・・・フィンランド語
– Multext-East・・・チェコ・ルーマニア・エストニア語 • 使用言語 – 5種類の言語で実験 – 英語・フィンランド・チェコ・ルーマニア・エストニア
結果 • 英語 • ルーマニア語
結果 • エストニア語 • チェコ語
結果 • フィンランド語
実験結果について • 英語のみ提案手法の方が精度が下がった – 他の言語において精度向上が見られた • CRF(1,m)の方がCRF(2,-)の結果より良い – 英語は除く –
次数が低くてもサブラベルを使えば勝てる • 提案手法の方が処理時間が増えた – 待てないほど大きく増えたわけではない
まとめ • サブラベルの情報を用いてタグ付け – そのままのタグの情報+サブラベル情報 • 実験では・・・ – 5つの言語を比較 –
3パターンの品詞の扱いを比較 – CRFの次数は1か2で比較 • 結果として・・・ – サブラベル情報の有用性を示す