Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介8月分
Search
miyanishi
September 02, 2014
0
350
文献紹介8月分
miyanishi
September 02, 2014
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
85
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
240
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
44
7.9k
KATA
mclloyd
PRO
32
15k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.5k
Code Reviewing Like a Champion
maltzj
526
40k
Faster Mobile Websites
deanohume
310
31k
Keith and Marios Guide to Fast Websites
keithpitt
412
23k
Rails Girls Zürich Keynote
gr2m
95
14k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
The Cult of Friendly URLs
andyhume
79
6.6k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Large-scale JavaScript Application Architecture
addyosmani
514
110k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
36
6.1k
Transcript
文献紹介ゼミ 山本研究室 修士1年 宮西 由貴
論文情報 • Part-of-Speech Tagging using Conditional Random Fields: Exploiting Sub-Label
Dependencies for Improved Accuracy • Miikka Silfverberg et al. • Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Short Papers), pages 259–264,Baltimore, Maryland, USA, June 23-25 2014.
概要 • 様々な言語での形態素解析 – 品詞付与のみ:CRFを使用することが多い • コーパスの品詞情報を使って精度向上! – 品詞タグをよりきめ細かくする •
多言語での実験 – 英語以外の言語で精度が向上した
既存の形態素解析 • 品詞付与のみのもの – CRFを使用 – トレーニングデータではツリーバンクを使用 • トレーニング時の品詞の扱い –
付いたタグをそのまま使用 – もっと大切な情報があるのでは・・・? PRON+1SG V+NON3SG+PRES N+SG I like him
提案手法 • 品詞の扱い方について – サブラベルを使用 – Ex. PRON+1SGのサブラベルはPRONと1SG • 実験について
– 様々な品詞を扱いを比較 – 5つの言語に適応させて比較
Conditional Random Field • xは文そのもの(x1・・・x|x|は形態素) • yは品詞タグの集合 • wはパラメータベクトル •
φは素性抽出の関数
ベースライン • Yは実際にタグ付けされた品詞集合 • はifと同義(1or0が返る)
ベースライン • Xは関数の集合 – 文が大文字,ハイフン,ダッシュ,数字を 含んでいるか? など – バイナリ関数なので答えは1か0 •
(2)に,変遷要素を加えると・・・
ベースラインを拡張 • s∈Sはサブラベル • P(yi)はyiラベルをサブラベルに区切ったもの • (2)ラベルそのまま比較/(5)サブラベルを比較 • 変遷要素を加えると・・・
実験での扱いと表記 • 3種類のパターンを用意 – (2)と(4)のみ使用・・・CRF(n,-) ※ベースライン – (2),(4)に加えて(5)使用・・・CRF(n,0) – (2),(4),(5),(6)を使用・・・CRF(n,m)
• nは1と2を用意 – n:CRFの次数
実験 • 使用した言語資源 – Penn Treebank・・・英語 – Turku Depedency Treebank・・・フィンランド語
– Multext-East・・・チェコ・ルーマニア・エストニア語 • 使用言語 – 5種類の言語で実験 – 英語・フィンランド・チェコ・ルーマニア・エストニア
結果 • 英語 • ルーマニア語
結果 • エストニア語 • チェコ語
結果 • フィンランド語
実験結果について • 英語のみ提案手法の方が精度が下がった – 他の言語において精度向上が見られた • CRF(1,m)の方がCRF(2,-)の結果より良い – 英語は除く –
次数が低くてもサブラベルを使えば勝てる • 提案手法の方が処理時間が増えた – 待てないほど大きく増えたわけではない
まとめ • サブラベルの情報を用いてタグ付け – そのままのタグの情報+サブラベル情報 • 実験では・・・ – 5つの言語を比較 –
3パターンの品詞の扱いを比較 – CRFの次数は1か2で比較 • 結果として・・・ – サブラベル情報の有用性を示す