Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介8月分
Search
miyanishi
September 02, 2014
360
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
文献紹介8月分
miyanishi
September 02, 2014
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
91
文献紹介1月
miyanishi
0
200
文献紹介12月
miyanishi
0
260
文献紹介11月
miyanishi
0
260
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
230
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
270
Featured
See All Featured
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.7k
HDC tutorial
michielstock
2
700
Docker and Python
trallard
47
3.9k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Art, The Web, and Tiny UX
lynnandtonic
304
22k
Between Models and Reality
mayunak
4
330
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3.4k
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
250
Transcript
文献紹介ゼミ 山本研究室 修士1年 宮西 由貴
論文情報 • Part-of-Speech Tagging using Conditional Random Fields: Exploiting Sub-Label
Dependencies for Improved Accuracy • Miikka Silfverberg et al. • Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Short Papers), pages 259–264,Baltimore, Maryland, USA, June 23-25 2014.
概要 • 様々な言語での形態素解析 – 品詞付与のみ:CRFを使用することが多い • コーパスの品詞情報を使って精度向上! – 品詞タグをよりきめ細かくする •
多言語での実験 – 英語以外の言語で精度が向上した
既存の形態素解析 • 品詞付与のみのもの – CRFを使用 – トレーニングデータではツリーバンクを使用 • トレーニング時の品詞の扱い –
付いたタグをそのまま使用 – もっと大切な情報があるのでは・・・? PRON+1SG V+NON3SG+PRES N+SG I like him
提案手法 • 品詞の扱い方について – サブラベルを使用 – Ex. PRON+1SGのサブラベルはPRONと1SG • 実験について
– 様々な品詞を扱いを比較 – 5つの言語に適応させて比較
Conditional Random Field • xは文そのもの(x1・・・x|x|は形態素) • yは品詞タグの集合 • wはパラメータベクトル •
φは素性抽出の関数
ベースライン • Yは実際にタグ付けされた品詞集合 • はifと同義(1or0が返る)
ベースライン • Xは関数の集合 – 文が大文字,ハイフン,ダッシュ,数字を 含んでいるか? など – バイナリ関数なので答えは1か0 •
(2)に,変遷要素を加えると・・・
ベースラインを拡張 • s∈Sはサブラベル • P(yi)はyiラベルをサブラベルに区切ったもの • (2)ラベルそのまま比較/(5)サブラベルを比較 • 変遷要素を加えると・・・
実験での扱いと表記 • 3種類のパターンを用意 – (2)と(4)のみ使用・・・CRF(n,-) ※ベースライン – (2),(4)に加えて(5)使用・・・CRF(n,0) – (2),(4),(5),(6)を使用・・・CRF(n,m)
• nは1と2を用意 – n:CRFの次数
実験 • 使用した言語資源 – Penn Treebank・・・英語 – Turku Depedency Treebank・・・フィンランド語
– Multext-East・・・チェコ・ルーマニア・エストニア語 • 使用言語 – 5種類の言語で実験 – 英語・フィンランド・チェコ・ルーマニア・エストニア
結果 • 英語 • ルーマニア語
結果 • エストニア語 • チェコ語
結果 • フィンランド語
実験結果について • 英語のみ提案手法の方が精度が下がった – 他の言語において精度向上が見られた • CRF(1,m)の方がCRF(2,-)の結果より良い – 英語は除く –
次数が低くてもサブラベルを使えば勝てる • 提案手法の方が処理時間が増えた – 待てないほど大きく増えたわけではない
まとめ • サブラベルの情報を用いてタグ付け – そのままのタグの情報+サブラベル情報 • 実験では・・・ – 5つの言語を比較 –
3パターンの品詞の扱いを比較 – CRFの次数は1か2で比較 • 結果として・・・ – サブラベル情報の有用性を示す