Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介8月分
Search
miyanishi
September 02, 2014
0
360
文献紹介8月分
miyanishi
September 02, 2014
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
86
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
110
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
3.6k
My Coaching Mixtape
mlcsv
0
50
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.3k
Context Engineering - Making Every Token Count
addyosmani
9
670
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.2k
A Tale of Four Properties
chriscoyier
162
24k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
290
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
240
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
79
Transcript
文献紹介ゼミ 山本研究室 修士1年 宮西 由貴
論文情報 • Part-of-Speech Tagging using Conditional Random Fields: Exploiting Sub-Label
Dependencies for Improved Accuracy • Miikka Silfverberg et al. • Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Short Papers), pages 259–264,Baltimore, Maryland, USA, June 23-25 2014.
概要 • 様々な言語での形態素解析 – 品詞付与のみ:CRFを使用することが多い • コーパスの品詞情報を使って精度向上! – 品詞タグをよりきめ細かくする •
多言語での実験 – 英語以外の言語で精度が向上した
既存の形態素解析 • 品詞付与のみのもの – CRFを使用 – トレーニングデータではツリーバンクを使用 • トレーニング時の品詞の扱い –
付いたタグをそのまま使用 – もっと大切な情報があるのでは・・・? PRON+1SG V+NON3SG+PRES N+SG I like him
提案手法 • 品詞の扱い方について – サブラベルを使用 – Ex. PRON+1SGのサブラベルはPRONと1SG • 実験について
– 様々な品詞を扱いを比較 – 5つの言語に適応させて比較
Conditional Random Field • xは文そのもの(x1・・・x|x|は形態素) • yは品詞タグの集合 • wはパラメータベクトル •
φは素性抽出の関数
ベースライン • Yは実際にタグ付けされた品詞集合 • はifと同義(1or0が返る)
ベースライン • Xは関数の集合 – 文が大文字,ハイフン,ダッシュ,数字を 含んでいるか? など – バイナリ関数なので答えは1か0 •
(2)に,変遷要素を加えると・・・
ベースラインを拡張 • s∈Sはサブラベル • P(yi)はyiラベルをサブラベルに区切ったもの • (2)ラベルそのまま比較/(5)サブラベルを比較 • 変遷要素を加えると・・・
実験での扱いと表記 • 3種類のパターンを用意 – (2)と(4)のみ使用・・・CRF(n,-) ※ベースライン – (2),(4)に加えて(5)使用・・・CRF(n,0) – (2),(4),(5),(6)を使用・・・CRF(n,m)
• nは1と2を用意 – n:CRFの次数
実験 • 使用した言語資源 – Penn Treebank・・・英語 – Turku Depedency Treebank・・・フィンランド語
– Multext-East・・・チェコ・ルーマニア・エストニア語 • 使用言語 – 5種類の言語で実験 – 英語・フィンランド・チェコ・ルーマニア・エストニア
結果 • 英語 • ルーマニア語
結果 • エストニア語 • チェコ語
結果 • フィンランド語
実験結果について • 英語のみ提案手法の方が精度が下がった – 他の言語において精度向上が見られた • CRF(1,m)の方がCRF(2,-)の結果より良い – 英語は除く –
次数が低くてもサブラベルを使えば勝てる • 提案手法の方が処理時間が増えた – 待てないほど大きく増えたわけではない
まとめ • サブラベルの情報を用いてタグ付け – そのままのタグの情報+サブラベル情報 • 実験では・・・ – 5つの言語を比較 –
3パターンの品詞の扱いを比較 – CRFの次数は1か2で比較 • 結果として・・・ – サブラベル情報の有用性を示す