Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介2015_02月
Search
miyanishi
February 18, 2015
290
0
Share
文献紹介2015_02月
miyanishi
February 18, 2015
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
87
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
230
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8k
How to train your dragon (web standard)
notwaldorf
97
6.6k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
0
190
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
510
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
110k
Testing 201, or: Great Expectations
jmmastey
46
8.1k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.4k
Into the Great Unknown - MozCon
thekraken
40
2.3k
Heart Work Chapter 1 - Part 1
lfama
PRO
5
35k
We Have a Design System, Now What?
morganepeng
55
8.1k
Accessibility Awareness
sabderemane
0
94
Transcript
文献紹介ゼミ 自然言語処理研究室 宮西 由貴
文献情報 • A Character-Based Joint Model for Chinese Word Segmentation
• Author: – Kun Wang – Chengqing Zong – Keh-Yih Su • Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010) • p1173–1181
概要 • 文字ベース中国語形態素解析器 – 識別モデル – 生成モデル – どちらも文字ベースにして結合! •
上手く組み合わせる方法を提案 – 従来手法に勝利
中国語形態素解析 • 形態素解析の単位が2種類 – 単語ベース – 文字ベース • 文字ベースの中国語形態素解析器 –
識別モデル…平文から単語を発見 – 生成モデル…文字を組み合わせて単語を生成
よくある形態素解析パターン • 単語ベースの生成モデルを使用 – 良く知られた手法 • 単語ベースの識別モデルを使用 • 文字ベースの識別モデルを使用 –
OOVに対して頑強 • 文字ベースの生成モデルを使用 – IVに対して安定的
よくある形態素解析パターン • 単語ベースの生成モデルを使用 – 良く知られた手法 • 単語ベースの識別モデルを使用 • 文字ベースの識別モデルを使用 –
OOVに対して頑強 • 文字ベースの生成モデルを使用 – IVに対して安定的 得意な部分が 異なる
提案手法 • OOVにもIVにも頑強な形態素解析器の作成 – 文字ベース識別&生成モデルの良いとこ取り • 文字ベースの識別&生成モデルを結合 – 結合時にパラメータαを決定してjoint –
α:どれだけOOVに頑強か or IVに頑強か
文字ベースの識別モデル • OOVに対して頑強 • IVにあまり強くない tk:k番目の文字に付与されたタグ (タグは{Begin, Middle, End, Single})
ck:k番目の文字
文字ベースの識別モデル • 以下の素性に対して識別モデルを適応 (a) (b) (c)
文字ベースの生成モデル • IVに対して安定的に解析可能 • OOVに対しては強くない
識別モデルと生成モデルの結合 • 結合パラメータα – αの範囲 : 0.0 ≦ α ≦
1.0 – 生成モデルをどれだけ効かせるか
実験 • 使用するコーパス
実験結果
実験結果