Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介2015_02月
Search
miyanishi
February 18, 2015
0
280
文献紹介2015_02月
miyanishi
February 18, 2015
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
76
文献紹介1月
miyanishi
0
160
文献紹介12月
miyanishi
0
210
文献紹介11月
miyanishi
0
240
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
230
15年7月文献紹介
miyanishi
0
250
Featured
See All Featured
Product Roadmaps are Hard
iamctodd
45
9.7k
The Invisible Side of Design
smashingmag
294
49k
Faster Mobile Websites
deanohume
300
30k
Raft: Consensus for Rubyists
vanstee
133
6.3k
Clear Off the Table
cherdarchuk
85
310k
The World Runs on Bad Software
bkeepers
PRO
61
6.7k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
66
14k
Designing with Data
zakiwarfel
96
4.8k
Fashionably flexible responsive web design (full day workshop)
malarkey
398
65k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
245
20k
Embracing the Ebb and Flow
colly
80
4.2k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
21
1.9k
Transcript
文献紹介ゼミ 自然言語処理研究室 宮西 由貴
文献情報 • A Character-Based Joint Model for Chinese Word Segmentation
• Author: – Kun Wang – Chengqing Zong – Keh-Yih Su • Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010) • p1173–1181
概要 • 文字ベース中国語形態素解析器 – 識別モデル – 生成モデル – どちらも文字ベースにして結合! •
上手く組み合わせる方法を提案 – 従来手法に勝利
中国語形態素解析 • 形態素解析の単位が2種類 – 単語ベース – 文字ベース • 文字ベースの中国語形態素解析器 –
識別モデル…平文から単語を発見 – 生成モデル…文字を組み合わせて単語を生成
よくある形態素解析パターン • 単語ベースの生成モデルを使用 – 良く知られた手法 • 単語ベースの識別モデルを使用 • 文字ベースの識別モデルを使用 –
OOVに対して頑強 • 文字ベースの生成モデルを使用 – IVに対して安定的
よくある形態素解析パターン • 単語ベースの生成モデルを使用 – 良く知られた手法 • 単語ベースの識別モデルを使用 • 文字ベースの識別モデルを使用 –
OOVに対して頑強 • 文字ベースの生成モデルを使用 – IVに対して安定的 得意な部分が 異なる
提案手法 • OOVにもIVにも頑強な形態素解析器の作成 – 文字ベース識別&生成モデルの良いとこ取り • 文字ベースの識別&生成モデルを結合 – 結合時にパラメータαを決定してjoint –
α:どれだけOOVに頑強か or IVに頑強か
文字ベースの識別モデル • OOVに対して頑強 • IVにあまり強くない tk:k番目の文字に付与されたタグ (タグは{Begin, Middle, End, Single})
ck:k番目の文字
文字ベースの識別モデル • 以下の素性に対して識別モデルを適応 (a) (b) (c)
文字ベースの生成モデル • IVに対して安定的に解析可能 • OOVに対しては強くない
識別モデルと生成モデルの結合 • 結合パラメータα – αの範囲 : 0.0 ≦ α ≦
1.0 – 生成モデルをどれだけ効かせるか
実験 • 使用するコーパス
実験結果
実験結果