Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介2015_02月
Search
miyanishi
February 18, 2015
0
280
文献紹介2015_02月
miyanishi
February 18, 2015
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
86
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
Building the Perfect Custom Keyboard
takai
2
670
Leading Effective Engineering Teams in the AI Era
addyosmani
9
1.4k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.4k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
59
Designing for humans not robots
tammielis
254
26k
Writing Fast Ruby
sferik
630
62k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Code Review Best Practice
trishagee
74
19k
Test your architecture with Archunit
thirion
1
2.1k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.4k
The untapped power of vector embeddings
frankvandijk
1
1.5k
How to build a perfect <img>
jonoalderson
1
4.8k
Transcript
文献紹介ゼミ 自然言語処理研究室 宮西 由貴
文献情報 • A Character-Based Joint Model for Chinese Word Segmentation
• Author: – Kun Wang – Chengqing Zong – Keh-Yih Su • Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010) • p1173–1181
概要 • 文字ベース中国語形態素解析器 – 識別モデル – 生成モデル – どちらも文字ベースにして結合! •
上手く組み合わせる方法を提案 – 従来手法に勝利
中国語形態素解析 • 形態素解析の単位が2種類 – 単語ベース – 文字ベース • 文字ベースの中国語形態素解析器 –
識別モデル…平文から単語を発見 – 生成モデル…文字を組み合わせて単語を生成
よくある形態素解析パターン • 単語ベースの生成モデルを使用 – 良く知られた手法 • 単語ベースの識別モデルを使用 • 文字ベースの識別モデルを使用 –
OOVに対して頑強 • 文字ベースの生成モデルを使用 – IVに対して安定的
よくある形態素解析パターン • 単語ベースの生成モデルを使用 – 良く知られた手法 • 単語ベースの識別モデルを使用 • 文字ベースの識別モデルを使用 –
OOVに対して頑強 • 文字ベースの生成モデルを使用 – IVに対して安定的 得意な部分が 異なる
提案手法 • OOVにもIVにも頑強な形態素解析器の作成 – 文字ベース識別&生成モデルの良いとこ取り • 文字ベースの識別&生成モデルを結合 – 結合時にパラメータαを決定してjoint –
α:どれだけOOVに頑強か or IVに頑強か
文字ベースの識別モデル • OOVに対して頑強 • IVにあまり強くない tk:k番目の文字に付与されたタグ (タグは{Begin, Middle, End, Single})
ck:k番目の文字
文字ベースの識別モデル • 以下の素性に対して識別モデルを適応 (a) (b) (c)
文字ベースの生成モデル • IVに対して安定的に解析可能 • OOVに対しては強くない
識別モデルと生成モデルの結合 • 結合パラメータα – αの範囲 : 0.0 ≦ α ≦
1.0 – 生成モデルをどれだけ効かせるか
実験 • 使用するコーパス
実験結果
実験結果