Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介2015_02月
Search
miyanishi
February 18, 2015
290
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
文献紹介2015_02月
miyanishi
February 18, 2015
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
91
文献紹介1月
miyanishi
0
200
文献紹介12月
miyanishi
0
260
文献紹介11月
miyanishi
0
260
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
230
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
270
Featured
See All Featured
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Music & Morning Musume
bryan
47
7.2k
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
220
sira's awesome portfolio website redesign presentation
elsirapls
0
280
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.3k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
450
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
Building an army of robots
kneath
306
46k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.5k
The Curse of the Amulet
leimatthew05
1
13k
Abbi's Birthday
coloredviolet
2
8k
Transcript
文献紹介ゼミ 自然言語処理研究室 宮西 由貴
文献情報 • A Character-Based Joint Model for Chinese Word Segmentation
• Author: – Kun Wang – Chengqing Zong – Keh-Yih Su • Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010) • p1173–1181
概要 • 文字ベース中国語形態素解析器 – 識別モデル – 生成モデル – どちらも文字ベースにして結合! •
上手く組み合わせる方法を提案 – 従来手法に勝利
中国語形態素解析 • 形態素解析の単位が2種類 – 単語ベース – 文字ベース • 文字ベースの中国語形態素解析器 –
識別モデル…平文から単語を発見 – 生成モデル…文字を組み合わせて単語を生成
よくある形態素解析パターン • 単語ベースの生成モデルを使用 – 良く知られた手法 • 単語ベースの識別モデルを使用 • 文字ベースの識別モデルを使用 –
OOVに対して頑強 • 文字ベースの生成モデルを使用 – IVに対して安定的
よくある形態素解析パターン • 単語ベースの生成モデルを使用 – 良く知られた手法 • 単語ベースの識別モデルを使用 • 文字ベースの識別モデルを使用 –
OOVに対して頑強 • 文字ベースの生成モデルを使用 – IVに対して安定的 得意な部分が 異なる
提案手法 • OOVにもIVにも頑強な形態素解析器の作成 – 文字ベース識別&生成モデルの良いとこ取り • 文字ベースの識別&生成モデルを結合 – 結合時にパラメータαを決定してjoint –
α:どれだけOOVに頑強か or IVに頑強か
文字ベースの識別モデル • OOVに対して頑強 • IVにあまり強くない tk:k番目の文字に付与されたタグ (タグは{Begin, Middle, End, Single})
ck:k番目の文字
文字ベースの識別モデル • 以下の素性に対して識別モデルを適応 (a) (b) (c)
文字ベースの生成モデル • IVに対して安定的に解析可能 • OOVに対しては強くない
識別モデルと生成モデルの結合 • 結合パラメータα – αの範囲 : 0.0 ≦ α ≦
1.0 – 生成モデルをどれだけ効かせるか
実験 • 使用するコーパス
実験結果
実験結果