Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介2015_02月
Search
miyanishi
February 18, 2015
0
280
文献紹介2015_02月
miyanishi
February 18, 2015
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
85
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
240
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
A Modern Web Designer's Workflow
chriscoyier
697
190k
Fireside Chat
paigeccino
41
3.7k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
A designer walks into a library…
pauljervisheath
209
24k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
54k
Automating Front-end Workflow
addyosmani
1371
200k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.1k
Art, The Web, and Tiny UX
lynnandtonic
303
21k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
34
2.3k
Rails Girls Zürich Keynote
gr2m
95
14k
Transcript
文献紹介ゼミ 自然言語処理研究室 宮西 由貴
文献情報 • A Character-Based Joint Model for Chinese Word Segmentation
• Author: – Kun Wang – Chengqing Zong – Keh-Yih Su • Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010) • p1173–1181
概要 • 文字ベース中国語形態素解析器 – 識別モデル – 生成モデル – どちらも文字ベースにして結合! •
上手く組み合わせる方法を提案 – 従来手法に勝利
中国語形態素解析 • 形態素解析の単位が2種類 – 単語ベース – 文字ベース • 文字ベースの中国語形態素解析器 –
識別モデル…平文から単語を発見 – 生成モデル…文字を組み合わせて単語を生成
よくある形態素解析パターン • 単語ベースの生成モデルを使用 – 良く知られた手法 • 単語ベースの識別モデルを使用 • 文字ベースの識別モデルを使用 –
OOVに対して頑強 • 文字ベースの生成モデルを使用 – IVに対して安定的
よくある形態素解析パターン • 単語ベースの生成モデルを使用 – 良く知られた手法 • 単語ベースの識別モデルを使用 • 文字ベースの識別モデルを使用 –
OOVに対して頑強 • 文字ベースの生成モデルを使用 – IVに対して安定的 得意な部分が 異なる
提案手法 • OOVにもIVにも頑強な形態素解析器の作成 – 文字ベース識別&生成モデルの良いとこ取り • 文字ベースの識別&生成モデルを結合 – 結合時にパラメータαを決定してjoint –
α:どれだけOOVに頑強か or IVに頑強か
文字ベースの識別モデル • OOVに対して頑強 • IVにあまり強くない tk:k番目の文字に付与されたタグ (タグは{Begin, Middle, End, Single})
ck:k番目の文字
文字ベースの識別モデル • 以下の素性に対して識別モデルを適応 (a) (b) (c)
文字ベースの生成モデル • IVに対して安定的に解析可能 • OOVに対しては強くない
識別モデルと生成モデルの結合 • 結合パラメータα – αの範囲 : 0.0 ≦ α ≦
1.0 – 生成モデルをどれだけ効かせるか
実験 • 使用するコーパス
実験結果
実験結果