Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介15年08月
Search
miyanishi
July 24, 2015
0
240
文献紹介15年08月
miyanishi
July 24, 2015
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
86
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
340
15年7月文献紹介
miyanishi
0
260
文献紹介15年06月
miyanishi
0
260
Featured
See All Featured
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.1k
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
80
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
150
GitHub's CSS Performance
jonrohan
1032
470k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.3k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
71k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
110
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
65
Chasing Engaging Ingredients in Design
codingconduct
0
93
The Art of Programming - Codeland 2020
erikaheidi
56
14k
Transcript
文献紹介 山本研究室 修士2年 宮西 由貴
文献情報 • Orthographic and Morphological Processing for Persian-to-English Statistical Machine
Translation • Rasooli, Mohammad,et. al. • International Joint Conference on Natural Language Processing 2013 • P14-18 2
概要 • ペルシア語の複雑さを前処理でなくす – スペース – 活用 • SMTにどれだけ寄与するか? –
データスパースネスに効果あり? 3
ペルシア語の問題点 • 単語中のスペースについて – セミスペースと呼ばれるスペースを使用 – 大抵の人は普通のスペースと区別せず使用 →NLPツールはセミスペースで書くことを想定 →曖昧性も増加 •
pro-drop言語 4
ペルシア語の問題点 • ペルシア語の性や活用 – rich inflection な言語(接尾辞が多彩) – 形容詞 •
比較的シンプルな活用 • 比較級・最上級などが活用の対象 – 名詞 • 形容詞を伴う名詞句は形容詞によって接尾辞が付属 – 動詞 • 時制やムードなど様々な理由で接尾辞が変化 • 100種類以上の動詞+接尾辞の形が存在 5
スペースに関する解決策 • セミスペース辞書を作成 – セミスペースを持ちうる語を集めた辞書を作成 – コーパスの一部(トレーニングデータ)から セミスペースを含む語を取得 – 取得した語に対して活用を考慮し,拡張
• 言語モデルの作成 – バックオフを持つ3-gramを言語モデルとして使用 6
スペースに関する解決策 • N-gramモデルのチューニング – ツリーバンクをdevelopment setとして使用 – セミスペースを全て通常スペースに直し, セミスペースを予測 •
結果 – 精度→93% – 再現率→99% – F値→96% 7
既存の形態素解析について • PerStem – 正規表現+規則を用いて形態素解析 – 接尾辞なども除くことが可能 • 動詞の活用があまりに複雑 →動詞を正しく分割する方法を考案
8
提案する解析器 • VerbStem – 動詞の発見→コーパスから最尤推定 – 既存の動詞分析器を利用して 全ての付属(接辞など)を分割 – 動詞分析器の入力はセミスペースを使用
→セミスペースの推定を利用 9
機械翻訳への反映 • 5つのパターンを用意 – Raw :特になにもしない – Raw-RS : 全通常スペースをセミスペースに変換
– PerStem : PerStem解析器を使用 – Clean-SS : セミスペースの推定→校正 – VerbStem : 提案手法 10
実験設定 • ペルシア語-英語のパラレルコーパス – 160T文(3.7M語) – テストセットは268文 • アライメント:GIZA++ •
SMTシステム:moses 11
実験結果 12
概要 • ペルシア語の複雑さを前処理でなくす – スペースについて – 動詞の活用について • SMTにどれだけ寄与するか? –
データスパースネスに効果あり? – BLUE値で約1.5ポイントの上昇 13