Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介15年08月
Search
miyanishi
July 24, 2015
0
230
文献紹介15年08月
miyanishi
July 24, 2015
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
76
文献紹介1月
miyanishi
0
160
文献紹介12月
miyanishi
0
210
文献紹介11月
miyanishi
0
240
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
15年7月文献紹介
miyanishi
0
250
文献紹介15年06月
miyanishi
0
260
Featured
See All Featured
Designing for humans not robots
tammielis
248
25k
Six Lessons from altMBA
skipperchong
22
3k
What the flash - Photography Introduction
edds
64
11k
Creatively Recalculating Your Daily Design Routine
revolveconf
211
11k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
19
6.9k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
126
32k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
228
16k
Optimising Largest Contentful Paint
csswizardry
11
2.4k
A Tale of Four Properties
chriscoyier
152
22k
[RailsConf 2023] Rails as a piece of cake
palkan
26
4k
ParisWeb 2013: Learning to Love: Crash Course in Emotional UX Design
dotmariusz
104
6.6k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
188
16k
Transcript
文献紹介 山本研究室 修士2年 宮西 由貴
文献情報 • Orthographic and Morphological Processing for Persian-to-English Statistical Machine
Translation • Rasooli, Mohammad,et. al. • International Joint Conference on Natural Language Processing 2013 • P14-18 2
概要 • ペルシア語の複雑さを前処理でなくす – スペース – 活用 • SMTにどれだけ寄与するか? –
データスパースネスに効果あり? 3
ペルシア語の問題点 • 単語中のスペースについて – セミスペースと呼ばれるスペースを使用 – 大抵の人は普通のスペースと区別せず使用 →NLPツールはセミスペースで書くことを想定 →曖昧性も増加 •
pro-drop言語 4
ペルシア語の問題点 • ペルシア語の性や活用 – rich inflection な言語(接尾辞が多彩) – 形容詞 •
比較的シンプルな活用 • 比較級・最上級などが活用の対象 – 名詞 • 形容詞を伴う名詞句は形容詞によって接尾辞が付属 – 動詞 • 時制やムードなど様々な理由で接尾辞が変化 • 100種類以上の動詞+接尾辞の形が存在 5
スペースに関する解決策 • セミスペース辞書を作成 – セミスペースを持ちうる語を集めた辞書を作成 – コーパスの一部(トレーニングデータ)から セミスペースを含む語を取得 – 取得した語に対して活用を考慮し,拡張
• 言語モデルの作成 – バックオフを持つ3-gramを言語モデルとして使用 6
スペースに関する解決策 • N-gramモデルのチューニング – ツリーバンクをdevelopment setとして使用 – セミスペースを全て通常スペースに直し, セミスペースを予測 •
結果 – 精度→93% – 再現率→99% – F値→96% 7
既存の形態素解析について • PerStem – 正規表現+規則を用いて形態素解析 – 接尾辞なども除くことが可能 • 動詞の活用があまりに複雑 →動詞を正しく分割する方法を考案
8
提案する解析器 • VerbStem – 動詞の発見→コーパスから最尤推定 – 既存の動詞分析器を利用して 全ての付属(接辞など)を分割 – 動詞分析器の入力はセミスペースを使用
→セミスペースの推定を利用 9
機械翻訳への反映 • 5つのパターンを用意 – Raw :特になにもしない – Raw-RS : 全通常スペースをセミスペースに変換
– PerStem : PerStem解析器を使用 – Clean-SS : セミスペースの推定→校正 – VerbStem : 提案手法 10
実験設定 • ペルシア語-英語のパラレルコーパス – 160T文(3.7M語) – テストセットは268文 • アライメント:GIZA++ •
SMTシステム:moses 11
実験結果 12
概要 • ペルシア語の複雑さを前処理でなくす – スペースについて – 動詞の活用について • SMTにどれだけ寄与するか? –
データスパースネスに効果あり? – BLUE値で約1.5ポイントの上昇 13