Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介15年08月
Search
miyanishi
July 24, 2015
0
240
文献紹介15年08月
miyanishi
July 24, 2015
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
85
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
240
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
15年7月文献紹介
miyanishi
0
260
文献紹介15年06月
miyanishi
0
260
Featured
See All Featured
GitHub's CSS Performance
jonrohan
1032
470k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
10
900
Become a Pro
speakerdeck
PRO
29
5.6k
The Language of Interfaces
destraynor
162
25k
Agile that works and the tools we love
rasmusluckow
331
21k
Optimising Largest Contentful Paint
csswizardry
37
3.5k
Visualization
eitanlees
150
16k
Facilitating Awesome Meetings
lara
57
6.6k
Fireside Chat
paigeccino
41
3.7k
Leading Effective Engineering Teams in the AI Era
addyosmani
7
680
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
GraphQLとの向き合い方2022年版
quramy
49
14k
Transcript
文献紹介 山本研究室 修士2年 宮西 由貴
文献情報 • Orthographic and Morphological Processing for Persian-to-English Statistical Machine
Translation • Rasooli, Mohammad,et. al. • International Joint Conference on Natural Language Processing 2013 • P14-18 2
概要 • ペルシア語の複雑さを前処理でなくす – スペース – 活用 • SMTにどれだけ寄与するか? –
データスパースネスに効果あり? 3
ペルシア語の問題点 • 単語中のスペースについて – セミスペースと呼ばれるスペースを使用 – 大抵の人は普通のスペースと区別せず使用 →NLPツールはセミスペースで書くことを想定 →曖昧性も増加 •
pro-drop言語 4
ペルシア語の問題点 • ペルシア語の性や活用 – rich inflection な言語(接尾辞が多彩) – 形容詞 •
比較的シンプルな活用 • 比較級・最上級などが活用の対象 – 名詞 • 形容詞を伴う名詞句は形容詞によって接尾辞が付属 – 動詞 • 時制やムードなど様々な理由で接尾辞が変化 • 100種類以上の動詞+接尾辞の形が存在 5
スペースに関する解決策 • セミスペース辞書を作成 – セミスペースを持ちうる語を集めた辞書を作成 – コーパスの一部(トレーニングデータ)から セミスペースを含む語を取得 – 取得した語に対して活用を考慮し,拡張
• 言語モデルの作成 – バックオフを持つ3-gramを言語モデルとして使用 6
スペースに関する解決策 • N-gramモデルのチューニング – ツリーバンクをdevelopment setとして使用 – セミスペースを全て通常スペースに直し, セミスペースを予測 •
結果 – 精度→93% – 再現率→99% – F値→96% 7
既存の形態素解析について • PerStem – 正規表現+規則を用いて形態素解析 – 接尾辞なども除くことが可能 • 動詞の活用があまりに複雑 →動詞を正しく分割する方法を考案
8
提案する解析器 • VerbStem – 動詞の発見→コーパスから最尤推定 – 既存の動詞分析器を利用して 全ての付属(接辞など)を分割 – 動詞分析器の入力はセミスペースを使用
→セミスペースの推定を利用 9
機械翻訳への反映 • 5つのパターンを用意 – Raw :特になにもしない – Raw-RS : 全通常スペースをセミスペースに変換
– PerStem : PerStem解析器を使用 – Clean-SS : セミスペースの推定→校正 – VerbStem : 提案手法 10
実験設定 • ペルシア語-英語のパラレルコーパス – 160T文(3.7M語) – テストセットは268文 • アライメント:GIZA++ •
SMTシステム:moses 11
実験結果 12
概要 • ペルシア語の複雑さを前処理でなくす – スペースについて – 動詞の活用について • SMTにどれだけ寄与するか? –
データスパースネスに効果あり? – BLUE値で約1.5ポイントの上昇 13