Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介1月
Search
miyanishi
January 21, 2016
0
160
文献紹介1月
miyanishi
January 21, 2016
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
76
文献紹介12月
miyanishi
0
210
文献紹介11月
miyanishi
0
240
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
230
15年7月文献紹介
miyanishi
0
250
文献紹介15年06月
miyanishi
0
260
Featured
See All Featured
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
123
39k
It's Worth the Effort
3n
180
27k
10 Git Anti Patterns You Should be Aware of
lemiorhan
649
58k
How GitHub Uses GitHub to Build GitHub
holman
468
290k
The Power of CSS Pseudo Elements
geoffreycrofte
61
5k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
22
1.6k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
10
1k
Unsuck your backbone
ammeep
663
57k
Why Our Code Smells
bkeepers
PRO
331
56k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
20
1.7k
The Cult of Friendly URLs
andyhume
74
5.7k
Code Reviewing Like a Champion
maltzj
515
39k
Transcript
2016年01月次 文献紹介 山本研究室 修士2年 宮西 由貴
文献情報 • Task-based Evaluation of Multiword Expressions: a Pilot Study
in Statistical Machine Translation • 著者: Marine Carpuat and Mona Diab • Conf. of NAACL 2010 • p.242 - 245
概要 • Multiword Expression(MWE)の効果をSMTで検証 – English - Arabic – 英語のMWEを使用
• 3パターンの組み合わせで実験 – どのようにSMTに組み込むか? – どのようなMWEが効くのか?
MWEの統合方法 • Static integration – 単語分割時にMWEを考慮する • Dynamic integration –
SMTの素性としてMWE素性を組み込む
Static integration • 単語分割の際にMWEを考慮 – 辞書などを用いてMWEを取得 – 訓練&評価データの単語分割時にMWEを認識 – 発見したMWEはアンダースコアで結合
Dynamic integration • SMTの素性としてMWE素性を組み込む – その単語が持つMWEの数を素性とする (例) In stead of
as of of course MWE集合 ofは3 という素性を持つ
MWEの取得方法 • WordNet MWE – WordNet から MWEを取得する • 表層形ではなくlemmatizeした語を使用
→活用形の違いを考慮しない • 形態的なバリエーションを考慮しない (例)keep one's eyes〜 = keep her eyes〜 • Top 500 N-grams – データ中のN-gramから頻度上位500語を取得 ※N <= 10
2種類の取得方法について • 2種類の手法で傾向の違うMWEが取得できた – WordNet:900個、N-gram:500個中、 一致したのは10個 • MWEの作り方も比較可能 – 言語情報を使うのか?
– 自動的に取得するのか?
評価実験設定 • 使用したデータ – 評価データ: NIST Open MT Evaluation(2008)から816文 –
訓練データ: newswire parallel corpora (Linguistic Data Consortium)から2.5M文
評価実験設定 • 使用したツール – Arabicの単語分割: Arabic Treebank v3 tokenizer –
デコーダ: Moses – 単語アライメント: GIZA++ – 言語モデル: 5-gram + Kneser-Ney(スムージング) – 素性の重み付け: NIST-MT06
結果 • BLEUとTERで比較 – TER:staticの方が悪い – BLEU:dynamicの方が悪い
結果2 • それぞれの統合方法はBLEU&TERを 助けるのか、害するのか
まとめ • Multiword Expression(MWE)の効果をSMTで検証 – English - Arabic – 英語のMWEを使用
• 3パターンの組み合わせで実験 – MWEを考慮することで良い効果 – Static×WordNet MWEが特に良い