Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介1月
Search
miyanishi
January 21, 2016
190
0
Share
文献紹介1月
miyanishi
January 21, 2016
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
87
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
230
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
文献紹介15年06月
miyanishi
0
270
Featured
See All Featured
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
200
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
Making the Leap to Tech Lead
cromwellryan
135
9.8k
ラッコキーワード サービス紹介資料
rakko
1
2.9M
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Speed Design
sergeychernyshev
33
1.6k
Stop Working from a Prison Cell
hatefulcrawdad
274
21k
Done Done
chrislema
186
16k
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
190
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
For a Future-Friendly Web
brad_frost
183
10k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
Transcript
2016年01月次 文献紹介 山本研究室 修士2年 宮西 由貴
文献情報 • Task-based Evaluation of Multiword Expressions: a Pilot Study
in Statistical Machine Translation • 著者: Marine Carpuat and Mona Diab • Conf. of NAACL 2010 • p.242 - 245
概要 • Multiword Expression(MWE)の効果をSMTで検証 – English - Arabic – 英語のMWEを使用
• 3パターンの組み合わせで実験 – どのようにSMTに組み込むか? – どのようなMWEが効くのか?
MWEの統合方法 • Static integration – 単語分割時にMWEを考慮する • Dynamic integration –
SMTの素性としてMWE素性を組み込む
Static integration • 単語分割の際にMWEを考慮 – 辞書などを用いてMWEを取得 – 訓練&評価データの単語分割時にMWEを認識 – 発見したMWEはアンダースコアで結合
Dynamic integration • SMTの素性としてMWE素性を組み込む – その単語が持つMWEの数を素性とする (例) In stead of
as of of course MWE集合 ofは3 という素性を持つ
MWEの取得方法 • WordNet MWE – WordNet から MWEを取得する • 表層形ではなくlemmatizeした語を使用
→活用形の違いを考慮しない • 形態的なバリエーションを考慮しない (例)keep one's eyes〜 = keep her eyes〜 • Top 500 N-grams – データ中のN-gramから頻度上位500語を取得 ※N <= 10
2種類の取得方法について • 2種類の手法で傾向の違うMWEが取得できた – WordNet:900個、N-gram:500個中、 一致したのは10個 • MWEの作り方も比較可能 – 言語情報を使うのか?
– 自動的に取得するのか?
評価実験設定 • 使用したデータ – 評価データ: NIST Open MT Evaluation(2008)から816文 –
訓練データ: newswire parallel corpora (Linguistic Data Consortium)から2.5M文
評価実験設定 • 使用したツール – Arabicの単語分割: Arabic Treebank v3 tokenizer –
デコーダ: Moses – 単語アライメント: GIZA++ – 言語モデル: 5-gram + Kneser-Ney(スムージング) – 素性の重み付け: NIST-MT06
結果 • BLEUとTERで比較 – TER:staticの方が悪い – BLEU:dynamicの方が悪い
結果2 • それぞれの統合方法はBLEU&TERを 助けるのか、害するのか
まとめ • Multiword Expression(MWE)の効果をSMTで検証 – English - Arabic – 英語のMWEを使用
• 3パターンの組み合わせで実験 – MWEを考慮することで良い効果 – Static×WordNet MWEが特に良い