Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介1月
Search
miyanishi
January 21, 2016
0
190
文献紹介1月
miyanishi
January 21, 2016
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
86
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
文献紹介15年06月
miyanishi
0
260
Featured
See All Featured
Skip the Path - Find Your Career Trail
mkilby
0
37
How to make the Groovebox
asonas
2
1.9k
Accessibility Awareness
sabderemane
0
31
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
93
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
0
3.4k
Side Projects
sachag
455
43k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Building Applications with DynamoDB
mza
96
6.9k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
76
Everyday Curiosity
cassininazir
0
120
BBQ
matthewcrist
89
9.9k
Designing for humans not robots
tammielis
254
26k
Transcript
2016年01月次 文献紹介 山本研究室 修士2年 宮西 由貴
文献情報 • Task-based Evaluation of Multiword Expressions: a Pilot Study
in Statistical Machine Translation • 著者: Marine Carpuat and Mona Diab • Conf. of NAACL 2010 • p.242 - 245
概要 • Multiword Expression(MWE)の効果をSMTで検証 – English - Arabic – 英語のMWEを使用
• 3パターンの組み合わせで実験 – どのようにSMTに組み込むか? – どのようなMWEが効くのか?
MWEの統合方法 • Static integration – 単語分割時にMWEを考慮する • Dynamic integration –
SMTの素性としてMWE素性を組み込む
Static integration • 単語分割の際にMWEを考慮 – 辞書などを用いてMWEを取得 – 訓練&評価データの単語分割時にMWEを認識 – 発見したMWEはアンダースコアで結合
Dynamic integration • SMTの素性としてMWE素性を組み込む – その単語が持つMWEの数を素性とする (例) In stead of
as of of course MWE集合 ofは3 という素性を持つ
MWEの取得方法 • WordNet MWE – WordNet から MWEを取得する • 表層形ではなくlemmatizeした語を使用
→活用形の違いを考慮しない • 形態的なバリエーションを考慮しない (例)keep one's eyes〜 = keep her eyes〜 • Top 500 N-grams – データ中のN-gramから頻度上位500語を取得 ※N <= 10
2種類の取得方法について • 2種類の手法で傾向の違うMWEが取得できた – WordNet:900個、N-gram:500個中、 一致したのは10個 • MWEの作り方も比較可能 – 言語情報を使うのか?
– 自動的に取得するのか?
評価実験設定 • 使用したデータ – 評価データ: NIST Open MT Evaluation(2008)から816文 –
訓練データ: newswire parallel corpora (Linguistic Data Consortium)から2.5M文
評価実験設定 • 使用したツール – Arabicの単語分割: Arabic Treebank v3 tokenizer –
デコーダ: Moses – 単語アライメント: GIZA++ – 言語モデル: 5-gram + Kneser-Ney(スムージング) – 素性の重み付け: NIST-MT06
結果 • BLEUとTERで比較 – TER:staticの方が悪い – BLEU:dynamicの方が悪い
結果2 • それぞれの統合方法はBLEU&TERを 助けるのか、害するのか
まとめ • Multiword Expression(MWE)の効果をSMTで検証 – English - Arabic – 英語のMWEを使用
• 3パターンの組み合わせで実験 – MWEを考慮することで良い効果 – Static×WordNet MWEが特に良い