Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介1月
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
miyanishi
January 21, 2016
200
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
文献紹介1月
miyanishi
January 21, 2016
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
91
文献紹介12月
miyanishi
0
260
文献紹介11月
miyanishi
0
260
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
230
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
270
文献紹介15年06月
miyanishi
0
270
Featured
See All Featured
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
200
Joys of Absence: A Defence of Solitary Play
codingconduct
1
390
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
For a Future-Friendly Web
brad_frost
183
10k
The Pragmatic Product Professional
lauravandoore
37
7.3k
A designer walks into a library…
pauljervisheath
211
24k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.5k
How STYLIGHT went responsive
nonsquared
100
6.2k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
New Earth Scene 8
popppiees
3
2.3k
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
220
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
Transcript
2016年01月次 文献紹介 山本研究室 修士2年 宮西 由貴
文献情報 • Task-based Evaluation of Multiword Expressions: a Pilot Study
in Statistical Machine Translation • 著者: Marine Carpuat and Mona Diab • Conf. of NAACL 2010 • p.242 - 245
概要 • Multiword Expression(MWE)の効果をSMTで検証 – English - Arabic – 英語のMWEを使用
• 3パターンの組み合わせで実験 – どのようにSMTに組み込むか? – どのようなMWEが効くのか?
MWEの統合方法 • Static integration – 単語分割時にMWEを考慮する • Dynamic integration –
SMTの素性としてMWE素性を組み込む
Static integration • 単語分割の際にMWEを考慮 – 辞書などを用いてMWEを取得 – 訓練&評価データの単語分割時にMWEを認識 – 発見したMWEはアンダースコアで結合
Dynamic integration • SMTの素性としてMWE素性を組み込む – その単語が持つMWEの数を素性とする (例) In stead of
as of of course MWE集合 ofは3 という素性を持つ
MWEの取得方法 • WordNet MWE – WordNet から MWEを取得する • 表層形ではなくlemmatizeした語を使用
→活用形の違いを考慮しない • 形態的なバリエーションを考慮しない (例)keep one's eyes〜 = keep her eyes〜 • Top 500 N-grams – データ中のN-gramから頻度上位500語を取得 ※N <= 10
2種類の取得方法について • 2種類の手法で傾向の違うMWEが取得できた – WordNet:900個、N-gram:500個中、 一致したのは10個 • MWEの作り方も比較可能 – 言語情報を使うのか?
– 自動的に取得するのか?
評価実験設定 • 使用したデータ – 評価データ: NIST Open MT Evaluation(2008)から816文 –
訓練データ: newswire parallel corpora (Linguistic Data Consortium)から2.5M文
評価実験設定 • 使用したツール – Arabicの単語分割: Arabic Treebank v3 tokenizer –
デコーダ: Moses – 単語アライメント: GIZA++ – 言語モデル: 5-gram + Kneser-Ney(スムージング) – 素性の重み付け: NIST-MT06
結果 • BLEUとTERで比較 – TER:staticの方が悪い – BLEU:dynamicの方が悪い
結果2 • それぞれの統合方法はBLEU&TERを 助けるのか、害するのか
まとめ • Multiword Expression(MWE)の効果をSMTで検証 – English - Arabic – 英語のMWEを使用
• 3パターンの組み合わせで実験 – MWEを考慮することで良い効果 – Static×WordNet MWEが特に良い