Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介1月

miyanishi
January 21, 2016
160

 文献紹介1月

miyanishi

January 21, 2016
Tweet

Transcript

  1. 文献情報 • Task-based Evaluation of Multiword Expressions: a Pilot Study

    in Statistical Machine Translation • 著者: Marine Carpuat and Mona Diab • Conf. of NAACL 2010 • p.242 - 245
  2. 概要 • Multiword Expression(MWE)の効果をSMTで検証 – English - Arabic – 英語のMWEを使用

    • 3パターンの組み合わせで実験 – どのようにSMTに組み込むか? – どのようなMWEが効くのか?
  3. MWEの取得方法 • WordNet MWE – WordNet から MWEを取得する • 表層形ではなくlemmatizeした語を使用

    →活用形の違いを考慮しない • 形態的なバリエーションを考慮しない (例)keep one's eyes〜 = keep her eyes〜 • Top 500 N-grams – データ中のN-gramから頻度上位500語を取得 ※N <= 10
  4. 評価実験設定 • 使用したデータ – 評価データ: NIST Open MT Evaluation(2008)から816文 –

    訓練データ: newswire parallel corpora (Linguistic Data Consortium)から2.5M文
  5. 評価実験設定 • 使用したツール – Arabicの単語分割: Arabic Treebank v3 tokenizer –

    デコーダ: Moses – 単語アライメント: GIZA++ – 言語モデル: 5-gram + Kneser-Ney(スムージング) – 素性の重み付け: NIST-MT06
  6. まとめ • Multiword Expression(MWE)の効果をSMTで検証 – English - Arabic – 英語のMWEを使用

    • 3パターンの組み合わせで実験 – MWEを考慮することで良い効果 – Static×WordNet MWEが特に良い