Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介1月

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for miyanishi miyanishi
January 21, 2016
190

 文献紹介1月

Avatar for miyanishi

miyanishi

January 21, 2016
Tweet

Transcript

  1. 文献情報 • Task-based Evaluation of Multiword Expressions: a Pilot Study

    in Statistical Machine Translation • 著者: Marine Carpuat and Mona Diab • Conf. of NAACL 2010 • p.242 - 245
  2. 概要 • Multiword Expression(MWE)の効果をSMTで検証 – English - Arabic – 英語のMWEを使用

    • 3パターンの組み合わせで実験 – どのようにSMTに組み込むか? – どのようなMWEが効くのか?
  3. MWEの取得方法 • WordNet MWE – WordNet から MWEを取得する • 表層形ではなくlemmatizeした語を使用

    →活用形の違いを考慮しない • 形態的なバリエーションを考慮しない (例)keep one's eyes〜 = keep her eyes〜 • Top 500 N-grams – データ中のN-gramから頻度上位500語を取得 ※N <= 10
  4. 評価実験設定 • 使用したデータ – 評価データ: NIST Open MT Evaluation(2008)から816文 –

    訓練データ: newswire parallel corpora (Linguistic Data Consortium)から2.5M文
  5. 評価実験設定 • 使用したツール – Arabicの単語分割: Arabic Treebank v3 tokenizer –

    デコーダ: Moses – 単語アライメント: GIZA++ – 言語モデル: 5-gram + Kneser-Ney(スムージング) – 素性の重み付け: NIST-MT06
  6. まとめ • Multiword Expression(MWE)の効果をSMTで検証 – English - Arabic – 英語のMWEを使用

    • 3パターンの組み合わせで実験 – MWEを考慮することで良い効果 – Static×WordNet MWEが特に良い