Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Enlisting the Ghost : Modeling Empty Categories for Machine Translation

takegue
April 06, 2015

Enlisting the Ghost : Modeling Empty Categories for Machine Translation

Xiang, B., & York, N. (2013). Enlisting the Ghost : Modeling Empty Categories for Machine Translation. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (pp. 822–831).

takegue

April 06, 2015
Tweet

More Decks by takegue

Other Decks in Technology

Transcript

  1. 文献紹介 Enlisting the Ghost : Modeling Empty Categories for Machine

    Translation 長岡技術科学大学 自然言語処理研究室 竹野 峻輔 ※スライド中の図・表・式は, 論文中のものです.
  2. 概要 Xiang, B., & York, N. (2013). Enlisting the Ghost

    : Modeling Empty Categories for Machine Translation. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (pp. 822–831). Abstarct: 1.中国語の Empty Category(EC)の補完の検証 2.中英翻訳 における EC補完の影響の検証 – Word Alignment は 改善するとは限らない – 翻訳性能 は 向上する
  3. Introduction • SMTの台頭 – 大規模なデータから 原言語から 目的言語 の 機械翻訳 •

    問題点 – Pro-drop language の存在 – 原言語側 での pro の欠落が 単語アライメントに 影響
  4. ECの検出システム:素性 1. Tree Label Feature - 構造的な素性 2. Lexical Feature

    - 語彙的な素性 3. EC Feature – 前段までの予測結果 4. 相互作用素性の考慮
  5. ECの検出システム:素性 3. EC Feature – 前段までの予測結果 4. 相互作用素性の考慮 • 対象ノードのラベル

    + 親ノード • 対象ノードのラベル + 子ノードの素性 • 対象ノードのラベル + 左 兄弟ノードの素性 • 対象ノードのラベル + Lexical Features の 任意の2点の組み合わせ素性
  6. EC検出結果のMTへの統合 • ほとんどの誤りは pro と PRO の欠落 • ECの検出 and

    補完の結果として... – 単語アライメントの性能の改善 – T2S or Hiero の 翻訳ルール の拡張 が期待できる • 著者らは EC検出結果の統合方法として2種検証 – 単語 として 元の文に埋め込む方法 (Explicit Recovery) – EC の アライメント結果によって翻訳に制約を課す方法 (Soft Recovery)
  7. T2S or Hiero による 翻訳 原言語の構文情報を維持しつつ翻訳する. • Tree-based Translation Models

    (『機械翻 訳』§6.2-6.3), Oda Yusuke, http://www.slideshare.net/YusukeOda1/201405 06-mtstudy-35525773 • 構文情報に ECを付与したものを翻訳へ 転用する
  8. ECのSoft RecoveryによるMT • EC が 特定の 高頻度の 単語にアライメントされる とき に

    素性の一部を無効にする • EC が 特定の 単語の以外にアライメントされるとき 上記と別の素性の一部をを無効にする → 高い信頼度の ECを含む単語ペア には 報奨を 逆の場合にはペナルティを与える.