Slide 1

Slide 1 text

文献紹介 Enlisting the Ghost : Modeling Empty Categories for Machine Translation 長岡技術科学大学 自然言語処理研究室 竹野 峻輔 ※スライド中の図・表・式は, 論文中のものです.

Slide 2

Slide 2 text

概要 Xiang, B., & York, N. (2013). Enlisting the Ghost : Modeling Empty Categories for Machine Translation. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (pp. 822–831). Abstarct: 1.中国語の Empty Category(EC)の補完の検証 2.中英翻訳 における EC補完の影響の検証 – Word Alignment は 改善するとは限らない – 翻訳性能 は 向上する

Slide 3

Slide 3 text

Introduction ● SMTの台頭 – 大規模なデータから 原言語から 目的言語 の 機械翻訳 ● 問題点 – Pro-drop language の存在 – 原言語側 での pro の欠落が 単語アライメントに 影響

Slide 4

Slide 4 text

Overview ● ECの検出 システム – MaxEnt をベースとした モデル化 ● EC検出の MTシステムへの適用 T2S翻訳への適用

Slide 5

Slide 5 text

ECの検出システム:EC種類 ● CTBにおいては, 以下の6種類が付与

Slide 6

Slide 6 text

ECの検出システム:問題の定式化 ● 種類@位置 によるエンコーディング ● 非終端記号 に対する 分類問題として定式化

Slide 7

Slide 7 text

ECの検出システム:モデル ● MaxEntによる問題のモデル化 – 前段までの 予測結果を考慮して 予測を行う – T : post-order の ノード の 系列(=t1t2t3...) – ei : ti に対する EC

Slide 8

Slide 8 text

ECの検出システム:素性 1. Tree Label Feature - 構造的な素性 2. Lexical Feature - 語彙的な素性 3. EC Feature – 前段までの予測結果 4. 相互作用素性の考慮

Slide 9

Slide 9 text

ECの検出システム:素性 1. Tree Label Feature - 構造的な素性

Slide 10

Slide 10 text

ECの検出システム:素性 2. Lexical Feature – 語彙的な素性 ノード境界付近の単語 を 中心とした構成

Slide 11

Slide 11 text

ECの検出システム:素性 3. EC Feature – 前段までの予測結果 4. 相互作用素性の考慮 ● 対象ノードのラベル + 親ノード ● 対象ノードのラベル + 子ノードの素性 ● 対象ノードのラベル + 左 兄弟ノードの素性 ● 対象ノードのラベル + Lexical Features の 任意の2点の組み合わせ素性

Slide 12

Slide 12 text

ECの検出システム:結果 ● CTB v7.0 Golden parse System parse

Slide 13

Slide 13 text

ECの検出システム:既存手法と比較

Slide 14

Slide 14 text

EC検出結果のMTへの統合 ● ほとんどの誤りは pro と PRO の欠落 ● ECの検出 and 補完の結果として... – 単語アライメントの性能の改善 – T2S or Hiero の 翻訳ルール の拡張 が期待できる ● 著者らは EC検出結果の統合方法として2種検証 – 単語 として 元の文に埋め込む方法 (Explicit Recovery) – EC の アライメント結果によって翻訳に制約を課す方法 (Soft Recovery)

Slide 15

Slide 15 text

T2S or Hiero による 翻訳 原言語の構文情報を維持しつつ翻訳する. ● Tree-based Translation Models (『機械翻 訳』§6.2-6.3), Oda Yusuke, http://www.slideshare.net/YusukeOda1/201405 06-mtstudy-35525773 ● 構文情報に ECを付与したものを翻訳へ 転用する

Slide 16

Slide 16 text

ECのExplict RecoveryによるMT

Slide 17

Slide 17 text

ECのSoft RecoveryによるMT ● EC が 特定の 高頻度の 単語にアライメントされる とき に 素性の一部を無効にする ● EC が 特定の 単語の以外にアライメントされるとき 上記と別の素性の一部をを無効にする → 高い信頼度の ECを含む単語ペア には 報奨を 逆の場合にはペナルティを与える.

Slide 18

Slide 18 text

EC挿入によるMTの結果

Slide 19

Slide 19 text

EC挿入によるMTの結果