Upgrade to Pro — share decks privately, control downloads, hide ads and more …

句の翻訳順序パタンを考慮した統計的機械翻訳モデル

 句の翻訳順序パタンを考慮した統計的機械翻訳モデル

大橋 一輝、山本 和英、齋藤 邦子、永田 昌明. 句の翻訳順序パタンを考慮した統計的機械翻訳モデル. 言語処理学会第12回年次大会, pp.857-860 (2006.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 4 句に基づいた翻訳モデル • 翻訳元言語文 e と翻訳先言語文 j → I 個の句に分解される

    p  e 1 I∣ j 1 I =∏ i=1 I  e i ∣ j i d a i −b i−1   e i ∣ j i  d a i −b i−1  翻訳確率 歪み確率
  2. 5 句に基づいた翻訳モデル • 翻訳元言語文 e と翻訳先言語文 j → I 個の句に分解される

    p  e 1 I∣ j 1 I =∏ i=1 I  e i ∣ j i d a i −b i−1   e i ∣ j i  d a i −b i−1  翻訳確率 歪み確率
  3. 10 翻訳順序パタン • 直前に “ツインを二” を翻訳した • 次に翻訳するべき句はどれ? → “ツインを二”

    から見てどの位置の句? ツインを二 予約 I'd like to two twin <s> <s> </s> したいのですが reserve 部屋 直前 日英翻訳
  4. ツインを二 予約 I'd like to two twin <s> <s> </s>

    したいのですが reserve 部屋 rooms 正順 直前 次 翻訳順序パタン(正順・正順間隙あり) 文頭から文末方向で間が開いている ツインを二 予約 I'd like to <s> <s> </s> したいのですが 部屋 正順間隙あり 直前 次 日英翻訳 文頭から文末方向で間が開いていない
  5. ツインを二 予約 I'd like to <s> <s> </s> したいのですが reserve

    部屋 逆順 直前 次 翻訳順序パタン(逆順・逆順間隙あり) 文末から文頭方向で間が開いていない ツインを二 予約 I'd like to two twin <s> <s> </s> したいのですが reserve 部屋 逆順間隙あり 直前 次 日英翻訳 文末から文頭方向で間が開いている
  6. 提案する歪み確率モデル • パタンに影響する因子 pd∣ f i  pd∣  e

    i−1 ,  f i  pd  pd∣  e i−1 ,  f i−1 ,  f i  pd∣  e i−1 ,  e i ,  f i−1 ,  f i  Type1: Type2: Type3: Type4: Type5: 翻訳元言語 翻訳先言語  e i−1  f i−1  f i  e i ツインを二 予約 I'd like to two twin <s> <s> </s> したいのですが reserve 部屋 rooms 正順 直前 次  e i−1  e i  f i−1  f i 語に基づく翻訳モデルにおける 歪みモデルとのアナロジー d  j− j'∣classe i−1 ,class f j  d  j− j'∣class f j 
  7. 14 歪みモデルの構築 • 対訳文の対応付け • 制約をかけたデコーダを用いる – 翻訳元言語、翻訳先言語の両方が与えられている → 翻訳先言語と矛盾する仮説は探索しない

    – N-best を出力 • パタンの頻度からモデルを構築 言語 は コミュニケーション の 道具 で ある Language is a means of communication
  8. 15 歪みモデルの汎化 • Type3 正順 「do you see」 「あそこ に

    ある レストラン」 0.5 逆順 「do you see」 「あそこ に ある レストラン」 0.5 • 句の表記を使うと頻度が少ない → 句を分類 – 句の品詞 – クラスタリング pd∣  e i−1 ,  f i 
  9. 16 句の品詞 • 語順に影響するであろう単語の品詞を使う – 英語と中国語は句の先頭の単語の品詞 – 日本語は句の末尾の単語の品詞 • 信号

    は 助詞 • the light 冠詞 • 句の先頭と末尾の品詞を使う – 言語に依存しない • 信号 は 名詞-助詞
  10. 17 句のクラスタリング • mkcls を用いてクラスタリング – 単語クラスタリングツール – 句対応付けの N-best

    を単語として扱う “what kind of sport” “facilities do you have ?” “どんなスポーツ” “施設がありますか。” “what kind of” “sport facilities do you have ?” “どんな” “スポーツ施設がありますか”
  11. 19 実験 • 日英翻訳 • IWSLT 2005(International Workshop on Spoken

    Language Translation) – 多言語話し言葉翻訳技術の国際ワークショップ – 旅行会話対訳文 20000対 – 開発セット 500文(CSTAR 2003) – テストセット 500文(IWSLT 2004)
  12. 20 評価 • 自動評価指標 BLEU – 翻訳結果の正解例との類似度を計算 – 人間の評価に近いという報告 –

    統計的機械翻訳の分野で主流の評価手法 本研究では BLEU を用いて評価する
  13. 21 結果 ベース ライン Type1 Type2 Type3 Type4 Type5 0.3

    0.31 0.32 0.33 0.34 0.35 0.36 0.37 句の表記 クラスタリング 5 句の品詞ひとつ 句の品詞ふたつ 歪みモデルの種類 BLEU スコア
  14. 22 考察(1/2) • Type1 と Type 2 で BLEU スコアが上昇

    • Type 3 以降はスコアが落ちる – 句の表記はバリエーションが非常に多い – 句の品詞は50種類 – 頻度が足りない → 20000文しか学習していない – クラスタリングは全ての句のクラスを得られていない
  15. 23 結果 ベース ライン Type1 Type2 Type3 Type4 Type5 0.3

    0.31 0.32 0.33 0.34 0.35 0.36 0.37 句の表記 クラスタリング 5 句の品詞ひとつ 句の品詞ふたつ 歪みモデルの種類 BLEU スコア
  16. 24 考察(2/2) • 句の表記の Type 5 が Type 4 より良い

    → Type 5 で考慮している、次に翻訳する句が重要? 歪みモデルで考慮する因子の再検討が必要 • 長い文の句対応付けが難しい – 与えられた翻訳先言語に矛盾しない対応付けが必要 – 膨大な計算量 – 文を短く分けて対応付ける
  17. 27 関連研究 • (Tillmann ら, ACL-2005) – Left, Right, Neutral

    • 本研究 – 正順、逆順、正順間隙あり、逆順間隙ありの4値 – 品詞とクラスタリングによる句の汎化
  18. 28 日英翻訳結果 i 'd like to call the japanese embassy

    . where is the money exchange ? i have the chills . please drop me at here . i 'd like to get off here . is there a tour ? i think a large blue suitcase . how much is admission ? cute . i like it . may i try this ? let 's go together . i left my airline ticket at home . where is the opera 座?
  19. 29 中英翻訳結果 may i have a table ? please move

    me to a more light . i want to go here . which wine is sweet ? sure . i called and i made a hotel for 圓協 yesterday my 宴訳 see . under i see . i need 雨璃櫛 how long ? at street go continue what you mean ? how many more hours to narita ? a television set broken . i think . it 's a little 詰鯛 秤偖 i 'd like to see this .
  20. 30 クラス数 BLEU ベース ライン Type1 Type2 Type3 Type4 Type5

    0.3 0.31 0.32 0.33 0.34 0.35 0.36 0.37 クラス数 5 クラス数 10 クラス数 20 クラス数 30 歪みモデルの種類 BLEU スコア
  21. 31 N-best BLEU ベース ライン Type1 Type2 Type3 Type4 Type5

    0.3 0.31 0.32 0.33 0.34 0.35 0.36 0.37 5-best 10-best 20-best 40-best 100-best 歪みモデルの種類 BLEU スコア
  22. 32 中英翻訳 BLEU ベース ライン Type1 Type2 Type3 Type4 Type5

    0.28 0.29 0.3 0.31 0.32 0.33 0.34 0.35 句の表記 クラスタリング 20 句の品詞ひとつ 句の品詞ふたつ 歪みモデルの種類 BLEU スコア
  23. 33 Ppicker BLEU ベース ライン Type1 Type2 Type3 Type4 Type5

    0.35 0.36 0.37 0.38 0.39 0.4 0.41 0.42 0.43 0.44 0.45 句の表記 クラスタリング 20 句の品詞ひとつ 句の品詞ふたつ 歪みモデルの種類 BLEU スコア
  24. 34 句の抽出改善 BLEU ベース ライン Type1 Type2 Type3 Type4 Type5

    0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.4 0.41 0.42 grow-diag-final intersect grow-diag-final- edict ppicker 歪みモデルの種類 BLEU スコア
  25. 36 品詞への依存(英語側) 順位 1 2 3 4 正順(%) 正順間隙あり(%) 冠詞(24)

    冠詞(23) 代名詞(18) 名詞(19) 名詞(17) 前置詞(12) 動詞(12) 代名詞(11) • (大橋ら, 2005) • 冠詞、代名詞、名詞で約60% • 正順間隙ありでは前置詞が上位に
  26. 句の抽出 言語 は コミュニ ケーション の 道具 で ある language

    is a means commu- nication of 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of 日英方向の対応付け 英日方向の対応付け (言語,language) (の,of) (コミュニケーション,communication) (の道具, a means of) (コミュニケーションの, of communication) (言語は, language is) (コミュニケーションの道具, a means of communication) 積集合 和集合 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of (の道具である, a means of)
  27. 句の抽出の改善 積集合 和集合 言語 は コミュニ ケーション の 道具 で

    ある language is a means commu- nication of 英和・和英辞典に載っている 単語対は積集合として扱う → より確実に句を抽出 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of 道具 means しかし、積集合に入っていない
  28. 39 デコーダ(1/2) • どの順に翻訳すれば良いか • セールスマン巡回問題 → NP完全問題 • 翻訳文を文頭から生成していくという制約

    Language is a means of communication . 言語 言葉 言語 は 言語 は 道具 です 道具 の コミュニケーション コミュニケーション の コミュニケーション の 道具 ひとつの 手段 方法 英日翻訳
  29. 40 デコーダ(2/2) • ワードグラフ(word graph) start 言 語 は は

    翻訳入力 “Language is a means of communication .” goal 1000000 言 語 言葉 は 通信の コミュニケーションの コ ミュ ニ ケ ー シ ョン の 通信の コミュニケーションの 1000000 1100000 1100000 1100000 1100110 1100110 1100110 1100110         通 信 の 1111110 道 具 だ 道具だ 1111110 道 具         道具 1111111 1111111 1111111 。 で す 。 。
  30. 41 単語に基づいた翻訳モデル 歪み確率 直前に翻訳した語の位置と、次に翻訳する語の位置の 相対的な差を考慮 言語 は コミュニケーション の 道具

    で ある Language is a means of communication 英日翻訳 1 2 3 4 5 6 次 直前 4-5=-1 d  j− j '∣classe i−1 ,class f i 
  31. 42 言語モデル • ある言語らしさを表すモデル • N-gram モデル(マルコフモデル)を用いる – 直前の N-1

    単語が、その次に来る単語に影響する 2-gram による “私 は 学生 です 。” の生起確率 P(私) × P(は|私) × P(学生|は) × P(です|学生)× P(。|です) • 単純だが有効なモデルとして用いられている