句の翻訳順序パタンを考慮した統計的機械翻訳モデル

 句の翻訳順序パタンを考慮した統計的機械翻訳モデル

大橋 一輝、山本 和英、齋藤 邦子、永田 昌明. 句の翻訳順序パタンを考慮した統計的機械翻訳モデル. 言語処理学会第12回年次大会, pp.857-860 (2006.3)

Transcript

  1. 1 句の翻訳順序パタンを考慮した 統計的機械翻訳モデル 大橋 一輝1 山本和英1 齋藤邦子2 永田昌明2 長岡技術科学大学1 NTTサイバースペース研究所2

  2. 2 全体の流れ • 句に基づいた翻訳モデル • 従来の歪み確率モデル • 提案する歪み確率モデル • 実験

  3. 3 句に基づいた翻訳モデル • 統計的機械翻訳の研究の主流 • 局所的な語の順序を間違えにくい • 大局的な句の順序を間違えやすい • 語順が大きく異なる言語間の翻訳は難しい

    → 大局的な句の順序の精度を上げたい
  4. 4 句に基づいた翻訳モデル • 翻訳元言語文 e と翻訳先言語文 j → I 個の句に分解される

    p  e 1 I∣ j 1 I =∏ i=1 I  e i ∣ j i d a i −b i−1   e i ∣ j i  d a i −b i−1  翻訳確率 歪み確率
  5. 5 句に基づいた翻訳モデル • 翻訳元言語文 e と翻訳先言語文 j → I 個の句に分解される

    p  e 1 I∣ j 1 I =∏ i=1 I  e i ∣ j i d a i −b i−1   e i ∣ j i  d a i −b i−1  翻訳確率 歪み確率
  6. 6 全体の流れ • 句に基づいた歪みモデル • 従来の歪み確率モデル • 提案する歪み確率モデル • 実験

  7. 7 従来の歪み確率モデル 歪み確率…直前に翻訳した句の右端の位置と、次に翻 訳する句の左端の位置の差の絶対値を考慮 → これだけでは語順の違いを表現できない 言語 は コミュニケーション の 道具

    Language is a means of communication 英日翻訳 1 2 3 4 5 6 次 直前 |6-4|=2
  8. 8 全体の流れ • 句に基づいた歪みモデル • 従来の歪み確率モデル • 提案する歪み確率モデル • 実験

  9. 9 提案する歪み確率モデル • 翻訳順序の4つのパタン d • パタンの発生に影響する4つの因子 pd∣  e

    i−1 ,  e i ,  f i−1 ,  f i 
  10. 10 翻訳順序パタン • 直前に “ツインを二” を翻訳した • 次に翻訳するべき句はどれ? → “ツインを二”

    から見てどの位置の句? ツインを二 予約 I'd like to two twin <s> <s> </s> したいのですが reserve 部屋 直前 日英翻訳
  11. ツインを二 予約 I'd like to two twin <s> <s> </s>

    したいのですが reserve 部屋 rooms 正順 直前 次 翻訳順序パタン(正順・正順間隙あり) 文頭から文末方向で間が開いている ツインを二 予約 I'd like to <s> <s> </s> したいのですが 部屋 正順間隙あり 直前 次 日英翻訳 文頭から文末方向で間が開いていない
  12. ツインを二 予約 I'd like to <s> <s> </s> したいのですが reserve

    部屋 逆順 直前 次 翻訳順序パタン(逆順・逆順間隙あり) 文末から文頭方向で間が開いていない ツインを二 予約 I'd like to two twin <s> <s> </s> したいのですが reserve 部屋 逆順間隙あり 直前 次 日英翻訳 文末から文頭方向で間が開いている
  13. 提案する歪み確率モデル • パタンに影響する因子 pd∣ f i  pd∣  e

    i−1 ,  f i  pd  pd∣  e i−1 ,  f i−1 ,  f i  pd∣  e i−1 ,  e i ,  f i−1 ,  f i  Type1: Type2: Type3: Type4: Type5: 翻訳元言語 翻訳先言語  e i−1  f i−1  f i  e i ツインを二 予約 I'd like to two twin <s> <s> </s> したいのですが reserve 部屋 rooms 正順 直前 次  e i−1  e i  f i−1  f i 語に基づく翻訳モデルにおける 歪みモデルとのアナロジー d  j− j'∣classe i−1 ,class f j  d  j− j'∣class f j 
  14. 14 歪みモデルの構築 • 対訳文の対応付け • 制約をかけたデコーダを用いる – 翻訳元言語、翻訳先言語の両方が与えられている → 翻訳先言語と矛盾する仮説は探索しない

    – N-best を出力 • パタンの頻度からモデルを構築 言語 は コミュニケーション の 道具 で ある Language is a means of communication
  15. 15 歪みモデルの汎化 • Type3 正順 「do you see」 「あそこ に

    ある レストラン」 0.5 逆順 「do you see」 「あそこ に ある レストラン」 0.5 • 句の表記を使うと頻度が少ない → 句を分類 – 句の品詞 – クラスタリング pd∣  e i−1 ,  f i 
  16. 16 句の品詞 • 語順に影響するであろう単語の品詞を使う – 英語と中国語は句の先頭の単語の品詞 – 日本語は句の末尾の単語の品詞 • 信号

    は 助詞 • the light 冠詞 • 句の先頭と末尾の品詞を使う – 言語に依存しない • 信号 は 名詞-助詞
  17. 17 句のクラスタリング • mkcls を用いてクラスタリング – 単語クラスタリングツール – 句対応付けの N-best

    を単語として扱う “what kind of sport” “facilities do you have ?” “どんなスポーツ” “施設がありますか。” “what kind of” “sport facilities do you have ?” “どんな” “スポーツ施設がありますか”
  18. 18 全体の流れ • 句に基づいた歪みモデル • 従来の歪み確率モデル • 提案する歪み確率モデル • 実験

  19. 19 実験 • 日英翻訳 • IWSLT 2005(International Workshop on Spoken

    Language Translation) – 多言語話し言葉翻訳技術の国際ワークショップ – 旅行会話対訳文 20000対 – 開発セット 500文(CSTAR 2003) – テストセット 500文(IWSLT 2004)
  20. 20 評価 • 自動評価指標 BLEU – 翻訳結果の正解例との類似度を計算 – 人間の評価に近いという報告 –

    統計的機械翻訳の分野で主流の評価手法 本研究では BLEU を用いて評価する
  21. 21 結果 ベース ライン Type1 Type2 Type3 Type4 Type5 0.3

    0.31 0.32 0.33 0.34 0.35 0.36 0.37 句の表記 クラスタリング 5 句の品詞ひとつ 句の品詞ふたつ 歪みモデルの種類 BLEU スコア
  22. 22 考察(1/2) • Type1 と Type 2 で BLEU スコアが上昇

    • Type 3 以降はスコアが落ちる – 句の表記はバリエーションが非常に多い – 句の品詞は50種類 – 頻度が足りない → 20000文しか学習していない – クラスタリングは全ての句のクラスを得られていない
  23. 23 結果 ベース ライン Type1 Type2 Type3 Type4 Type5 0.3

    0.31 0.32 0.33 0.34 0.35 0.36 0.37 句の表記 クラスタリング 5 句の品詞ひとつ 句の品詞ふたつ 歪みモデルの種類 BLEU スコア
  24. 24 考察(2/2) • 句の表記の Type 5 が Type 4 より良い

    → Type 5 で考慮している、次に翻訳する句が重要? 歪みモデルで考慮する因子の再検討が必要 • 長い文の句対応付けが難しい – 与えられた翻訳先言語に矛盾しない対応付けが必要 – 膨大な計算量 – 文を短く分けて対応付ける
  25. 25 結論 • 新たな句の歪み確率モデルを提案、実装 • 従来のモデルよりも高いスコアが得られた

  26. 26 おわり

  27. 27 関連研究 • (Tillmann ら, ACL-2005) – Left, Right, Neutral

    • 本研究 – 正順、逆順、正順間隙あり、逆順間隙ありの4値 – 品詞とクラスタリングによる句の汎化
  28. 28 日英翻訳結果 i 'd like to call the japanese embassy

    . where is the money exchange ? i have the chills . please drop me at here . i 'd like to get off here . is there a tour ? i think a large blue suitcase . how much is admission ? cute . i like it . may i try this ? let 's go together . i left my airline ticket at home . where is the opera 座?
  29. 29 中英翻訳結果 may i have a table ? please move

    me to a more light . i want to go here . which wine is sweet ? sure . i called and i made a hotel for 圓協 yesterday my 宴訳 see . under i see . i need 雨璃櫛 how long ? at street go continue what you mean ? how many more hours to narita ? a television set broken . i think . it 's a little 詰鯛 秤偖 i 'd like to see this .
  30. 30 クラス数 BLEU ベース ライン Type1 Type2 Type3 Type4 Type5

    0.3 0.31 0.32 0.33 0.34 0.35 0.36 0.37 クラス数 5 クラス数 10 クラス数 20 クラス数 30 歪みモデルの種類 BLEU スコア
  31. 31 N-best BLEU ベース ライン Type1 Type2 Type3 Type4 Type5

    0.3 0.31 0.32 0.33 0.34 0.35 0.36 0.37 5-best 10-best 20-best 40-best 100-best 歪みモデルの種類 BLEU スコア
  32. 32 中英翻訳 BLEU ベース ライン Type1 Type2 Type3 Type4 Type5

    0.28 0.29 0.3 0.31 0.32 0.33 0.34 0.35 句の表記 クラスタリング 20 句の品詞ひとつ 句の品詞ふたつ 歪みモデルの種類 BLEU スコア
  33. 33 Ppicker BLEU ベース ライン Type1 Type2 Type3 Type4 Type5

    0.35 0.36 0.37 0.38 0.39 0.4 0.41 0.42 0.43 0.44 0.45 句の表記 クラスタリング 20 句の品詞ひとつ 句の品詞ふたつ 歪みモデルの種類 BLEU スコア
  34. 34 句の抽出改善 BLEU ベース ライン Type1 Type2 Type3 Type4 Type5

    0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.4 0.41 0.42 grow-diag-final intersect grow-diag-final- edict ppicker 歪みモデルの種類 BLEU スコア
  35. 35 実験 • 翻訳確率モデル - Pharaoh-Training • 歪み確率モデル - 自作デコーダ

    • 言語モデル – Palmkit • デコーダ - 自作
  36. 36 品詞への依存(英語側) 順位 1 2 3 4 正順(%) 正順間隙あり(%) 冠詞(24)

    冠詞(23) 代名詞(18) 名詞(19) 名詞(17) 前置詞(12) 動詞(12) 代名詞(11) • (大橋ら, 2005) • 冠詞、代名詞、名詞で約60% • 正順間隙ありでは前置詞が上位に
  37. 句の抽出 言語 は コミュニ ケーション の 道具 で ある language

    is a means commu- nication of 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of 日英方向の対応付け 英日方向の対応付け (言語,language) (の,of) (コミュニケーション,communication) (の道具, a means of) (コミュニケーションの, of communication) (言語は, language is) (コミュニケーションの道具, a means of communication) 積集合 和集合 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of (の道具である, a means of)
  38. 句の抽出の改善 積集合 和集合 言語 は コミュニ ケーション の 道具 で

    ある language is a means commu- nication of 英和・和英辞典に載っている 単語対は積集合として扱う → より確実に句を抽出 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of 道具 means しかし、積集合に入っていない
  39. 39 デコーダ(1/2) • どの順に翻訳すれば良いか • セールスマン巡回問題 → NP完全問題 • 翻訳文を文頭から生成していくという制約

    Language is a means of communication . 言語 言葉 言語 は 言語 は 道具 です 道具 の コミュニケーション コミュニケーション の コミュニケーション の 道具 ひとつの 手段 方法 英日翻訳
  40. 40 デコーダ(2/2) • ワードグラフ(word graph) start 言 語 は は

    翻訳入力 “Language is a means of communication .” goal 1000000 言 語 言葉 は 通信の コミュニケーションの コ ミュ ニ ケ ー シ ョン の 通信の コミュニケーションの 1000000 1100000 1100000 1100000 1100110 1100110 1100110 1100110         通 信 の 1111110 道 具 だ 道具だ 1111110 道 具         道具 1111111 1111111 1111111 。 で す 。 。
  41. 41 単語に基づいた翻訳モデル 歪み確率 直前に翻訳した語の位置と、次に翻訳する語の位置の 相対的な差を考慮 言語 は コミュニケーション の 道具

    で ある Language is a means of communication 英日翻訳 1 2 3 4 5 6 次 直前 4-5=-1 d  j− j '∣classe i−1 ,class f i 
  42. 42 言語モデル • ある言語らしさを表すモデル • N-gram モデル(マルコフモデル)を用いる – 直前の N-1

    単語が、その次に来る単語に影響する 2-gram による “私 は 学生 です 。” の生起確率 P(私) × P(は|私) × P(学生|は) × P(です|学生)× P(。|です) • 単純だが有効なモデルとして用いられている