翻訳順序パタンを考慮した統計的機械翻訳モデル

 翻訳順序パタンを考慮した統計的機械翻訳モデル

大橋 一輝. 翻訳順序パタンを考慮した統計的機械翻訳モデル. 長岡技術科学大学修士論文 (2006.3)

Transcript

  1. 1 翻訳順序パタンを考慮した 統計的機械翻訳モデル 電気電子情報工学専攻 山本研究室 04531289 大橋 一輝

  2. 2 全体の流れ • 統計的機械翻訳とは • 従来の歪み確率モデル • 提案する歪み確率モデル • 実験

  3. 3 統計的機械翻訳とは(1/2) • 1990年代前半にIBM研究所から提案 • 短期間に低コストで翻訳システムを構築可能 • 言語に依存しない – 日英、英日、中英、独英、仏英、英仏、・・・

    I am a student . 我 是 学生 . Ich bin ein Kursteilnehmer . 私 は 学生 です 。
  4. 4 統計的機械翻訳とは(2/2) • 「対訳文」を大量に学習 “I am a student .” “私

    は 学生 です 。” “I am a teacher .” “私 は 先生 です 。” “He is a student .” “彼 は 学生 です 。” … – 公用語が複数ある国の国会議事録(ハンザード) – 辞書の例文 – 世界規模で配信されているニュース記事
  5. 5 ノイズのある通信路モデル • 英日翻訳のとき 言語モデル…日本語らしさを表す 翻訳モデル…言語間の翻訳を表す デコーダ …モデルの確率が最大となる文を探索する 情報源モデル (言語モデル)

    通信路モデル (翻訳モデル) デコーダ 日本語 英語 英語 日本語 P(j) P(e|j) arg max P(j|e) = arg max P(j)P(e|j)
  6. 6 ノイズのある通信路モデル • 英日翻訳のとき 言語モデル…日本語らしさを表す 翻訳モデル…言語間の翻訳を表す デコーダ …モデルの確率が最大となる文を探索する 情報源モデル (言語モデル)

    通信路モデル (翻訳モデル) デコーダ 日本語 英語 英語 日本語 P(j) P(e|j) arg max P(j|e) = arg max P(j)P(e|j)
  7. 7 言語モデル • ある言語らしさを表すモデル • N-gram モデル(マルコフモデル)を用いる – 直前の N-1

    単語が、その次に来る単語に影響する 2-gram による “私 は 学生 です 。” の生起確率 P(私) × P(は|私) × P(学生|は) × P(です|学生)× P(。|です) • 単純だが有効なモデルとして用いられている
  8. 8 翻訳モデル • 語に基づいたモデルから句に基づいたモデルへ • 句に基づいた翻訳モデルが研究の主流 • 局所的な語の順序を間違えにくい • 大局的な句の順序を間違えやすい

    • 語順が大きく異なる言語間の翻訳は難しい → 大局的な句の順序の精度を上げたい
  9. 9 句に基づいた翻訳モデル(1/4) I am a Japanese student 語に基づいたモデル Japanese 日本の

    日本人 日本製の 日本 翻訳元言語の文 句に基づいたモデル Japanese student 日本の学生 日本人学生 • 局所的な語の順序を間違えにくい 英日翻訳
  10. 10 句に基づいた翻訳モデル(2/4) • 翻訳元言語文 e は句 に分解される • 翻訳先言語文 j

    は句 に分解される argmax j pe∣j p j  e 1 I p  e 1 I∣ j 1 I =∏ i=1 I  e i ∣ j i d a i −b i−1   e i ∣ j i  d a i −b i−1  翻訳確率 歪み確率  j 1 I ノイズのある通信路モデル
  11. 11 句に基づいた翻訳モデル(3/4) • 翻訳確率 – 相対確率 頻度 確率 あなた は

    and you 2 0.1 あなた は do you 3 0.15 あなた は how about you 5 0.25 あなた は you 10 0.5  e∣ j= count  e , j ∑  e count  e , j
  12. 12 句に基づいた翻訳モデル(4/4) 歪み確率…直前に翻訳した句の右端の位置と、次に翻 訳する句の左端の位置の差の絶対値を考慮 → これだけでは語順の違いを表現できない 言語 は コミュニケーション の 道具

    Language is a means of communication 英日翻訳 1 2 3 4 5 6 次 直前 |6-4|=2
  13. 13 モデルの構築 • 言語モデル – 対訳文の翻訳先言語側の 3-gram • 翻訳モデル –

    GIZA++ を用いて単語の対応付け – 対訳文から句を抽出 – 相対確率
  14. 句の抽出(1/4) 言語 は コミュニ ケーション の 道具 で ある language

    is a means commu- nication of 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of 日英方向の対応付け 英日方向の対応付け 積集合 和集合 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of
  15. 句の抽出(2/4) 言語 は コミュニ ケーション の 道具 で ある language

    is a means commu- nication of 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of 日英方向の対応付け 英日方向の対応付け (言語,language) (の,of) (コミュニケーション,communication) (の道具, a means of) (コミュニケーションの, of communication) 積集合 和集合 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of
  16. 句の抽出(3/4) 言語 は コミュニ ケーション の 道具 で ある language

    is a means commu- nication of 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of 日英方向の対応付け 英日方向の対応付け (言語,language) (の,of) (コミュニケーション,communication) (の道具, a means of) (コミュニケーションの, of communication) (言語は, language is) (コミュニケーションの道具, a means of communication) 積集合 和集合 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of (の道具である, a means of)
  17. 句の抽出の改善 積集合 和集合 言語 は コミュニ ケーション の 道具 で

    ある language is a means commu- nication of 英和・和英辞典に載っている 単語対は積集合として扱う → より確実に句を抽出 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of 道具 means しかし、積集合に入っていない
  18. 18 ノイズのある通信路モデル • 英日翻訳のとき 言語モデル…日本語らしさを表す 翻訳モデル…言語間の翻訳を表す デコーダ …モデルの確率が最大となる文を探索する 情報源モデル (言語モデル)

    通信路モデル (翻訳モデル) デコーダ 日本語 英語 英語 日本語 P(j) P(e|j) arg max P(j|e) = arg max P(j)P(e|j)
  19. 19 デコーダ(1/4) • どの順に翻訳すれば良いか • セールスマン巡回問題 → NP完全問題 • 翻訳文を文頭から生成していくという制約

    Language is a means of communication . 言語 言葉 言語 は 言語 は 道具 です 道具 の コミュニケーション コミュニケーション の コミュニケーション の 道具 ひとつの 手段 方法 英日翻訳
  20. 20 デコーダ(2/4) • 前向きビーム探索でワードグラフを作成

  21. 21 デコーダ(3/4) • ワードグラフ(word graph) start 言 語 は は

    翻訳入力 “Language is a means of communication .” goal 1000000 言 語 言葉 は 通信の コミュニケーションの コ ミュ ニ ケ ー シ ョン の 通信の コミュニケーションの 1000000 1100000 1100000 1100000 1100110 1100110 1100110 1100110         通 信 の 1111110 道 具 だ 道具だ 1111110 道 具         道具 1111111 1111111 1111111 。 で す 。 。
  22. 22 デコーダ(4/4) • 前向きビーム探索でワードグラフを作成 • 後ろ向き A* 探索で上位 N-best の解を出力

    – 前向き探索の段階でノードまでのコストは計算済み – A* 探索の予測確率が確実
  23. 23 全体の流れ • 統計的機械翻訳とは • 従来の歪み確率モデル • 提案する歪み確率モデル • 実験

  24. 24 従来の歪み確率モデル 歪み確率…直前に翻訳した句の右端の位置と、次に翻 訳する句の左端の位置の差の絶対値を考慮 → これだけでは語順の違いを表現できない 言語 は コミュニケーション の 道具

    Language is a means of communication 英日翻訳 1 2 3 4 5 6 次 直前 |6-4|=2
  25. 25 全体の流れ • 統計的機械翻訳とは • 従来の歪み確率モデル • 提案する歪み確率モデル • 実験

  26. 26 提案する歪み確率モデル • 翻訳順序の4つのパタン d • パタンの発生に影響する4つの因子 pd∣  e

    i−1 ,  e i ,  f i−1 ,  f i 
  27. 27 翻訳順序パタン • 直前に “ツインを二” を翻訳した • 次に翻訳するべき句はどれ? → “ツインを二”

    から見てどの位置の句? ツインを二 予約 I'd like to two twin <s> <s> </s> したいのですが reserve 部屋 直前 日英翻訳
  28. ツインを二 予約 I'd like to two twin <s> <s> </s>

    したいのですが reserve 部屋 rooms 正順 直前 次 翻訳順序パタン(正順・正順間隙あり) – 文頭から文末方向で間が開いていない – 文頭から文末方向で間が開いている ツインを二 予約 I'd like to <s> <s> </s> したいのですが 部屋 正順間隙あり 直前 次 日英翻訳
  29. ツインを二 予約 I'd like to <s> <s> </s> したいのですが reserve

    部屋 逆順 直前 次 翻訳順序パタン(逆順・逆順間隙あり) – 文末から文頭方向で間が開いていない – 文末から文頭方向で間が開いている ツインを二 予約 I'd like to two twin <s> <s> </s> したいのですが reserve 部屋 逆順間隙あり 直前 次 日英翻訳
  30. 提案する歪み確率モデル • パタンに影響する因子 pd∣ f i  pd∣  e

    i−1 ,  f i  pd  pd∣  e i−1 ,  f i−1 ,  f i  pd∣  e i−1 ,  e i ,  f i−1 ,  f i  Type1: Type2: Type3: Type4: Type5: 翻訳元言語 翻訳先言語  e i−1  f i−1  f i  e i ツインを二 予約 I'd like to two twin <s> <s> </s> したいのですが reserve 部屋 rooms 正順 直前 次  e i−1  e i  f i−1  f i 語に基づく翻訳モデルにおける 歪みモデルとのアナロジー d  j− j'∣classe i−1 ,class f j  d  j− j'∣class f j 
  31. 31 歪みモデルの構築(1/2) • 対訳文の対応付けをする • 対応付けがあれば翻訳順序のパタンがわかる • パタンの頻度からモデルを構築 言語 は

    コミュニケーション の 道具 で ある Language is a means of communication
  32. 32 歪みモデルの構築(2/2) • 制約をかけたデコーダを用いる – 翻訳元言語、翻訳先言語の両方が与えられている → 翻訳先言語と矛盾する仮説は探索しない – N-best

    を出力 言語 は コミュニケーション の Language is a means of communication 道具 で ある
  33. 33 歪みモデルの例 • Type 1 -1|0.207|77613 -2|0.0834|31261 1|0.401|150382 2|0.308|115537 •

    Type 3 -1 あいつ を 捕まえ て .|0.4|2 -1 あそこ for the two girls|1|2 -1 あそこ we can buy cds cheaper|1|1 -1 あそこ に ある レストラン do you see|1|1 pd∣  e i−1 ,  f i  pd 
  34. 34 歪みモデルの汎化 • 句の表記を使うと頻度が少ない – Type3 -1 あそこ に ある

    レストラン do you see|1|1 • 句を分類 – 句の品詞 – クラスタリング pd∣  e i−1 ,  f i 
  35. 35 句の品詞 • (Ohashi, IWSLT 2005) • 語順に影響するであろう単語の品詞を使う – 英語と中国語は句の先頭の単語の品詞

    – 日本語は句の末尾の単語の品詞 • 信号 は 助詞 • the light 冠詞 • 句の先頭と末尾の品詞を使う – 言語に依存しない • 信号 は 名詞-助詞
  36. 36 句のクラスタリング • 句の対応付けの N-best を用いる • mkcls を用いてクラスタリング –

    GIZA++ に付属している単語クラスタリングツール – 単語の 2-gram を元にクラスタリング – 句を単語として扱う “ツイン を 二 部屋 、” “予約 し たい の です が” “。” “ツイン を 二 部屋 、 予約 し” “たい の です が” “。” “ツイン を 二 部屋 、” “予約 し” “たい の です が” “。”
  37. 37 全体の流れ • 統計的機械翻訳とは • 従来の歪み確率モデル • 提案する歪み確率モデル • 実験

  38. 38 実験(1/3) • 日英翻訳 • IWSLT 2005(International Workshop on Spoken

    Language Translation) – 多言語話し言葉翻訳技術の国際ワークショップ – 旅行会話対訳文 20000対 – 開発セット 500文 – テストセット 500文
  39. 39 実験(2/3) • 翻訳確率モデル - Pharaoh-Training • 歪み確率モデル - 自作デコーダ

    • 言語モデル – Palmkit • デコーダ - 自作
  40. 40 実験(3/3) • 予定 • 中英翻訳 • 日英の対訳文78万文 – 日英新聞記事対応付けデータ(JENAAD)

    15万文 – 辞書例文 55万分 – 技術文献 8万文 • Pharaoh-Training はモデルが200GB以上に → 対策が必要
  41. 41 評価(1/2) • 翻訳結果を人が評価する – 大きなコスト – 評価者によるゆれ • 自動評価指標

    BLEU – 翻訳結果の正解例との類似度を計算 – 人間の評価に近いという報告 – 統計的機械翻訳の分野で主流の評価手法 本研究では BLEU を用いて評価する
  42. 42 評価(2/2) • PN : 翻訳結果と正解例で単語 N-gram が一 致する割合 •

    BP : 文が短いときのペナルティ • 1-gram から N-gram の幾何平均 • N=4 が人の評価との相関が高い BLEU =BP×∏ n=1 N P N 1/ N
  43. 43 結果 ベース ライン Type1 Type2 Type3 Type4 Type5 0.3

    0.31 0.32 0.33 0.34 0.35 0.36 0.37 句の表記 クラスタリング 5 句の品詞ひとつ 句の品詞ふたつ 歪みモデルの種類 BLEU スコア
  44. 44 考察(1/2) • Type1 と Type 2 で BLEU スコアが上昇

    • Type 3 以降は落ちる – スパースネス – 句の表記はバリエーションが非常に多い – 句の品詞は30個 → まだ20000文しか学習していない – 句の表記の Type 5 のスコアが Type 4 より良い → Type 5 で考慮している、次に翻訳する句が重要?
  45. 45 考察(2/2) • Type 3 以降は落ちる – クラスタリングには上位 N-best の対応付けを使用

    – N-best に入らない句はクラスを得られない → すべての句をクラスタリングできる手法へ
  46. 46 結果(予定) • パラメータを変える – N-best の数 – クラスタリング数 –

    歪みモデル構築におけるデコーダのパラメータ • 句の抽出改善の効果
  47. 47 結論 • 新たな句の歪み確率モデルを提案、実装 • 従来のモデルよりも高いスコアが得られた

  48. 48 おわり

  49. 49 単語に基づいた翻訳モデル • 翻訳確率t(j|e) – I 私 0.5 • 繁殖数確率n(

    |e) φ – “Japanese” は “日本 の” という2語になりやすい – Japanese が日本語で一語になる確率 0.2 – Japanese が日本語で二語になる確率 0.79 – Japanese が日本語で三語になる確率 0.01 • 歪み確率 d  j− j '∣classe i−1 ,class f i 
  50. 50 単語に基づいた翻訳モデル 歪み確率 直前に翻訳した語の位置と、次に翻訳する語の位置の 相対的な差を考慮 言語 は コミュニケーション の 道具

    で ある Language is a means of communication 英日翻訳 1 2 3 4 5 6 次 直前 4-5=-1 d  j− j '∣classe i−1 ,class f i 
  51. 51 単語に基づいた翻訳モデル • EMアルゴリズム – 反復改善法によりパラメタを最尤推定 – 初期値に依存する最大値へ収束 • 手順

    – 初期値を設定 – 各パラメタの頻度を求める – 頻度に比例する値で各パラメタを更新する
  52. 52 品詞への依存(英語側) 順位 1 2 3 4 正順(%) 正順間隙あり(%) 冠詞(24)

    冠詞(23) 代名詞(18) 名詞(19) 名詞(17) 前置詞(12) 動詞(12) 代名詞(11) • (大橋ら, 2005) • • • • • • 冠詞、代名詞、名詞で約60% • 正順間隙ありでは前置詞が上位に
  53. 53 ツール • 形態素解析 – 日本語 ChaSen – 英語 tokenizer.sed

    • 品詞タグ付け – 日本語 ChaSen(品詞第2階層まで) – 英語 MXPOST
  54. 54 Pharaoh • バイナリが公開されているデコーダ • 句に基づいた翻訳モデルを採用 • 歪み確率 p D

    =exp−∑ i d i  言語 は コミュニケーション の 道具 Language is a means of communication 英日翻訳 1 2 3 4 5 6 次 直前 d=|6-4|=2