Upgrade to Pro — share decks privately, control downloads, hide ads and more …

翻訳順序パタンを考慮した統計的機械翻訳モデル

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 翻訳順序パタンを考慮した統計的機械翻訳モデル

大橋 一輝. 翻訳順序パタンを考慮した統計的機械翻訳モデル. 長岡技術科学大学修士論文 (2006.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 4 統計的機械翻訳とは(2/2) • 「対訳文」を大量に学習 “I am a student .” “私

    は 学生 です 。” “I am a teacher .” “私 は 先生 です 。” “He is a student .” “彼 は 学生 です 。” … – 公用語が複数ある国の国会議事録(ハンザード) – 辞書の例文 – 世界規模で配信されているニュース記事
  2. 7 言語モデル • ある言語らしさを表すモデル • N-gram モデル(マルコフモデル)を用いる – 直前の N-1

    単語が、その次に来る単語に影響する 2-gram による “私 は 学生 です 。” の生起確率 P(私) × P(は|私) × P(学生|は) × P(です|学生)× P(。|です) • 単純だが有効なモデルとして用いられている
  3. 9 句に基づいた翻訳モデル(1/4) I am a Japanese student 語に基づいたモデル Japanese 日本の

    日本人 日本製の 日本 翻訳元言語の文 句に基づいたモデル Japanese student 日本の学生 日本人学生 • 局所的な語の順序を間違えにくい 英日翻訳
  4. 10 句に基づいた翻訳モデル(2/4) • 翻訳元言語文 e は句 に分解される • 翻訳先言語文 j

    は句 に分解される argmax j pe∣j p j  e 1 I p  e 1 I∣ j 1 I =∏ i=1 I  e i ∣ j i d a i −b i−1   e i ∣ j i  d a i −b i−1  翻訳確率 歪み確率  j 1 I ノイズのある通信路モデル
  5. 11 句に基づいた翻訳モデル(3/4) • 翻訳確率 – 相対確率 頻度 確率 あなた は

    and you 2 0.1 あなた は do you 3 0.15 あなた は how about you 5 0.25 あなた は you 10 0.5  e∣ j= count  e , j ∑  e count  e , j
  6. 13 モデルの構築 • 言語モデル – 対訳文の翻訳先言語側の 3-gram • 翻訳モデル –

    GIZA++ を用いて単語の対応付け – 対訳文から句を抽出 – 相対確率
  7. 句の抽出(1/4) 言語 は コミュニ ケーション の 道具 で ある language

    is a means commu- nication of 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of 日英方向の対応付け 英日方向の対応付け 積集合 和集合 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of
  8. 句の抽出(2/4) 言語 は コミュニ ケーション の 道具 で ある language

    is a means commu- nication of 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of 日英方向の対応付け 英日方向の対応付け (言語,language) (の,of) (コミュニケーション,communication) (の道具, a means of) (コミュニケーションの, of communication) 積集合 和集合 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of
  9. 句の抽出(3/4) 言語 は コミュニ ケーション の 道具 で ある language

    is a means commu- nication of 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of 日英方向の対応付け 英日方向の対応付け (言語,language) (の,of) (コミュニケーション,communication) (の道具, a means of) (コミュニケーションの, of communication) (言語は, language is) (コミュニケーションの道具, a means of communication) 積集合 和集合 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of (の道具である, a means of)
  10. 句の抽出の改善 積集合 和集合 言語 は コミュニ ケーション の 道具 で

    ある language is a means commu- nication of 英和・和英辞典に載っている 単語対は積集合として扱う → より確実に句を抽出 言語 は コミュニ ケーション の 道具 で ある language is a means commu- nication of 道具 means しかし、積集合に入っていない
  11. 19 デコーダ(1/4) • どの順に翻訳すれば良いか • セールスマン巡回問題 → NP完全問題 • 翻訳文を文頭から生成していくという制約

    Language is a means of communication . 言語 言葉 言語 は 言語 は 道具 です 道具 の コミュニケーション コミュニケーション の コミュニケーション の 道具 ひとつの 手段 方法 英日翻訳
  12. 21 デコーダ(3/4) • ワードグラフ(word graph) start 言 語 は は

    翻訳入力 “Language is a means of communication .” goal 1000000 言 語 言葉 は 通信の コミュニケーションの コ ミュ ニ ケ ー シ ョン の 通信の コミュニケーションの 1000000 1100000 1100000 1100000 1100110 1100110 1100110 1100110         通 信 の 1111110 道 具 だ 道具だ 1111110 道 具         道具 1111111 1111111 1111111 。 で す 。 。
  13. 22 デコーダ(4/4) • 前向きビーム探索でワードグラフを作成 • 後ろ向き A* 探索で上位 N-best の解を出力

    – 前向き探索の段階でノードまでのコストは計算済み – A* 探索の予測確率が確実
  14. 27 翻訳順序パタン • 直前に “ツインを二” を翻訳した • 次に翻訳するべき句はどれ? → “ツインを二”

    から見てどの位置の句? ツインを二 予約 I'd like to two twin <s> <s> </s> したいのですが reserve 部屋 直前 日英翻訳
  15. ツインを二 予約 I'd like to two twin <s> <s> </s>

    したいのですが reserve 部屋 rooms 正順 直前 次 翻訳順序パタン(正順・正順間隙あり) – 文頭から文末方向で間が開いていない – 文頭から文末方向で間が開いている ツインを二 予約 I'd like to <s> <s> </s> したいのですが 部屋 正順間隙あり 直前 次 日英翻訳
  16. ツインを二 予約 I'd like to <s> <s> </s> したいのですが reserve

    部屋 逆順 直前 次 翻訳順序パタン(逆順・逆順間隙あり) – 文末から文頭方向で間が開いていない – 文末から文頭方向で間が開いている ツインを二 予約 I'd like to two twin <s> <s> </s> したいのですが reserve 部屋 逆順間隙あり 直前 次 日英翻訳
  17. 提案する歪み確率モデル • パタンに影響する因子 pd∣ f i  pd∣  e

    i−1 ,  f i  pd  pd∣  e i−1 ,  f i−1 ,  f i  pd∣  e i−1 ,  e i ,  f i−1 ,  f i  Type1: Type2: Type3: Type4: Type5: 翻訳元言語 翻訳先言語  e i−1  f i−1  f i  e i ツインを二 予約 I'd like to two twin <s> <s> </s> したいのですが reserve 部屋 rooms 正順 直前 次  e i−1  e i  f i−1  f i 語に基づく翻訳モデルにおける 歪みモデルとのアナロジー d  j− j'∣classe i−1 ,class f j  d  j− j'∣class f j 
  18. 33 歪みモデルの例 • Type 1 -1|0.207|77613 -2|0.0834|31261 1|0.401|150382 2|0.308|115537 •

    Type 3 -1 あいつ を 捕まえ て .|0.4|2 -1 あそこ for the two girls|1|2 -1 あそこ we can buy cds cheaper|1|1 -1 あそこ に ある レストラン do you see|1|1 pd∣  e i−1 ,  f i  pd 
  19. 34 歪みモデルの汎化 • 句の表記を使うと頻度が少ない – Type3 -1 あそこ に ある

    レストラン do you see|1|1 • 句を分類 – 句の品詞 – クラスタリング pd∣  e i−1 ,  f i 
  20. 35 句の品詞 • (Ohashi, IWSLT 2005) • 語順に影響するであろう単語の品詞を使う – 英語と中国語は句の先頭の単語の品詞

    – 日本語は句の末尾の単語の品詞 • 信号 は 助詞 • the light 冠詞 • 句の先頭と末尾の品詞を使う – 言語に依存しない • 信号 は 名詞-助詞
  21. 36 句のクラスタリング • 句の対応付けの N-best を用いる • mkcls を用いてクラスタリング –

    GIZA++ に付属している単語クラスタリングツール – 単語の 2-gram を元にクラスタリング – 句を単語として扱う “ツイン を 二 部屋 、” “予約 し たい の です が” “。” “ツイン を 二 部屋 、 予約 し” “たい の です が” “。” “ツイン を 二 部屋 、” “予約 し” “たい の です が” “。”
  22. 38 実験(1/3) • 日英翻訳 • IWSLT 2005(International Workshop on Spoken

    Language Translation) – 多言語話し言葉翻訳技術の国際ワークショップ – 旅行会話対訳文 20000対 – 開発セット 500文 – テストセット 500文
  23. 40 実験(3/3) • 予定 • 中英翻訳 • 日英の対訳文78万文 – 日英新聞記事対応付けデータ(JENAAD)

    15万文 – 辞書例文 55万分 – 技術文献 8万文 • Pharaoh-Training はモデルが200GB以上に → 対策が必要
  24. 41 評価(1/2) • 翻訳結果を人が評価する – 大きなコスト – 評価者によるゆれ • 自動評価指標

    BLEU – 翻訳結果の正解例との類似度を計算 – 人間の評価に近いという報告 – 統計的機械翻訳の分野で主流の評価手法 本研究では BLEU を用いて評価する
  25. 42 評価(2/2) • PN : 翻訳結果と正解例で単語 N-gram が一 致する割合 •

    BP : 文が短いときのペナルティ • 1-gram から N-gram の幾何平均 • N=4 が人の評価との相関が高い BLEU =BP×∏ n=1 N P N 1/ N
  26. 43 結果 ベース ライン Type1 Type2 Type3 Type4 Type5 0.3

    0.31 0.32 0.33 0.34 0.35 0.36 0.37 句の表記 クラスタリング 5 句の品詞ひとつ 句の品詞ふたつ 歪みモデルの種類 BLEU スコア
  27. 44 考察(1/2) • Type1 と Type 2 で BLEU スコアが上昇

    • Type 3 以降は落ちる – スパースネス – 句の表記はバリエーションが非常に多い – 句の品詞は30個 → まだ20000文しか学習していない – 句の表記の Type 5 のスコアが Type 4 より良い → Type 5 で考慮している、次に翻訳する句が重要?
  28. 45 考察(2/2) • Type 3 以降は落ちる – クラスタリングには上位 N-best の対応付けを使用

    – N-best に入らない句はクラスを得られない → すべての句をクラスタリングできる手法へ
  29. 46 結果(予定) • パラメータを変える – N-best の数 – クラスタリング数 –

    歪みモデル構築におけるデコーダのパラメータ • 句の抽出改善の効果
  30. 49 単語に基づいた翻訳モデル • 翻訳確率t(j|e) – I 私 0.5 • 繁殖数確率n(

    |e) φ – “Japanese” は “日本 の” という2語になりやすい – Japanese が日本語で一語になる確率 0.2 – Japanese が日本語で二語になる確率 0.79 – Japanese が日本語で三語になる確率 0.01 • 歪み確率 d  j− j '∣classe i−1 ,class f i 
  31. 50 単語に基づいた翻訳モデル 歪み確率 直前に翻訳した語の位置と、次に翻訳する語の位置の 相対的な差を考慮 言語 は コミュニケーション の 道具

    で ある Language is a means of communication 英日翻訳 1 2 3 4 5 6 次 直前 4-5=-1 d  j− j '∣classe i−1 ,class f i 
  32. 51 単語に基づいた翻訳モデル • EMアルゴリズム – 反復改善法によりパラメタを最尤推定 – 初期値に依存する最大値へ収束 • 手順

    – 初期値を設定 – 各パラメタの頻度を求める – 頻度に比例する値で各パラメタを更新する
  33. 52 品詞への依存(英語側) 順位 1 2 3 4 正順(%) 正順間隙あり(%) 冠詞(24)

    冠詞(23) 代名詞(18) 名詞(19) 名詞(17) 前置詞(12) 動詞(12) 代名詞(11) • (大橋ら, 2005) • • • • • • 冠詞、代名詞、名詞で約60% • 正順間隙ありでは前置詞が上位に
  34. 53 ツール • 形態素解析 – 日本語 ChaSen – 英語 tokenizer.sed

    • 品詞タグ付け – 日本語 ChaSen(品詞第2階層まで) – 英語 MXPOST
  35. 54 Pharaoh • バイナリが公開されているデコーダ • 句に基づいた翻訳モデルを採用 • 歪み確率 p D

    =exp−∑ i d i  言語 は コミュニケーション の 道具 Language is a means of communication 英日翻訳 1 2 3 4 5 6 次 直前 d=|6-4|=2