統計的機械翻訳における目的言語への直接的言い換えを用いた前編集

 統計的機械翻訳における目的言語への直接的言い換えを用いた前編集

竹元 勇太. 統計的機械翻訳における目的言語への直接的言い換えを用いた前編集. 長岡技術科学大学修士論文 (2010.3)

Transcript

  1. 1 電気電子情報工学専攻 山本研究室 08504889 竹元 勇太  統計的機械翻訳における  目的言語への直接的  言い換えを用いた前編集

  2. 2 発表の流れ • 背景 • フライング前編集 • 本研究の詳細 • 評価実験

  3. 3 • 目標 – 人手の負担を小さく、精度の高い機械翻訳を目指す      背景(1/3)

  4. 4 • 目標 – 人手の負担を小さく、精度の高い機械翻訳を目指す     人手の負担が小さい統計翻訳を使用 背景(1/3)

  5. 5 • 目標 – 人手の負担を小さく、精度の高い機械翻訳を目指す     人手の負担が小さい統計翻訳を使用 • 統計的機械翻訳の利点と欠点 –

    短期間に低コストで翻訳システムを構築可能 – 計算量や曖昧性の問題 背景(1/3)
  6. 6 • 目標 – 人手の負担を小さく、精度の高い機械翻訳を目指す     人手の負担が小さい統計翻訳を使用 • 統計的機械翻訳の利点と欠点 –

    短期間に低コストで翻訳システムを構築可能 – 計算量や曖昧性の問題 前編集を用いて統計翻訳の問題点を解決する 背景(1/3)
  7. 7 背景(2/3) • 機械翻訳のための前編集とは – 翻訳しにくい文を翻訳しやすい文へ換言すること

  8. 8 背景(2/3) • 機械翻訳のための前編集とは – 翻訳しにくい文を翻訳しやすい文へ換言すること • 前編集は換言規則の構築方法で2つに分類可能 – 規則に基づく手法

    [白井ら(93),吉見ら(01)] • 換言規則の信頼性が高い,人手の負担が大きい – 統計に基づく手法 [Callison-Burch et al.(06)] • 人手の負担が小さい,換言規則の信頼性が低い
  9. 9 背景(2/3) • 機械翻訳のための前編集とは – 翻訳しにくい文を翻訳しやすい文へ換言すること • 前編集は換言規則の構築方法で2つに分類可能 – 規則に基づく手法

    [白井ら(93),吉見ら(01)] • 換言規則の信頼性が高い,人手の負担が大きい – 統計に基づく手法 [Callison-Burch et al.(06)] • 人手の負担が小さい,換言規則の信頼性が低い 統計に基づく手法で換言規則の信頼性を考慮
  10. 10 背景(3/3) • 前編集の利点と欠点 – 表現を制限することで曖昧性を軽減 – 翻訳器との依存性が低いため応用性が高い – 換言語が予想した訳に翻訳されない場合がある

  11. 11 背景(3/3) • 前編集の利点と欠点 – 表現を制限することで曖昧性を軽減 – 翻訳器との依存性が低いため応用性が高い – 換言語が予想した訳に翻訳されない場合がある

      フライング前編集を提案 
  12. 12 発表の流れ • 背景 • フライング前編集 • 本研究の詳細 • 評価実験

  13. 13 同言語内換言規則:「過言→壮語」 前編集無し: ~であると言っても過言ではない。 翻訳結果: not that it was not

    a slip of the tongue. 同言語内前編集: ~であると言っても壮語ではない。 翻訳結果: not that it was not a big talk.  参照訳: It may be no exaggeration to say that. • 過言と壮語はexaggerationに翻訳されるべき • 既存手法では、必ずしも目的の語に翻訳されない 同言語内前編集の問題例 × ×
  14. 14 フライング換言規則:「過言→exaggeration」   前編集無し: ~であると言っても過言ではない。 翻訳結果: not that it was not

    a slip of the tongue. フライング前編集: ~であると言ってもexaggerationではない。 翻訳結果: It is no exaggeration to say that.  参照訳: It may be no exaggeration to say that. • 「過言」を直接「exaggeration」に換言 • 既存手法より計算量と曖昧性が軽減 提案するフライング前編集 × ◦
  15. 15 発表の流れ • 背景 • フライング前編集 • 本研究の詳細 • 評価実験

  16. 16 換言規則構築の流れ 原言語 コーパス 類義語辞書 換言文 統計翻訳 換言文の方が 翻訳精度が高い YES

    翻訳精度が 向上する 換言文対 フライング 換言規則 の構築 フライング 換言規則 換言規則 の選定 参照訳 翻訳モデル 選定した 換言規則 適用条件 の構築 フライング 換言規則 & 適用条件 換言文対の構築部 換言規則の構築部 NO 無処理 換言
  17. 17 換言規則構築の流れ 原言語 コーパス 類義語辞書 換言文 統計翻訳 換言文の方が 翻訳精度が高い YES

    翻訳精度が 向上する 換言文対 フライング 換言規則 の構築 フライング 換言規則 換言規則 の選定 参照訳 翻訳モデル 選定した 換言規則 適用条件 の構築 フライング 換言規則 & 適用条件 換言文対の構築部 換言規則の構築部 NO 無処理 換言
  18. 18 • 類義語による換言 • 換言後の翻訳精度が向上する換言文対を獲得   換言前: 彼は不機嫌そうな顔をした。  翻訳結果: He

    was a dour look.   換言後: 彼は不機嫌そうな顔を作った。  翻訳結果: He made a sour face.   参照訳: He made a sour face.   換言文対の獲得 類義語に換言
  19. 19 • 類義語による換言 • 換言後の翻訳精度が向上する換言文対を獲得   換言前: 彼は不機嫌そうな顔をした。  翻訳結果: He

    was a dour look.   換言後: 彼は不機嫌そうな顔を作った。  翻訳結果: He made a sour face.   参照訳: He made a sour face.   換言文対の獲得 類義語に換言 高類似 低類似
  20. 20 • 類義語による換言 • 換言後の翻訳精度が向上する換言文対を獲得   換言前: 彼は不機嫌そうな顔をした。  翻訳結果: He

    was a dour look.   換言後: 彼は不機嫌そうな顔を作った。  翻訳結果: He made a sour face.   参照訳: He made a sour face.   換言文対の獲得 類義語に換言 翻訳精度が向上! 高類似 低類似
  21. 21 • 類義語による換言 • 換言後の翻訳精度が向上する換言文対を獲得   換言前: 彼は不機嫌そうな顔をした。  翻訳結果: He

    was a dour look.   換言後: 彼は不機嫌そうな顔を作った。  翻訳結果: He made a sour face.   参照訳: He made a sour face.  換言前と換言後の(日本語)文対を獲得 換言文対の獲得 類義語に換言 翻訳精度が向上! 高類似 低類似
  22. 22 換言規則構築の流れ 原言語 コーパス 類義語辞書 換言文 統計翻訳 換言文の方が 翻訳精度が高い YES

    翻訳精度が 向上する 換言文対 フライング 換言規則 の構築 フライング 換言規則 換言規則 の選定 参照訳 翻訳モデル 選定した 換言規則 適用条件 の構築 フライング 換言規則 & 適用条件 換言文対の構築部 換言規則の構築部 NO 無処理 換言
  23. 23 フライング換言規則の構築 換言前: 彼は不機嫌そうな顔をした。   He was a dour look.

    換言後: 彼は不機嫌そうな顔を作った。   He made a sour face.
  24. 24 フライング換言規則の構築 換言前: 彼は不機嫌そうな顔をした。   He was a dour look.

    換言後: 彼は不機嫌そうな顔を作った。   He made a sour face. • 同言語内換言規則: した→作った
  25. 25 フライング換言規則の構築 換言前: 彼は不機嫌そうな顔をした。   He was a dour look.

    換言後: 彼は不機嫌そうな顔を作った。   He made a sour face. • 同言語内換言規則: した→作った • フライング換言規則: した→made
  26. 26 換言規則構築の流れ 原言語 コーパス 類義語辞書 換言文 統計翻訳 換言文の方が 翻訳精度が高い YES

    翻訳精度が 向上する 換言文対 フライング 換言規則 の構築 フライング 換言規則 換言規則 の選定 参照訳 翻訳モデル 選定した 換言規則 適用条件 の構築 フライング 換言規則 & 適用条件 換言文対の構築部 換言規則の構築部 NO 無処理 換言
  27. 27 換言規則の信頼性の考慮 • 間違った換言規則を除く必要がある [フライング換言規則: した→build] – 換言語(build)が参照訳に含まれていない場合   参照訳を用いて選定 –

    換言語(build)が訳語として間違っている場合   翻訳確率を用いて選定 ×
  28. 28 • 3つの条件全てに適合する換言規則だけを用いる  1. 換言前の変化部の訳が参照訳に含まれない  2. 換言後の変化部の訳が参照訳に含まれる  3. 換言後の変化部の訳が換言前の訳文に含まれない   換言前:

    彼は不機嫌そうな顔をした。     He made a dour look.   換言後: 彼は不機嫌そうな顔を作った。     He build a sour face.   参照訳: He made a sour face. 選定1: 参照訳を用いた選定
  29. 29 • 3つの条件全てに適合する換言規則だけを用いる  1. 換言前の変化部の訳が参照訳に含まれない  2. 換言後の変化部の訳が参照訳に含まれる  3. 換言後の変化部の訳が換言前の訳文に含まれない   換言前:

    彼は不機嫌そうな顔をした。     He made a dour look.   換言後: 彼は不機嫌そうな顔を作った。     He build a sour face.   参照訳: He made a sour face. 選定1: 参照訳を用いた選定
  30. 30 • 3つの条件全てに適合する換言規則だけを用いる  1. 換言前の変化部の訳が参照訳に含まれない  2. 換言後の変化部の訳が参照訳に含まれる  3. 換言後の変化部の訳が換言前の訳文に含まれない   換言前:

    彼は不機嫌そうな顔をした。     He made a dour look.   換言後: 彼は不機嫌そうな顔を作った。     He build a sour face.   参照訳: He made a sour face. 選定1: 参照訳を用いた選定 低類似 高類似
  31. 31 • 3つの条件全てに適合する換言規則だけを用いる  1. 換言前の変化部の訳が参照訳に含まれない  2. 換言後の変化部の訳が参照訳に含まれる  3. 換言後の変化部の訳が換言前の訳文に含まれない   換言前:

    彼は不機嫌そうな顔をした。     He made a dour look.   換言後: 彼は不機嫌そうな顔を作った。     He build a sour face.   参照訳: He made a sour face. 選定1: 参照訳を用いた選定 換言訳が不一致 低類似 高類似
  32. 32 選定2: 翻訳確率を用いた選定 • 参照訳を用いた選定では除けない例 換言前: 人の顔をじっと見る。 翻訳結果: stare into

    the face of a man. 換言後: 人の顔をじっと見て取る。 翻訳結果: look in the face of a person. 参照訳: look someone in the face. 低類似 高類似
  33. 33 選定2: 翻訳確率を用いた選定 • 参照訳を用いた選定では除けない例 換言前: 人の顔をじっと見る。 翻訳結果: stare into

    the face of a man. 換言後: 人の顔をじっと見て取る。 翻訳結果: look in the face of a person. 参照訳: look someone in the face. • フライング換言規則:「見る→in」は間違い 訳(in)が× 低類似 高類似
  34. 34 選定2: 翻訳確率を用いた選定 • 参照訳を用いた選定では除けない例 換言前: 人の顔をじっと見る。 翻訳結果: stare into

    the face of a man. 換言後: 人の顔をじっと見て取る。 翻訳結果: look in the face of a person. 参照訳: look someone in the face. • フライング換言規則:「見る→in」は間違い • 翻訳確率が0.01以上の換言規則だけを用いる  P(in|見て取る)=0.002 訳(in)が× 不採用 低類似 高類似
  35. 35 換言規則構築の流れ 原言語 コーパス 類義語辞書 換言文 統計翻訳 換言文の方が 翻訳精度が高い YES

    翻訳精度が 向上する 換言文対 フライング 換言規則 の構築 フライング 換言規則 換言規則 の選定 参照訳 翻訳モデル 選定した 換言規則 適用条件 の構築 フライング 換言規則 & 適用条件 換言文対の構築部 換言規則の構築部 NO 無処理 換言
  36. 36 換言規則を適用する条件の構築 • 換言規則を適用してはいけない場合がある  例: 換言規則「した→made」    換言前: 今日、私は勉強をした。    換言後: 今日、私は勉強をmade。

      翻訳結果: I made a study today.    参照訳: I studied today. ×
  37. 37 換言規則を適用する条件の構築 • 換言規則を適用してはいけない場合がある  例: 換言規則「した→made」    換言前: 今日、私は勉強をした。    換言後: 今日、私は勉強をmade。

      翻訳結果: I made a study today.    参照訳: I studied today. • 係り受けの組(状況を表す最小単位)を適用条件として構築   換言前: 不機嫌な / 顔を / した / 。 ×
  38. 38 換言規則を適用する条件の構築 • 換言規則を適用してはいけない場合がある  例: 換言規則「した→made」    換言前: 今日、私は勉強をした。    換言後: 今日、私は勉強をmade。

      翻訳結果: I made a study today.    参照訳: I studied today. • 係り受けの組(状況を表す最小単位)を適用条件として構築   換言前: 不機嫌な / 顔を / した / 。 ×
  39. 39 全体の流れ • 背景 • フライング前編集 • 本研究の詳細 • 評価実験

  40. 40 評価実験の内容(1/4) • 使用した言語資源  ・文や句、単語を含む日英対訳コーパスを使用  ・類義語は日本語WordNetを使用 学習データ 対訳データ量(文対) 翻訳モデル 2,608,130

    換言規則構築用 3,949 チューニング 500 評価セット 640,967
  41. 41 評価実験の内容(2/4) • 使用したツール  ・翻訳モデル: GIZA++  ・言語モデル: SRILM  ・デコーダ: Moses

     ・チューニング: MERT  ・形態素解析器: ChaSen  ・係り受け解析器: CaboCha
  42. 42 評価実験の内容(3/4) • 実験内容 – 換言規則構築時の参照訳数と翻訳精度の関係 参照訳数 換言文数 換言規則数 適合文数

    (テストセット) 1 10,726 1,071 1,016 2 17,847 1,985 1,977 3 2,900 303 292 4以上 1,049 98 139
  43. 43 • 類義語による換言 • 換言後の翻訳精度が向上する換言文対を獲得   換言前: 彼は不機嫌そうな顔をした。  翻訳結果: He

    was a dour look.   換言後: 彼は不機嫌そうな顔を作った。  翻訳結果: He made a sour face.   参照訳: He made a sour face.  換言文対獲得時の参照訳(正解訳)の数 換言文対の獲得 類義語に換言 高類似 低類似
  44. 44 評価実験の内容(3/4) • 実験内容 – 換言規則構築時の参照訳数と翻訳精度の関係 参照訳数 換言文数 換言規則数 適合文数

    (テストセット) 1 10,726 1,071 1,016 2 17,847 1,985 1,977 3 2,900 303 292 4以上 1,049 98 139
  45. 45 評価実験の内容(4/4) • 評価方法(BLEU:値は0~1の実数)   BP : 翻訳結果が短いときのペナルティ PN :

    翻訳結果と正解例で単語 N-gram が一致する割合   1-gram から N-gram の幾何平均 (N=4) 翻訳結果と参照訳(正解訳)の一致率で翻訳精度を算出 BLEU =BP×∏ n=1 N P N 1/ N
  46. 46 参照訳数と翻訳精度の関係 • 翻訳精度向上には参照訳の数が関係する • 既存手法より翻訳精度が向上 1 2 3 4

    -0.020 -0.015 -0.010 -0.005 0.000 0.005 0.010 0.015 0.020 0.025 前編集による BLEU の向上 値 同言語内前編集 フライング前編集 換言文対獲得時に用いる参照訳の数 (4 は 5 以上を含む )
  47. 47 翻訳精度が向上した例 換言前  : 読書から多くの楽しみを得る。     many get pleasure

    from reading. 換言後(同): 読書から多くの楽しみをもらう。     many get pleasure from reading. 換言後(フ): 読書から多くの楽しみを get。     get a lot of pleasure from reading. 参照訳  : get a lot of pleasure from reading. • 換言訳(get)が全て同じ • 同言語内前編集より翻訳(語順や訳語)が正確
  48. 48 今後の課題 • 翻訳確率やBLEU向上値の最適値を自動で推定 • 評価セットの参照訳数を増やすか人手での評価 • 換言規則の適用数が少ない  →適用条件に汎用性を持たせる  →換言規則構築用の対訳コーパスの増加

     →換言1文対から複数の換言規則を構築
  49. 49 まとめ • 統計翻訳の問題解決のため前編集に取り組む • 前編集の2つの問題点に注目  →フライング前編集を提案  →換言規則の選定を提案 • フライング前編集は既存手法より翻訳精度が向上

    • 高精度の換言規則構築には多数の参照訳が必要
  50. 50     おわり  ご清聴有難うございました