Upgrade to Pro — share decks privately, control downloads, hide ads and more …

統計的機械翻訳におけるフライング前編集

 統計的機械翻訳におけるフライング前編集

竹元 勇太, 山本 和英. 統計的機械翻訳におけるフライング前編集. 言語処理学会第16回年次大会, pp.1010-1013 (2010.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 6 • 目標 – 人手の負担を小さく、精度の高い機械翻訳を目指す     人手の負担が小さい統計翻訳を使用 • 統計的機械翻訳の利点と欠点 –

    短期間に低コストで翻訳システムを構築可能 – 計算量や曖昧性の問題 前編集を用いて統計翻訳の問題点を解決する 背景(1/3)
  2. 8 背景(2/3) • 機械翻訳のための前編集とは – 翻訳しにくい文を翻訳しやすい文へ換言すること • 換言規則構築方法は人手と自動に大きく分けられる – 人手構築手法

    [白井ら(93),吉見ら(01)] • 換言規則の信頼性が高い,人手の負担が大きい – 自動構築手法 [Callison-Burch et al.(06)] • 人手の負担が小さい,換言規則の信頼性が低い
  3. 9 背景(2/3) • 機械翻訳のための前編集とは – 翻訳しにくい文を翻訳しやすい文へ換言すること • 換言規則構築方法は人手と自動に大きく分けられる – 人手構築手法

    [白井ら(93),吉見ら(01)] • 換言規則の信頼性が高い,人手の負担が大きい – 自動構築手法 [Callison-Burch et al.(06)] • 人手の負担が小さい,換言規則の信頼性が低い 統計に基づく手法で換言規則の信頼性を考慮
  4. 13 同言語内換言規則:「過言→壮語」 前編集無し: ~であると言っても過言ではない。 翻訳結果: not that it was not

    a slip of the tongue. 同言語内前編集: ~であると言っても壮語ではない。 翻訳結果: not that it was not a big talk.  参照訳: It may be no exaggeration to say that. • 過言と壮語はexaggerationに翻訳されるべき • 既存手法では、必ずしも目的の語に翻訳されない 同言語内前編集の問題例 × ×
  5. 14 フライング換言規則:「過言→exaggeration」   前編集無し: ~であると言っても過言ではない。 翻訳結果: not that it was not

    a slip of the tongue. フライング前編集: ~であると言ってもexaggerationではない。 翻訳結果: It is no exaggeration to say that.  参照訳: It may be no exaggeration to say that. • 「過言」を直接「exaggeration」に換言 • 既存手法より計算量と曖昧性が軽減 提案するフライング前編集 × ◦
  6. 16 換言規則構築の流れ 原言語 コーパス 類義語辞書 換言文 統計翻訳 換言文の方が 翻訳精度が高い YES

    翻訳精度が 向上する 換言文対 フライング 換言規則 の構築 フライング 換言規則 換言規則 の選定 参照訳 翻訳モデル 選定した 換言規則 適用条件 の構築 フライング 換言規則 & 適用条件 換言文対の構築部 換言規則の構築部 NO 無処理 換言
  7. 17 換言規則構築の流れ 原言語 コーパス 類義語辞書 換言文 統計翻訳 換言文の方が 翻訳精度が高い YES

    翻訳精度が 向上する 換言文対 フライング 換言規則 の構築 フライング 換言規則 換言規則 の選定 参照訳 翻訳モデル 選定した 換言規則 適用条件 の構築 フライング 換言規則 & 適用条件 換言文対の構築部 換言規則の構築部 NO 無処理 換言
  8. 18 • 類義語による換言 • 換言後の翻訳精度が向上する換言文対を獲得   換言前: 彼は不機嫌そうな顔をした。  翻訳結果: He

    was a dour look.   換言後: 彼は不機嫌そうな顔を作った。  翻訳結果: He made a sour face.   参照訳: He made a sour face.   換言文対の獲得 類義語に換言
  9. 19 • 類義語による換言 • 換言後の翻訳精度が向上する換言文対を獲得   換言前: 彼は不機嫌そうな顔をした。  翻訳結果: He

    was a dour look.   換言後: 彼は不機嫌そうな顔を作った。  翻訳結果: He made a sour face.   参照訳: He made a sour face.   換言文対の獲得 類義語に換言 高類似 低類似
  10. 20 • 類義語による換言 • 換言後の翻訳精度が向上する換言文対を獲得   換言前: 彼は不機嫌そうな顔をした。  翻訳結果: He

    was a dour look.   換言後: 彼は不機嫌そうな顔を作った。  翻訳結果: He made a sour face.   参照訳: He made a sour face.   換言文対の獲得 類義語に換言 翻訳精度が向上! 高類似 低類似
  11. 21 • 類義語による換言 • 換言後の翻訳精度が向上する換言文対を獲得   換言前: 彼は不機嫌そうな顔をした。  翻訳結果: He

    was a dour look.   換言後: 彼は不機嫌そうな顔を作った。  翻訳結果: He made a sour face.   参照訳: He made a sour face.  換言前と換言後の(日本語)文対を獲得 換言文対の獲得 類義語に換言 翻訳精度が向上! 高類似 低類似
  12. 22 換言規則構築の流れ 原言語 コーパス 類義語辞書 換言文 統計翻訳 換言文の方が 翻訳精度が高い YES

    翻訳精度が 向上する 換言文対 フライング 換言規則 の構築 フライング 換言規則 換言規則 の選定 参照訳 翻訳モデル 選定した 換言規則 適用条件 の構築 フライング 換言規則 & 適用条件 換言文対の構築部 換言規則の構築部 NO 無処理 換言
  13. 23 フライング換言規則の構築 換言前: 彼は不機嫌そうな顔をした。   He was a dour look.

    換言後: 彼は不機嫌そうな顔を作った。   He made a sour face.
  14. 24 フライング換言規則の構築 換言前: 彼は不機嫌そうな顔をした。   He was a dour look.

    換言後: 彼は不機嫌そうな顔を作った。   He made a sour face. • 同言語内換言規則: した→作った
  15. 25 フライング換言規則の構築 換言前: 彼は不機嫌そうな顔をした。   He was a dour look.

    換言後: 彼は不機嫌そうな顔を作った。   He made a sour face. • 同言語内換言規則: した→作った • フライング換言規則: した→made
  16. 26 換言規則構築の流れ 原言語 コーパス 類義語辞書 換言文 統計翻訳 換言文の方が 翻訳精度が高い YES

    翻訳精度が 向上する 換言文対 フライング 換言規則 の構築 フライング 換言規則 換言規則 の選定 参照訳 翻訳モデル 選定した 換言規則 適用条件 の構築 フライング 換言規則 & 適用条件 換言文対の構築部 換言規則の構築部 NO 無処理 換言
  17. 28 • 3つの条件全てに適合する換言規則だけを用いる  1. 換言前の変化部の訳が参照訳に含まれない  2. 換言後の変化部の訳が参照訳に含まれる  3. 換言後の変化部の訳が換言前の訳文に含まれない   換言前:

    彼は不機嫌そうな顔をした。     He made a dour look.   換言後: 彼は不機嫌そうな顔を作った。     He build a sour face.   参照訳: He made a sour face. 選定1: 参照訳を用いた選定
  18. 29 • 3つの条件全てに適合する換言規則だけを用いる  1. 換言前の変化部の訳が参照訳に含まれない  2. 換言後の変化部の訳が参照訳に含まれる  3. 換言後の変化部の訳が換言前の訳文に含まれない   換言前:

    彼は不機嫌そうな顔をした。     He made a dour look.   換言後: 彼は不機嫌そうな顔を作った。     He build a sour face.   参照訳: He made a sour face. 選定1: 参照訳を用いた選定
  19. 30 • 3つの条件全てに適合する換言規則だけを用いる  1. 換言前の変化部の訳が参照訳に含まれない  2. 換言後の変化部の訳が参照訳に含まれる  3. 換言後の変化部の訳が換言前の訳文に含まれない   換言前:

    彼は不機嫌そうな顔をした。     He made a dour look.   換言後: 彼は不機嫌そうな顔を作った。     He build a sour face.   参照訳: He made a sour face. 選定1: 参照訳を用いた選定 低類似 高類似
  20. 31 • 3つの条件全てに適合する換言規則だけを用いる  1. 換言前の変化部の訳が参照訳に含まれない  2. 換言後の変化部の訳が参照訳に含まれる  3. 換言後の変化部の訳が換言前の訳文に含まれない   換言前:

    彼は不機嫌そうな顔をした。     He made a dour look.   換言後: 彼は不機嫌そうな顔を作った。     He build a sour face.   参照訳: He made a sour face. 選定1: 参照訳を用いた選定 換言訳が不一致 低類似 高類似
  21. 32 選定2: 翻訳確率を用いた選定 • 参照訳を用いた選定では除けない例 換言前: 人の顔をじっと見る。 翻訳結果: stare into

    the face of a man. 換言後: 人の顔をじっと見て取る。 翻訳結果: look in the face of a person. 参照訳: look someone in the face. 低類似 高類似
  22. 33 選定2: 翻訳確率を用いた選定 • 参照訳を用いた選定では除けない例 換言前: 人の顔をじっと見る。 翻訳結果: stare into

    the face of a man. 換言後: 人の顔をじっと見て取る。 翻訳結果: look in the face of a person. 参照訳: look someone in the face. • フライング換言規則:「見る→in」は間違い 訳(in)が× 低類似 高類似
  23. 34 選定2: 翻訳確率を用いた選定 • 参照訳を用いた選定では除けない例 換言前: 人の顔をじっと見る。 翻訳結果: stare into

    the face of a man. 換言後: 人の顔をじっと見て取る。 翻訳結果: look in the face of a person. 参照訳: look someone in the face. • フライング換言規則:「見る→in」は間違い • 翻訳確率が0.01以上の換言規則だけを用いる  P(in|見て取る)=0.002 訳(in)が× 不採用 低類似 高類似
  24. 35 換言規則構築の流れ 原言語 コーパス 類義語辞書 換言文 統計翻訳 換言文の方が 翻訳精度が高い YES

    翻訳精度が 向上する 換言文対 フライング 換言規則 の構築 フライング 換言規則 換言規則 の選定 参照訳 翻訳モデル 選定した 換言規則 適用条件 の構築 フライング 換言規則 & 適用条件 換言文対の構築部 換言規則の構築部 NO 無処理 換言
  25. 37 換言規則を適用する条件の構築 • 換言規則を適用してはいけない場合がある  例: 換言規則「した→made」    換言前: 今日、私は勉強をした。    換言後: 今日、私は勉強をmade。

      翻訳結果: I made a study today.    参照訳: I studied today. • 係り受けの組(状況を表す最小単位)を適用条件として構築   換言前: 不機嫌な / 顔を / した / 。 ×
  26. 38 換言規則を適用する条件の構築 • 換言規則を適用してはいけない場合がある  例: 換言規則「した→made」    換言前: 今日、私は勉強をした。    換言後: 今日、私は勉強をmade。

      翻訳結果: I made a study today.    参照訳: I studied today. • 係り受けの組(状況を表す最小単位)を適用条件として構築   換言前: 不機嫌な / 顔を / した / 。 ×
  27. 41 評価実験の内容(2/4) • 使用したツール  ・翻訳モデル: GIZA++  ・言語モデル: SRILM  ・デコーダ: Moses

     ・チューニング: MERT  ・形態素解析器: ChaSen  ・係り受け解析器: CaboCha
  28. 43 • 類義語による換言 • 換言後の翻訳精度が向上する換言文対を獲得   換言前: 彼は不機嫌そうな顔をした。  翻訳結果: He

    was a dour look.   換言後: 彼は不機嫌そうな顔を作った。  翻訳結果: He made a sour face.   参照訳: He made a sour face.  換言文対獲得時の参照訳(正解訳)の数 換言文対の獲得 類義語に換言 高類似 低類似
  29. 45 評価実験の内容(4/4) • 評価方法(BLEU:値は0~1の実数)   BP : 翻訳結果が短いときのペナルティ PN :

    翻訳結果と正解例で単語 N-gram が一致する割合   1-gram から N-gram の幾何平均 (N=4) 翻訳結果と参照訳(正解訳)の一致率で翻訳精度を算出 BLEU =BP×∏ n=1 N P N 1/ N
  30. 46 参照訳数と翻訳精度の関係 • 翻訳精度向上には参照訳の数が関係する • 既存手法より翻訳精度が向上 1 2 3 4

    -0.020 -0.015 -0.010 -0.005 0.000 0.005 0.010 0.015 0.020 0.025 前編集によるBLEU の向上値 同言語内前編集 フ ライ ング前編集 換言文対獲得時に用いる参照訳の数 (4 は 5 以上を含む )
  31. 47 翻訳精度が向上した例 換言前  : 読書から多くの楽しみを得る。     many get pleasure

    from reading. 換言後(同): 読書から多くの楽しみをもらう。     many get pleasure from reading. 換言後(フ): 読書から多くの楽しみを get。     get a lot of pleasure from reading. 参照訳  : get a lot of pleasure from reading. • 換言訳(get)が全て同じ • 同言語内前編集より翻訳(語順や訳語)が正確 × × ◦