Upgrade to Pro — share decks privately, control downloads, hide ads and more …

統計的機械翻訳における地名の汎化の影響

 統計的機械翻訳における地名の汎化の影響

関 拓也. 統計的機械翻訳における地名の汎化の影響. 長岡技術科学大学課題研究報告書 (2009.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 3 未知語の問題 • 学習で全ての単語を網羅できない • 学習データに無い単語 ( 未知語 ) により   

    翻訳精度が低下                1. 対訳が無い                                                                                  2. 配置すべき位置がわからない 新潟 go to ? ? ? . go to . 新潟 新潟 へ 。 行く I 翻訳
  2. 4 目的及び既存手法 • 目的  未知の地名を含む文の翻訳精度改善 • 既存手法 ( 大熊ら [2007])

                1) 未知の地名を学習データに          頻出する地名に置き換えて翻訳                           2) 置き換えた地名を目的の地名に       置き換える
  3. 5 既存手法 : 問題点 • 翻訳知識を十分に利用できない     例 ) 「新潟」が未知の地名の場合                     

    新潟 まで 行く 大阪 まで 行く 対訳句 置き換え 東京 頻出する地名 東京 まで 行く 翻訳 既存手法 大阪 まで 行く 翻訳 優良な翻訳 東京 まで 行く 入力文 )
  4. 6 提案手法 • 翻訳知識中の地名の汎化を提案         1. より長い対訳句を使用した翻訳           ・句内では単語の並びが正しい           ・正しい訳語が選択される可能性が高い                            

                                                                                 2. 地名が配置されるべき位置への配置 「 PLACE 」 go to . 新潟 「地名」 へ 汎化 「 PLACE 」 へ 翻訳                     翻訳 「地名」 to 「 PLACE 」 to
  5. 7 • フレーズテーブル • 言語モデル ( 翻訳先の文らしさを表すモデル )  ※ N-gram

    モデル 翻訳知識 日本  |||   japan   |||  日英方向  |||  英日方向 対訳句 翻訳確率 japan   is   |||   0.01 単語列 生起確率
  6. 8 手法概要 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス

    地名対訳辞書 の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A
  7. 9 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書

    の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A  学習 A
  8. 10 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 英語コーパス

    フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 「地名対訳辞書」の作成 B 地名対訳辞書 の作成
  9. 11 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書

    の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A フレーズテーブルの汎化 C
  10. 12 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書

    の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 言語モデルの汎化 D
  11. 13 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書

    の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 学習 (1/2) A
  12. 14 学習 (2/2) • 言語モデル ( 単語 5-gram の N-gram

    モデル )  ・「英語の原形」「英語の品詞」を作成 • 翻訳モデル  ・「日本語の原形と品詞」  ・「英語の原形と品詞」 日本 名詞 - 固有名詞 - 地域 - 国 へ 助詞 - 格助詞 - 一般 行く 動詞 - 自立 go   VV   to   TO   japan   NP   英語 日本語 }を作成 A
  13. 15 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 英語コーパス

    フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 「地名対訳辞書」の作成 (1/2) B 地名対訳辞書 の作成
  14. 16 「地名対訳辞書」の作成 (2/2) • フレーズテーブルを用いて作成   1. 「日本語 1 単語」−「英語

    1 単語」対応の句   2. 日本語の品詞が                   ・「名詞 - 固有名詞 - 地域 - 一般」         ・「名詞 - 固有名詞 - 地域 - 国」   3. 英語の品詞が                    ・「 N( 名詞 ) 」                 ・「 J( 形容詞 ) 」               4. 「日英方向」と「英日方向」の            翻訳確率の積が 0.01 以上 B
  15. 17 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書

    の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A フレーズテーブルの汎化 (1/2) C
  16. 18 フレーズテーブルの汎化 (2/2) • 「地名対訳辞書」を用いて汎化 ・日本語句内の地名を「 PLACE|PLACE 」 ・英語句内の地名を                    ・「

    PLACE|N 」             ・「 PLACE| J 」 日本 | 名詞 - 固有名詞 - 地域 - 国 japan|NP PLACE|PLACE PLACE|N 日本語 英語 汎化 C
  17. 19 汎化言語モデル 汎化フレーズテーブル フレーズテーブル 汎化翻訳知識 言語モデル 地名対訳辞書 翻訳知識 対訳コーパス 地名対訳辞書

    の作成 英語コーパス フレーズテーブル の汎化 言語モデル の汎化 日本語コーパス B C D 学習 A 言語モデルの汎化 (1/2) D
  18. 20 言語モデルの汎化 (2/2) • 汎化した学習データ ( 英語文 ) を      学習に用いる

    • 「地名対訳辞書」を用いて汎化 Japanese| JJ student|NN a|DT 汎化 PLACE| J student|NN a|DT D D
  19. 21 評価実験 : 評価方法 • 日英翻訳 • 翻訳手法      

    (A): 「未知の地名」や「既知の地名」を含む       (B): 含まれる全ての地名が未知      翻訳方法 モデル 評価データ 通常翻訳 通常 (A) 未知語翻訳 通常 (B) 既存手法 通常 (B) 提案手法 汎化 (B)
  20. 22 評価実験 : 使用データ • 学習データ ( 対訳文 )            

     ・ CREST コーパス: 372,985 文対 • 評価データ ( 地名を含む対訳文 )        ・学習に含まれない (open) 対訳文 1000 対 • 評価方法                   ・ BLEU による翻訳精度の自動評価       ※ BLEU 値が高い方が翻訳精度は高い。
  21. 23 実験結果及び考察 • 提案手法により翻訳精度が改善した理由 1. より長い対訳句を用いた翻訳                                                ※句の長さ :

    翻訳に使用された地名を含む句の平均単語数 2. 地名が配置されるべき位置への配置 翻訳方法 open 句の長さ BLEU 通常翻訳 1.60 13.29 未知語翻訳 1.00 10.29 既存手法 1.78 13.07 提案手法 1.98 13.86
  22. 25 翻訳方法 open (1) (2) 既存手法 13.07 13.27 提案手法 13.86

    14.55 • 「地域 - 一般」と「地域 - 国」の傾向が異なる (1):                        (2):               翻訳精度が向上 「地域 - 一般」・「地域 - 国」 「地域 - 一般」 汎化 PLACE 「地域 - 国」 汎化 COUNTRY PLACE 考察 : 汎化するカテゴリの問題
  23. 28 使用ツール及び言語資源 • デコーダ      :Moses • 単語アライメント  :GIZA++ • 言語モデル    

    :IRST LM • 日本語形態素解析  :ChaSen • 英語形態素解析   :TreeTagger • 対訳コーパス    :CREST コーパス                   372,985 文対 • 対訳辞書      : 英辞郎