Upgrade to Pro — share decks privately, control downloads, hide ads and more …

統計的機械翻訳における地名の汎化の影響

 統計的機械翻訳における地名の汎化の影響

関 拓也, 山本 和英. 統計的機械翻訳における地名の汎化の影響. 言語処理学会第15回年次大会, pp.200-203 (2009.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 未知語の問題 • 学習で全ての単語を網羅できない • 学習データに無い単語 ( 未知語 ) により    翻訳精度が低下              

      1. 対訳が無い                                                                                  2. 配置すべき位置がわからない 新潟 go to ? ? ? . go to . 新潟 新潟 へ 。 行く I 翻訳
  2. 目的及び既存手法 • 目的  未知の地名を含む文の翻訳精度改善 • 既存手法 ( 大熊ら [2007])         

       1) 未知の地名を学習データに          頻出する地名に置き換えて翻訳                           2) 置き換えた地名を目的の地名に       置き換える
  3. 既存手法 : 問題点 • 翻訳知識を十分に利用できない     例 ) 「新潟」が未知の地名の場合                      新潟

    へ 行く 大阪 へ 行く 対訳句 置き換え 東京 頻出する地名 東京 へ 行く 翻訳 既存手法 大阪 へ 行く 翻訳 優良な翻訳手法 東京 へ 行く 入力文 )
  4. 提案手法 • 翻訳知識中の地名の汎化を提案         1. より長い対訳句を使用した翻訳           ・句内では単語の並びが正しい           ・正しい訳語が選択される可能性が高い                                                     

                                                        2. 地名が配置されるべき位置への配置 「 PLACE 」 go to . 新潟 「地名」 へ 汎化 「 PLACE 」 へ 翻訳                     翻訳 「地名」 to 「 PLACE 」 to
  5.  学習 • 言語モデル (5-gram の N-gram モデル )     ・「英語の原形」「英語の品詞」を作成

    • 翻訳モデル  ・「日本語の原形と品詞」  ・「英語の原形と品詞」 日本 名詞 - 固有名詞 - 地域 - 国 へ 助詞 - 格助詞 - 一般 行く 動詞 - 自立 go   VV   to   TO   japan   NP   英語 日本語 }を作成 A
  6. 「地名対訳辞書」の作成 • フレーズテーブルを用いて作成 1. 「日本語 1 単語」 - 「英語 1

    単語」対応 2. 日本語の品詞が                 ・「名詞 - 固有名詞 - 地域 - 一般」       ・「名詞 - 固有名詞 - 地域 - 国」 3. 英語の品詞が                  ・「 N( 名詞 ) 」               ・「 J( 形容詞 ) 」 4. 「日英方向」と「英日方向」の           翻訳確率の積が 0.01 以上 B
  7. 評価実験 : 評価方法 • 日英翻訳 • 翻訳手法       (A):

    「地名」を含む文                 (B):(A) の「地名」を「 PLACE 」に置き換えた文 翻訳方法 モデル 評価データ 通常翻訳 通常 (A) 未知語翻訳 通常 (B) 既存手法 通常 (B) 提案手法 汎化 (B)
  8. 翻訳方法 open (1) (2) 既存手法 13.07 13.27 提案手法 13.86 14.55

    考察 : 汎化するカテゴリの問題 • 「地域 - 一般」と「地域 - 国」の傾向が異なる (1):                         (2):               翻訳精度が向上 「地域 - 一般」・「地域 - 国」 「地域 - 一般」 汎化 PLACE 「地域 - 国」 汎化 COUNTRY PLACE