統計的機械翻訳における地名の汎化の影響

統計的機械翻訳における地名の汎化の影響長岡技術科学大学　　　　関拓也 , 山本和英

未知語の問題 • 学習で全ての単語を網羅できない • 学習データに無い単語 ( 未知語 ) により　　　翻訳精度が低下　　　　　　　　　　　　　　
　 1. 対訳が無い　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 2. 配置すべき位置がわからない新潟 go to ? ? ? . go to . 新潟新潟へ。行く I 翻訳

目的及び既存手法 • 目的　未知の地名を含む文の翻訳精度改善 • 既存手法 ( 大熊ら [2007]) 　　　　　　　　
　　 1) 未知の地名を学習データに　　　　　　　　頻出する地名に置き換えて翻訳　　　　　　　　　　　　　　　　　　　　　　　　 2) 置き換えた地名を目的の地名に　　　　　置き換える

既存手法 : 問題点 • 翻訳知識を十分に利用できない　　　　例 ) 「新潟」が未知の地名の場合　　　　　　　　　　　　　　　　　　　　新潟
へ行く大阪へ行く対訳句置き換え東京頻出する地名東京へ行く翻訳既存手法大阪へ行く翻訳優良な翻訳手法東京へ行く入力文 )

提案手法 • 翻訳知識中の地名の汎化を提案　　　　　　　 1. より長い対訳句を使用した翻訳　　　　　　　　　　・句内では単語の並びが正しい　　　　　　　　　　・正しい訳語が選択される可能性が高い　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 2. 地名が配置されるべき位置への配置「 PLACE 」 go to . 新潟「地名」へ汎化「 PLACE 」へ翻訳　　　　　　　　　　　　　　　　　　　　翻訳「地名」 to 「 PLACE 」 to

手法概要汎化言語モデル汎化フレーズテーブルフレーズテーブル汎化翻訳知識言語モデル地名対訳辞書翻訳知識対訳コーパス地名対訳辞書
の作成英語コーパスフレーズテーブルの汎化言語モデルの汎化日本語コーパス学習 A B C D

　学習 • 言語モデル (5-gram の N-gram モデル ) 　　　・「英語の原形」「英語の品詞」を作成
• 翻訳モデル　・「日本語の原形と品詞」　・「英語の原形と品詞」日本名詞 - 固有名詞 - 地域 - 国へ助詞 - 格助詞 - 一般行く動詞 - 自立 go 　 VV 　 to 　 TO 　 japan 　 NP 　英語日本語 }を作成 A

「地名対訳辞書」の作成 • フレーズテーブルを用いて作成 1. 「日本語 1 単語」 - 「英語 1
単語」対応 2. 日本語の品詞が　　　　　　　　　　　　　　　　・「名詞 - 固有名詞 - 地域 - 一般」　　　　　　・「名詞 - 固有名詞 - 地域 - 国」 3. 英語の品詞が　　　　　　　　　　　　　　　　　・「 N( 名詞 ) 」　　　　　　　　　　　　　　・「 J( 形容詞 ) 」 4. 「日英方向」と「英日方向」の　　　　　　　　　　翻訳確率の積が 0.01 以上 B

　言語モデルの汎化 • 汎化した学習データ ( 英語文 ) を　　　用いて学習 • 「地名対訳辞書」を用いて汎化
Japanese| JJ student|NN a|DT 汎化 PLACE| J student|NN a|DT D

評価実験 : 評価方法 • 日英翻訳 • 翻訳手法　　　　 (A):
「地名」を含む文　　　　　　　　　　　　　　　 (B):(A) の「地名」を「 PLACE 」に置き換えた文翻訳方法モデル評価データ通常翻訳通常 (A) 未知語翻訳通常 (B) 既存手法通常 (B) 提案手法汎化 (B)

実験結果及び考察 • 提案手法により翻訳精度が改善した理由 1. より長い対訳句を用いた翻訳　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　※句の長さ : 翻訳に使用された地名を含む句の平均単語数
2. 地名が配置されるべき位置への配置 (1000 文対 ) 翻訳方法 open 句の長さ BLEU 通常翻訳 1.60 13.29 未知語翻訳 1.00 10.29 既存手法 1.78 13.07 提案手法 1.98 13.86

考察：「地名対訳辞書」の問題 • 地名を含む対訳句の内　　　　　　　　　　　 45.0% しか汎化できていない • 原因　　　　　　　　　　　　　　　　・学習データに頻出する　　　　　　　　　
1 対多対訳の地名が未登録　　　　例 ) 　　　　　　　　　　　　　　　　　　　　「ニューヨーク」 | 「 new york 」　　

翻訳方法 open (1) (2) 既存手法 13.07 13.27 提案手法 13.86 14.55
考察 : 汎化するカテゴリの問題 • 「地域 - 一般」と「地域 - 国」の傾向が異なる (1): 　　　　　　　　　　　　　　　　　　　　　　　 (2): 　　　　　　　　　　　　　翻訳精度が向上「地域 - 一般」・「地域 - 国」「地域 - 一般」汎化 PLACE 「地域 - 国」汎化 COUNTRY PLACE

まとめ • 未知の地名を含む文の翻訳精度改善に有効・より長い句を用いた翻訳・地名が配置されるべき位置への配置 • 提案手法の改善のために　・「地名対訳辞書」の網羅性を上げる　・適切なカテゴリに単語を分け、　　　　　　別々に汎化を行う

統計的機械翻訳における地名の汎化の影響

統計的機械翻訳における地名の汎化の影響

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript

統計的機械翻訳における地名の汎化の影響長岡技術科学大学　　　　関拓也 , 山本和英

未知語の問題 • 学習で全ての単語を網羅できない • 学習データに無い単語 ( 未知語 ) により　　　翻訳精度が低下

目的及び既存手法 • 目的　未知の地名を含む文の翻訳精度改善 • 既存手法 ( 大熊ら [2007])

既存手法 : 問題点 • 翻訳知識を十分に利用できない　　　　例 ) 「新潟」が未知の地名の場合　　　　　　　　　　　　　　　　　　　　新潟

提案手法 • 翻訳知識中の地名の汎化を提案　　　　　　　 1. より長い対訳句を使用した翻訳　　　　　　　　　　・句内では単語の並びが正しい　　　　　　　　　　・正しい訳語が選択される可能性が高い

手法概要汎化言語モデル汎化フレーズテーブルフレーズテーブル汎化翻訳知識言語モデル地名対訳辞書翻訳知識対訳コーパス地名対訳辞書

学習 • 言語モデル (5-gram の N-gram モデル ) 　　　・「英語の原形」「英語の品詞」を作成

「地名対訳辞書」の作成 • フレーズテーブルを用いて作成 1. 「日本語 1 単語」 - 「英語 1

フレーズテーブルの汎化 • 「地名対訳辞書」を用いて汎化・日本語句内の地名を　　　　　　　　　　　　　　　　　「 PLACE|PLACE 」・英語句内の地名を　　　　　　　　　　　　　　　　　・「 PLACE|N

言語モデルの汎化 • 汎化した学習データ ( 英語文 ) を　　　用いて学習 • 「地名対訳辞書」を用いて汎化

評価実験 : 評価方法 • 日英翻訳 • 翻訳手法　　　　 (A):

考察：「地名対訳辞書」の問題 • 地名を含む対訳句の内　　　　　　　　　　　 45.0% しか汎化できていない • 原因　　　　　　　　　　　　　　　　・学習データに頻出する

翻訳方法 open (1) (2) 既存手法 13.07 13.27 提案手法 13.86 14.55