統計的機械翻訳における地名の汎化の影響

1 統計的機械翻訳における地名の汎化の影響長岡技術科学大学　電気系　山本研究室 05131586 　関拓也

2 統計的機械翻訳とは大量の対訳文対訳句単語の並び学習翻訳知識

3 未知語の問題 • 学習で全ての単語を網羅できない • 学習データに無い単語 ( 未知語 ) により　　　
翻訳精度が低下　　　　　　　　　　　　　　 1. 対訳が無い　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 2. 配置すべき位置がわからない新潟 go to ? ? ? . go to . 新潟新潟へ。行く I 翻訳

4 目的及び既存手法 • 目的　未知の地名を含む文の翻訳精度改善 • 既存手法 ( 大熊ら [2007])
　　　　　　　　　　 1) 未知の地名を学習データに　　　　　　　　頻出する地名に置き換えて翻訳　　　　　　　　　　　　　　　　　　　　　　　　 2) 置き換えた地名を目的の地名に　　　　　置き換える

5 既存手法 : 問題点 • 翻訳知識を十分に利用できない　　　　例 ) 「新潟」が未知の地名の場合　　　　　　　　　　　　　　　　　　　　
新潟まで行く大阪まで行く対訳句置き換え東京頻出する地名東京まで行く翻訳既存手法大阪まで行く翻訳優良な翻訳東京まで行く入力文 )

6 提案手法 • 翻訳知識中の地名の汎化を提案　　　　　　　 1. より長い対訳句を使用した翻訳　　　　　　　　　　・句内では単語の並びが正しい　　　　　　　　　　・正しい訳語が選択される可能性が高い　　　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 2. 地名が配置されるべき位置への配置「 PLACE 」 go to . 新潟「地名」へ汎化「 PLACE 」へ翻訳　　　　　　　　　　　　　　　　　　　　翻訳「地名」 to 「 PLACE 」 to

7 • フレーズテーブル • 言語モデル ( 翻訳先の文らしさを表すモデル ) 　※ N-gram
モデル翻訳知識日本　 ||| 　 japan 　 ||| 　日英方向　 ||| 　英日方向対訳句翻訳確率 japan 　 is 　 ||| 　 0.01 単語列生起確率

8 手法概要汎化言語モデル汎化フレーズテーブルフレーズテーブル汎化翻訳知識言語モデル地名対訳辞書翻訳知識対訳コーパス
地名対訳辞書の作成英語コーパスフレーズテーブルの汎化言語モデルの汎化日本語コーパス B C D 学習 A

9 汎化言語モデル汎化フレーズテーブルフレーズテーブル汎化翻訳知識言語モデル地名対訳辞書翻訳知識対訳コーパス地名対訳辞書
の作成英語コーパスフレーズテーブルの汎化言語モデルの汎化日本語コーパス B C D 学習 A 　学習 A

10 汎化言語モデル汎化フレーズテーブルフレーズテーブル汎化翻訳知識言語モデル地名対訳辞書翻訳知識対訳コーパス英語コーパス
フレーズテーブルの汎化言語モデルの汎化日本語コーパス B C D 学習 A 「地名対訳辞書」の作成 B 地名対訳辞書の作成

の作成英語コーパスフレーズテーブルの汎化言語モデルの汎化日本語コーパス B C D 学習 A フレーズテーブルの汎化 C

の作成英語コーパスフレーズテーブルの汎化言語モデルの汎化日本語コーパス B C D 学習 A 言語モデルの汎化 D

の作成英語コーパスフレーズテーブルの汎化言語モデルの汎化日本語コーパス B C D 学習 A 学習 (1/2) A

14 学習 (2/2) • 言語モデル ( 単語 5-gram の N-gram
モデル ) 　・「英語の原形」「英語の品詞」を作成 • 翻訳モデル　・「日本語の原形と品詞」　・「英語の原形と品詞」日本名詞 - 固有名詞 - 地域 - 国へ助詞 - 格助詞 - 一般行く動詞 - 自立 go 　 VV 　 to 　 TO 　 japan 　 NP 　英語日本語 }を作成 A

15 汎化言語モデル汎化フレーズテーブルフレーズテーブル汎化翻訳知識言語モデル地名対訳辞書翻訳知識対訳コーパス英語コーパス
フレーズテーブルの汎化言語モデルの汎化日本語コーパス B C D 学習 A 「地名対訳辞書」の作成 (1/2) B 地名対訳辞書の作成

16 「地名対訳辞書」の作成 (2/2) • フレーズテーブルを用いて作成　 1. 「日本語 1 単語」−「英語
1 単語」対応の句　 2. 日本語の品詞が　　　　　　　　　　　　　　　　　　・「名詞 - 固有名詞 - 地域 - 一般」　　　　　　　　・「名詞 - 固有名詞 - 地域 - 国」　 3. 英語の品詞が　　　　　　　　　　　　　　　　　　　・「 N( 名詞 ) 」　　　　　　　　　　　　　　　　・「 J( 形容詞 ) 」　　　　　　　　　　　　　 4. 「日英方向」と「英日方向」の　　　　　　　　　　　翻訳確率の積が 0.01 以上 B

の作成英語コーパスフレーズテーブルの汎化言語モデルの汎化日本語コーパス B C D 学習 A フレーズテーブルの汎化 (1/2) C

の作成英語コーパスフレーズテーブルの汎化言語モデルの汎化日本語コーパス B C D 学習 A 言語モデルの汎化 (1/2) D

21 評価実験 : 評価方法 • 日英翻訳 • 翻訳手法　　　　
(A): 「未知の地名」や「既知の地名」を含む　　　　　 (B): 含まれる全ての地名が未知　　　　　翻訳方法モデル評価データ通常翻訳通常 (A) 未知語翻訳通常 (B) 既存手法通常 (B) 提案手法汎化 (B)

22 評価実験 : 使用データ • 学習データ ( 対訳文 ) 　　　　　　　　　　　
　・ CREST コーパス： 372,985 文対 • 評価データ ( 地名を含む対訳文 ) 　　　　　　・学習に含まれない (open) 対訳文 1000 対 • 評価方法　　　　　　　　　　　　　　　　　　・ BLEU による翻訳精度の自動評価　　　　　　※ BLEU 値が高い方が翻訳精度は高い。

23 実験結果及び考察 • 提案手法により翻訳精度が改善した理由 1. より長い対訳句を用いた翻訳　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　※句の長さ :
翻訳に使用された地名を含む句の平均単語数 2. 地名が配置されるべき位置への配置翻訳方法 open 句の長さ BLEU 通常翻訳 1.60 13.29 未知語翻訳 1.00 10.29 既存手法 1.78 13.07 提案手法 1.98 13.86

24 考察：「地名対訳辞書」の問題 • 地名を含む対訳句の内　　　　　　　　　　　 45.0% しか汎化できていない • 原因　　　　　　　　　　　　　　　　　　　　・学習データに頻出する　　　　　　　　
　　　 1 対多対訳の「地名」が未登録　　　　　例 ) 　　　　　　　　　　　　　　　　　　　「ニューヨーク」 | 「 new york 」　　

25 翻訳方法 open (1) (2) 既存手法 13.07 13.27 提案手法 13.86
14.55 • 「地域 - 一般」と「地域 - 国」の傾向が異なる (1): 　　　　　　　　　　　　　　　　　　　　　　 (2): 　　　　　　　　　　　　　翻訳精度が向上「地域 - 一般」・「地域 - 国」「地域 - 一般」汎化 PLACE 「地域 - 国」汎化 COUNTRY PLACE 考察 : 汎化するカテゴリの問題

26 • 未知の地名を含む文の翻訳精度改善に有効・より長い句を用いた翻訳・地名が配置されるべき位置への配置 • 提案手法の改善のために　　・「地名対訳辞書」の網羅性を上げる　　
・適切なカテゴリに単語を分け、　　　　　　別々に汎化を行うまとめ

27 終わり

28 使用ツール及び言語資源 • デコーダ　　　　　 :Moses • 単語アライメント　 :GIZA++ • 言語モデル　　　　
:IRST LM • 日本語形態素解析　 :ChaSen • 英語形態素解析　　 :TreeTagger • 対訳コーパス　　　 :CREST コーパス　　　　　　　　　　　　　　　　 372,985 文対 • 対訳辞書　　　　　 : 英辞郎

統計的機械翻訳における地名の汎化の影響

統計的機械翻訳における地名の汎化の影響

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript

1 統計的機械翻訳における地名の汎化の影響長岡技術科学大学　電気系　山本研究室 05131586 　関拓也

2 統計的機械翻訳とは大量の対訳文対訳句単語の並び学習翻訳知識

3 未知語の問題 • 学習で全ての単語を網羅できない • 学習データに無い単語 ( 未知語 ) により

4 目的及び既存手法 • 目的　未知の地名を含む文の翻訳精度改善 • 既存手法 ( 大熊ら [2007])

5 既存手法 : 問題点 • 翻訳知識を十分に利用できない　　　　例 ) 「新潟」が未知の地名の場合

6 提案手法 • 翻訳知識中の地名の汎化を提案　　　　　　　 1. より長い対訳句を使用した翻訳　　　　　　　　　　・句内では単語の並びが正しい　　　　　　　　　　・正しい訳語が選択される可能性が高い

7 • フレーズテーブル • 言語モデル ( 翻訳先の文らしさを表すモデル ) 　※ N-gram

8 手法概要汎化言語モデル汎化フレーズテーブルフレーズテーブル汎化翻訳知識言語モデル地名対訳辞書翻訳知識対訳コーパス

9 汎化言語モデル汎化フレーズテーブルフレーズテーブル汎化翻訳知識言語モデル地名対訳辞書翻訳知識対訳コーパス地名対訳辞書

10 汎化言語モデル汎化フレーズテーブルフレーズテーブル汎化翻訳知識言語モデル地名対訳辞書翻訳知識対訳コーパス英語コーパス

11 汎化言語モデル汎化フレーズテーブルフレーズテーブル汎化翻訳知識言語モデル地名対訳辞書翻訳知識対訳コーパス地名対訳辞書

12 汎化言語モデル汎化フレーズテーブルフレーズテーブル汎化翻訳知識言語モデル地名対訳辞書翻訳知識対訳コーパス地名対訳辞書

13 汎化言語モデル汎化フレーズテーブルフレーズテーブル汎化翻訳知識言語モデル地名対訳辞書翻訳知識対訳コーパス地名対訳辞書

14 学習 (2/2) • 言語モデル ( 単語 5-gram の N-gram

15 汎化言語モデル汎化フレーズテーブルフレーズテーブル汎化翻訳知識言語モデル地名対訳辞書翻訳知識対訳コーパス英語コーパス

16 「地名対訳辞書」の作成 (2/2) • フレーズテーブルを用いて作成　 1. 「日本語 1 単語」−「英語

17 汎化言語モデル汎化フレーズテーブルフレーズテーブル汎化翻訳知識言語モデル地名対訳辞書翻訳知識対訳コーパス地名対訳辞書

18 フレーズテーブルの汎化 (2/2) • 「地名対訳辞書」を用いて汎化・日本語句内の地名を「 PLACE|PLACE 」・英語句内の地名を　　　　　　　　　　　　　　　　　　　・「

19 汎化言語モデル汎化フレーズテーブルフレーズテーブル汎化翻訳知識言語モデル地名対訳辞書翻訳知識対訳コーパス地名対訳辞書

20 言語モデルの汎化 (2/2) • 汎化した学習データ ( 英語文 ) を　　　　　学習に用いる

21 評価実験 : 評価方法 • 日英翻訳 • 翻訳手法

22 評価実験 : 使用データ • 学習データ ( 対訳文 )

23 実験結果及び考察 • 提案手法により翻訳精度が改善した理由 1. より長い対訳句を用いた翻訳　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　※句の長さ :

24 考察：「地名対訳辞書」の問題 • 地名を含む対訳句の内　　　　　　　　　　　 45.0% しか汎化できていない • 原因　　　　　　　　　　　　　　　　　　　　・学習データに頻出する

25 翻訳方法 open (1) (2) 既存手法 13.07 13.27 提案手法 13.86

26 • 未知の地名を含む文の翻訳精度改善に有効・より長い句を用いた翻訳・地名が配置されるべき位置への配置 • 提案手法の改善のために　　・「地名対訳辞書」の網羅性を上げる

27 終わり

28 使用ツール及び言語資源 • デコーダ　　　　　 :Moses • 単語アライメント　 :GIZA++ • 言語モデル