翻訳順序パタンを考慮した統計的機械翻訳モデル

1 翻訳順序パタンを考慮した統計的機械翻訳モデル電気電子情報工学専攻山本研究室 04531289 大橋一輝

2 全体の流れ • 統計的機械翻訳とは • 従来の歪み確率モデル • 提案する歪み確率モデル • 実験

3 統計的機械翻訳とは(1/2) • 1990年代前半にIBM研究所から提案 • 短期間に低コストで翻訳システムを構築可能 • 言語に依存しない – 日英、英日、中英、独英、仏英、英仏、・・・
I am a student . 我是学生 . Ich bin ein Kursteilnehmer . 私は学生です。

4 統計的機械翻訳とは(2/2) • 「対訳文」を大量に学習 “I am a student .” “私
は学生です。” “I am a teacher .” “私は先生です。” “He is a student .” “彼は学生です。” … – 公用語が複数ある国の国会議事録(ハンザード) – 辞書の例文 – 世界規模で配信されているニュース記事

5 ノイズのある通信路モデル • 英日翻訳のとき言語モデル…日本語らしさを表す翻訳モデル…言語間の翻訳を表すデコーダ …モデルの確率が最大となる文を探索する情報源モデル（言語モデル）
通信路モデル（翻訳モデル）デコーダ日本語英語英語日本語 P(j) P(e|j) arg max P(j|e) = arg max P(j)P(e|j)

7 言語モデル • ある言語らしさを表すモデル • N-gram モデル(マルコフモデル)を用いる – 直前の N-1
単語が、その次に来る単語に影響する 2-gram による “私は学生です。” の生起確率 P(私) × P(は|私) × P(学生|は) × P(です|学生)× P(。|です) • 単純だが有効なモデルとして用いられている

8 翻訳モデル • 語に基づいたモデルから句に基づいたモデルへ • 句に基づいた翻訳モデルが研究の主流 • 局所的な語の順序を間違えにくい • 大局的な句の順序を間違えやすい
• 語順が大きく異なる言語間の翻訳は難しい → 大局的な句の順序の精度を上げたい

9 句に基づいた翻訳モデル(1/4) I am a Japanese student 語に基づいたモデル Japanese 日本の
日本人日本製の日本翻訳元言語の文句に基づいたモデル Japanese student 日本の学生日本人学生 • 局所的な語の順序を間違えにくい英日翻訳

10 句に基づいた翻訳モデル(2/4) • 翻訳元言語文 e は句に分解される • 翻訳先言語文 j
は句に分解される argmax j pe∣j p j  e 1 I p  e 1 I∣ j 1 I =∏ i=1 I  e i ∣ j i d a i −b i−1   e i ∣ j i  d a i −b i−1  翻訳確率歪み確率  j 1 I ノイズのある通信路モデル

11 句に基づいた翻訳モデル(3/4) • 翻訳確率 – 相対確率頻度確率あなたは
and you 2 0.1 あなたは do you 3 0.15 あなたは how about you 5 0.25 あなたは you 10 0.5  e∣ j= count  e , j ∑  e count  e , j

12 句に基づいた翻訳モデル(4/4) 歪み確率…直前に翻訳した句の右端の位置と、次に翻訳する句の左端の位置の差の絶対値を考慮 →　これだけでは語順の違いを表現できない言語はコミュニケーションの道具
Language is a means of communication 英日翻訳 1 2 3 4 5 6 次直前 |6-4|=2

13 モデルの構築 • 言語モデル – 対訳文の翻訳先言語側の 3-gram • 翻訳モデル –
GIZA++ を用いて単語の対応付け – 対訳文から句を抽出 – 相対確率

句の抽出(1/4) 言語はコミュニケーションの道具である language
is a means communication of 言語はコミュニケーションの道具である language is a means communication of 日英方向の対応付け英日方向の対応付け積集合和集合言語はコミュニケーションの道具である language is a means communication of

is a means communication of 言語はコミュニケーションの道具である language is a means communication of 日英方向の対応付け英日方向の対応付け (言語,language) (の,of) (コミュニケーション,communication) (の道具, a means of) (コミュニケーションの, of communication) 積集合和集合言語はコミュニケーションの道具である language is a means communication of

is a means communication of 言語はコミュニケーションの道具である language is a means communication of 日英方向の対応付け英日方向の対応付け (言語,language) (の,of) (コミュニケーション,communication) (の道具, a means of) (コミュニケーションの, of communication) (言語は, language is) (コミュニケーションの道具, a means of communication) 積集合和集合言語はコミュニケーションの道具である language is a means communication of (の道具である, a means of)

句の抽出の改善積集合和集合言語はコミュニケーションの道具で
ある language is a means communication of 英和・和英辞典に載っている単語対は積集合として扱う → より確実に句を抽出言語はコミュニケーションの道具である language is a means communication of 道具 means しかし、積集合に入っていない

19 デコーダ(1/4) • どの順に翻訳すれば良いか • セールスマン巡回問題 → NP完全問題 • 翻訳文を文頭から生成していくという制約
Language is a means of communication . 言語言葉言語は言語は道具です道具のコミュニケーションコミュニケーションのコミュニケーションの道具ひとつの手段方法英日翻訳

20 デコーダ(2/4) • 前向きビーム探索でワードグラフを作成

21 デコーダ(3/4) • ワードグラフ(word graph) start 言語はは
翻訳入力 “Language is a means of communication .” goal 1000000 言語言葉は通信のコミュニケーションのコミュニケーションの通信のコミュニケーションの 1000000 1100000 1100000 1100000 1100110 1100110 1100110 1100110 　　　　　　　　通信の 1111110 道具だ道具だ 1111110 道具　　　　　　　　道具 1111111 1111111 1111111 。です。。

22 デコーダ(4/4) • 前向きビーム探索でワードグラフを作成 • 後ろ向き A* 探索で上位 N-best の解を出力
– 前向き探索の段階でノードまでのコストは計算済み – A* 探索の予測確率が確実

24 従来の歪み確率モデル歪み確率…直前に翻訳した句の右端の位置と、次に翻訳する句の左端の位置の差の絶対値を考慮 →　これだけでは語順の違いを表現できない言語はコミュニケーションの道具
Language is a means of communication 英日翻訳 1 2 3 4 5 6 次直前 |6-4|=2

26 提案する歪み確率モデル • 翻訳順序の4つのパタン d • パタンの発生に影響する4つの因子 pd∣  e
i−1 ,  e i ,  f i−1 ,  f i 

27 翻訳順序パタン • 直前に “ツインを二” を翻訳した • 次に翻訳するべき句はどれ？ → “ツインを二”
から見てどの位置の句？ツインを二予約 I'd like to two twin <s> <s> </s> したいのですが reserve 部屋直前日英翻訳

ツインを二予約 I'd like to two twin <s> <s> </s>
したいのですが reserve 部屋 rooms 正順直前次翻訳順序パタン(正順･正順間隙あり) – 文頭から文末方向で間が開いていない – 文頭から文末方向で間が開いているツインを二予約 I'd like to <s> <s> </s> したいのですが部屋正順間隙あり直前次日英翻訳

ツインを二予約 I'd like to <s> <s> </s> したいのですが reserve
部屋逆順直前次翻訳順序パタン(逆順･逆順間隙あり) – 文末から文頭方向で間が開いていない – 文末から文頭方向で間が開いているツインを二予約 I'd like to two twin <s> <s> </s> したいのですが reserve 部屋逆順間隙あり直前次日英翻訳

提案する歪み確率モデル • パタンに影響する因子 pd∣ f i  pd∣  e
i−1 ,  f i  pd  pd∣  e i−1 ,  f i−1 ,  f i  pd∣  e i−1 ,  e i ,  f i−1 ,  f i  Type1: Type2: Type3: Type4: Type5: 翻訳元言語翻訳先言語  e i−1  f i−1  f i  e i ツインを二予約 I'd like to two twin <s> <s> </s> したいのですが reserve 部屋 rooms 正順直前次  e i−1  e i  f i−1  f i 語に基づく翻訳モデルにおける歪みモデルとのアナロジー d  j− j'∣classe i−1 ,class f j  d  j− j'∣class f j 

31 歪みモデルの構築(1/2) • 対訳文の対応付けをする • 対応付けがあれば翻訳順序のパタンがわかる • パタンの頻度からモデルを構築言語は
コミュニケーションの道具である Language is a means of communication

32 歪みモデルの構築(2/2) • 制約をかけたデコーダを用いる – 翻訳元言語、翻訳先言語の両方が与えられている → 翻訳先言語と矛盾する仮説は探索しない – N-best
を出力言語はコミュニケーションの Language is a means of communication 道具である

33 歪みモデルの例 • Type 1 -1|0.207|77613 -2|0.0834|31261 1|0.401|150382 2|0.308|115537 •
Type 3 -1 あいつを捕まえて .|0.4|2 -1 あそこ for the two girls|1|2 -1 あそこ we can buy cds cheaper|1|1 -1 あそこにあるレストラン do you see|1|1 pd∣  e i−1 ,  f i  pd 

34 歪みモデルの汎化 • 句の表記を使うと頻度が少ない – Type3 -1 あそこにある
レストラン do you see|1|1 • 句を分類 – 句の品詞 – クラスタリング pd∣  e i−1 ,  f i 

35 句の品詞 • (Ohashi, IWSLT 2005) • 語順に影響するであろう単語の品詞を使う – 英語と中国語は句の先頭の単語の品詞
– 日本語は句の末尾の単語の品詞 • 信号は助詞 • the light 冠詞 • 句の先頭と末尾の品詞を使う – 言語に依存しない • 信号は名詞-助詞

36 句のクラスタリング • 句の対応付けの N-best を用いる • mkcls を用いてクラスタリング –
GIZA++ に付属している単語クラスタリングツール – 単語の 2-gram を元にクラスタリング – 句を単語として扱う “ツインを二部屋、” “予約したいのですが” “。” “ツインを二部屋、予約し” “たいのですが” “。” “ツインを二部屋、” “予約し” “たいのですが” “。”

38 実験(1/3) • 日英翻訳 • IWSLT 2005(International Workshop on Spoken
Language Translation) – 多言語話し言葉翻訳技術の国際ワークショップ – 旅行会話対訳文 20000対 – 開発セット 500文 – テストセット 500文

39 実験(2/3) • 翻訳確率モデル - Pharaoh-Training • 歪み確率モデル - 自作デコーダ
• 言語モデル – Palmkit • デコーダ - 自作

40 実験(3/3) • 予定 • 中英翻訳 • 日英の対訳文78万文 – 日英新聞記事対応付けデータ(JENAAD)
15万文 – 辞書例文 55万分 – 技術文献 8万文 • Pharaoh-Training はモデルが200GB以上に → 対策が必要

41 評価(1/2) • 翻訳結果を人が評価する – 大きなコスト – 評価者によるゆれ • 自動評価指標
BLEU – 翻訳結果の正解例との類似度を計算 – 人間の評価に近いという報告 – 統計的機械翻訳の分野で主流の評価手法本研究では BLEU を用いて評価する

42 評価(2/2) • PN : 翻訳結果と正解例で単語 N-gram が一致する割合 •
BP : 文が短いときのペナルティ • 1-gram から N-gram の幾何平均 • N=4 が人の評価との相関が高い BLEU =BP×∏ n=1 N P N 1/ N

43 結果ベースライン Type1 Type2 Type3 Type4 Type5 0.3
0.31 0.32 0.33 0.34 0.35 0.36 0.37 句の表記クラスタリング 5 句の品詞ひとつ句の品詞ふたつ歪みモデルの種類 BLEU スコア

44 考察(1/2) • Type1 と Type 2 で BLEU スコアが上昇
• Type 3 以降は落ちる – スパースネス – 句の表記はバリエーションが非常に多い – 句の品詞は30個 → まだ20000文しか学習していない – 句の表記の Type 5 のスコアが Type 4 より良い → Type 5 で考慮している、次に翻訳する句が重要？

45 考察(2/2) • Type 3 以降は落ちる – クラスタリングには上位 N-best の対応付けを使用
– N-best に入らない句はクラスを得られない → すべての句をクラスタリングできる手法へ

46 結果(予定) • パラメータを変える – N-best の数 – クラスタリング数 –
歪みモデル構築におけるデコーダのパラメータ • 句の抽出改善の効果

47 結論 • 新たな句の歪み確率モデルを提案、実装 • 従来のモデルよりも高いスコアが得られた

48 おわり

49 単語に基づいた翻訳モデル • 翻訳確率t(j|e) – I 私 0.5 • 繁殖数確率n(
|e) φ – “Japanese” は “日本の” という2語になりやすい – Japanese が日本語で一語になる確率 0.2 – Japanese が日本語で二語になる確率 0.79 – Japanese が日本語で三語になる確率 0.01 • 歪み確率 d  j− j '∣classe i−1 ,class f i 

50 単語に基づいた翻訳モデル歪み確率直前に翻訳した語の位置と、次に翻訳する語の位置の相対的な差を考慮言語はコミュニケーションの道具
である Language is a means of communication 英日翻訳 1 2 3 4 5 6 次直前 4-5=-1 d  j− j '∣classe i−1 ,class f i 

51 単語に基づいた翻訳モデル • EMアルゴリズム – 反復改善法によりパラメタを最尤推定 – 初期値に依存する最大値へ収束 • 手順
– 初期値を設定 – 各パラメタの頻度を求める – 頻度に比例する値で各パラメタを更新する

52 品詞への依存(英語側) 順位 1 2 3 4 正順(%) 正順間隙あり(%) 冠詞(24)
冠詞(23) 代名詞(18) 名詞(19) 名詞(17) 前置詞(12) 動詞(12) 代名詞(11) • (大橋ら, 2005) • • • • • • 冠詞、代名詞、名詞で約60% • 正順間隙ありでは前置詞が上位に

53 ツール • 形態素解析 – 日本語 ChaSen – 英語 tokenizer.sed
• 品詞タグ付け – 日本語 ChaSen(品詞第2階層まで） – 英語 MXPOST

54 Pharaoh • バイナリが公開されているデコーダ • 句に基づいた翻訳モデルを採用 • 歪み確率 p D
=exp−∑ i d i  言語はコミュニケーションの道具 Language is a means of communication 英日翻訳 1 2 3 4 5 6 次直前 d=|6-4|=2

翻訳順序パタンを考慮した統計的機械翻訳モデル

翻訳順序パタンを考慮した統計的機械翻訳モデル

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript