句に基づく統計的機械翻訳
入力された原言語を句に分解して翻訳
日本語 を
英語 に
翻訳 する 事
は 難しい
Japanese is
difficult
to translate
Into English
日本語 を 英語 に 翻訳 する 事 は 難しい 。
入力
Japanese is difficult to translate into English .
出力
。
.
翻訳過程
列挙された翻訳候補から最終的な翻訳を選択
Japanese is
difficult
translation
Into English
.
Japanese is
difficult
to translate
Into English
.
Japanese
difficult
to translate
English
.
Japanese is
difficult
to translate
Into English
.
日本語 を 英語 に 翻訳 する 事 は 難しい 。
入力
Japanese is
difficult
to translate
Into English
.
Japanese
difficult
to translate
English
.
Japanese is
difficult
to translate
Into English
.
Japanese
difficult
to translate
English
.
翻訳候補は無数に存在
この過程をデコードと呼ぶ
出力
翻訳候補の列挙
~句の翻訳~
分割したフレーズを翻訳
様々な翻訳が考えられる
Japanese is
difficult
to translate
Into English
.
Japanese
to English
translate
Is difficult
.
Japanese to
English
translation
difficult
.
日本語 を
英語 に
翻訳 する 事
は 難しい
日本語 を 英語 に 翻訳 する 事 は 難しい 。
入力
。
Japanese of
In English
translating
difficult
.
Slide 11
Slide 11 text
翻訳候補の列挙
~句の並び替え~
翻訳したフレーズを並び替え
様々な並び替えが考えられる
Japanese is
difficult
to translate
Into English
.
日本語 を
英語 に
翻訳 する 事
は 難しい
日本語 を 英語 に 翻訳 する 事 は 難しい 。
入力
。
Japanese is
difficult
to translate
Into English
.
Japanese is
difficult
to translate
Into English
.
Japanese is
difficult
to translate
Into English
.
Slide 12
Slide 12 text
翻訳過程
~選択~
翻訳候補の中から最もらしい翻訳を選びたい
どうやって選ぶ?
Japanese is
difficult
translation
Into English
.
Japanese is
difficult
to translate
Into English
.
Japanese
difficult
to translate
English
.
Japanese is
difficult
to translate
Into English
.
Japanese is
difficult
to translate
Into English
.
Japanese
difficult
to translate
English
.
Japanese is
difficult
to translate
Into English
.
Japanese
difficult
to translate
English
.
日本語 を 英語 に 翻訳 する 事 は 難しい 。
入力
Slide 13
Slide 13 text
選択に必要なもの:スコア
各翻訳候補にスコアを与える
日本語 を 英語 に 翻訳 する 事 は 難しい 。
入力
Japanese is
difficult
translation
Into English
.
Japanese is
difficult
to translate
Into English
.
Japanese
difficult
to translate
English
.
Japanese is
difficult
to translate
Into English
.
Japanese is
difficult
to translate
Into English
.
Japanese
difficult
to translate
English
.
Japanese is
difficult
to translate
Into English
.
Japanese
difficult
to translate
English
.
スコア
高いスコアの候補を選べば
翻訳出来る!
-9
-7
-11
-9
-9
-13
-10
-10
翻訳らしさのスコア
フレーズごとに考える
各フレーズのスコアを足した
ものが最終的な各候補の
翻訳らしさのスコア
Japanese is
difficult
to translate
Into English
.
Japanese is
English
to translate
Is difficult
.
Japanese
Into English
translate
difficult
.
日本語 を
英語 に
翻訳 する 事
は 難しい
日本語 を 英語 に 翻訳 する 事 は 難しい 。
入力
。
Japanese
English
to translate
difficult
.
スコア
-1
-1
-2
-2
-1
-1
-2
-2
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
-1
-2
-1
-1
-2
-2
-1
-2
-1
-1
-2
-2
-6
-7
-8
-9
=
=
=
=
Slide 16
Slide 16 text
言語らしさのスコア
訳文に対して考える
日本語 を 英語 に 翻訳 する 事 は 難しい 。
入力
Japanese is
difficult
translation
Into English
.
Japanese is
difficult
to translate
Into English
.
Japanese
difficult
to translate
English
.
Japanese is
difficult
to translate
Into English
.
Japanese is
difficult
to translate
Into English
.
Japanese
difficult
to translate
English
.
Japanese is
difficult
to translate
Into English
.
Japanese
difficult
to translate
English
.
スコア
-2
-1
-1
-3
-3
-3
-4
-2
Slide 17
Slide 17 text
最終的なスコア
翻訳らしさと言語らしさのスコアを足し算
日本語 を 英語 に 翻訳 する 事 は 難しい 。
入力
Japanese is
difficult
translation
Into English
.
Japanese is
difficult
to translate
Into English
.
Japanese
difficult
to translate
English
.
Japanese is
difficult
to translate
Into English
.
Japanese is
difficult
to translate
Into English
.
Japanese
difficult
to translate
English
.
Japanese is
difficult
to translate
Into English
.
Japanese
difficult
to translate
English
.
翻
訳
ら
し
さ
言
語
ら
し
さ
最
終
ス
コ
ア
-2
-1
-1
-3
-3
-3
-4
-2
-7
-6
-10
-6
-6
-10
-6
-8
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
-9
-7
-11
-9
-9
-13
-10
-10
最もスコアが高い訳文を選ぶ
Slide 18
Slide 18 text
翻訳過程の数式化
今までの翻訳過程を数式で表すと
翻訳スコア
言語スコア
翻訳元の文fに対してスコアが最大
となる翻訳eを選ぶ
※スコアは0以下の数値
e = arg max
e
{
Scoretr(e
|
f)
tr
+ Scorelm(e)
lm }
翻訳スコアの重み
言語スコアの重み
Slide 19
Slide 19 text
確率モデルによる翻訳過程
の表現
今までのスコアは対数と確率で表す事が出来る
e = arg max
e
{
log(Ptr(e
|
f))
tr
+ log(Plm(e))
lm }
e = arg max
e
{
Scoretr(e
|
f)
tr
+ Scorelm(e)
lm }
※スコアは0以下の数値
翻訳モデル
言語モデル
パラレルコーパス・
モノリンガルコーパス
これはペンです。
彼はトムです。
あれは青い鳥です。
This is a pen .
He is Tom .
That is a blue bird .
モノリンガルコーパス (日本語)
モノリンガルコーパス (英語)
パラレルコーパス
二言語で文レベルの対応が存在すればパラレルコーパス
コーパス(corpus)とは、言語学において、自然言語処理の研究に用いるため、
自然言語の文章を構造化し大規模に集積したもの。 by Wikipedia
翻訳モデル
入力された文に対し、翻訳候補とその確率を返す
0.8
確率
翻訳モデル
フレーズの翻訳確率の積
以降フレーズの翻訳について扱う
日本語 を
英語 に
翻訳 する 事
は 難しい
Japanese is
difficult
to translate
Into English
。
.
日本語 を 英語 に 翻訳 する 事 は 難しい 。
入力
文の翻訳候補は各フレーズの翻訳候補から導ける
Slide 33
Slide 33 text
フレーズの抽出
Japanese
is
difficult
to
translate
into
English
.
与えられた単語アライメントからフレーズを抽出する
黒いセルは単語間に対応が
存在する事を示す
Slide 34
Slide 34 text
抽出時の制約
Japanese
is
difficult
to
translate
into
English
.
抽出には以下の制約が存在
• 抽出するフレーズの縦横の延長線上に単語アライメントの対応が存在してはならない
• 抽出するフレーズには一つ以上の単語アライメントの対応が存在しなければならない
フレーズ対
翻訳 する 事 / to translate
の例
水色の箇所に黒いセルが
存在してはならない
Slide 35
Slide 35 text
フレーズの列挙
Japanese
is
difficult
to
translate
into
English
.
制約を満たすフレーズを全て列挙する
この作業は全ての文に対して行う
日本語 / Japanese
英語 / English
に / into
翻訳 する / translate
事 / to
は / is
難しい / difficult
英語 に 翻訳 する
/ translate into English
に 翻訳 する / translate into
に 翻訳 する 事
/ to translate into
事 は 難しい / is difficult to
は 難しい / is difficult
翻訳 する 事 / to translate
翻訳 する 事 は 難しい
/ is difficult to translate
。 / .
※この例では単語数の制限を5にした
デコード
探索問題として考える
日本語 を
英語 に
翻訳 する 事
は 難しい
Japanese is
difficult
to translate
Into English
。
.
start
日本語 を
Japanese is
英語 に
Into English
日本語 を
Japanese is
は 難しい
difficult
翻訳 する 事
to translate
。
.
・・・・
。
.
は 難しい
difficult
。
.
は 難しい
difficult
全ての経路を考える事は無理・・・
Slide 46
Slide 46 text
ビームサーチ
スコア上位N件の候補を保持
日本語 を
英語 に
翻訳 する 事
は 難しい
Japanese is
difficult
to translate
Into English
。
.
start
日本語 を
Japanese is
英語 に
Into English
日本語 を
Japanese is
は 難しい
difficult
翻訳 する 事
to translate
。
.
・・・・
例:上限2
Nを調節する事で計算機の性能に合わせた翻訳が可能