Upgrade to Pro — share decks privately, control downloads, hide ads and more …

B3 勉強会 第八回

gumigumi7
February 25, 2016
89

B3 勉強会 第八回

gumigumi7

February 25, 2016
Tweet

Transcript

  1. 機械翻訳の難しさ ▪ 語彙のズレ ▪ 言語間の語句の対応は1対1ではないことに起因する。 ▪ 英語の「put on」は日本語では目的語によって「帽子をかぶる」「めが ねをかける」「服を着る」などになる。 ▪

    一般的には「飲む=drink」であるが、「スプーンでスープを飲む」を翻 訳すると「eat soop with a spoon」となる。 ▪ 語順の違い ▪ 言語によって語順が異なる ▪ 日本語は述語が文末で、項の語順が比較的自由であるのに対して、 英語は主語、動詞、目的語の順で固定である
  2. 機械翻訳の難しさ ▪ 構造のズレ ▪ 単純な語順の違いは構文解析によって吸収できるが、さらに構造が 異なる翻訳関係も少なくない ▪ 「AがBによってCになった」と「B makes A

    C」では意味が同じである が、主語が異なる ▪ 明示する表現の違い ▪ 英語では単数・複数を区別し、冠詞を用いるが、日本語ではこれらが ないため日本語から英語への翻訳で問題となる ▪ 逆に日本語では「二枚」「三枚」と様々な助数詞が用いられるが、英 語ではこれらがないため、英日翻訳では問題となる
  3. 機械翻訳の歴史 ▪ 構文トランスファー方式 (syntactic transfer) ▪ 規則によって原言語文の構文を解析、目的言語への構造的翻訳を 行うもの ▪ アナロジーに基づく翻訳

    (translation by analogy) ▪ 過去の翻訳用例を用い、組み合わせることで新たな翻訳文を作る ▪ 現在では用例翻訳と呼ばれる ▪ 統計的機械翻訳 (statistical machine translation) ▪ 大量の対訳文データを用いて語の対応や語順の並び替えを統計的 に学習し、それに基づき翻訳 ▪ コーパスに基づく翻訳 (corpus-based machine translation) ▪ 対訳データ中の言語の対応を自動学習し翻訳
  4. 統計的機械翻訳 ▪ P(e) : 言語モデル ▪ 目的言語の文eのもっともらしさを計算するモデル ▪ P(j|e) :

    翻訳モデル ▪ 目的言語文eが原言語文jに翻訳される確率 ▪ P(j|e)のモデル化の方法が問題となる = arg max (|) = arg max () () = arg max (|)()
  5. 統計的機械翻訳 NULL I bought a book yesterday I bought bought

    book yesterday NULL I bought bought book yesterday は 私 を 買った 本 昨日 私 は 昨日 本 を 買った Fertility モデル NULL generation モデル Lexicon モデル Distortion モデル e: 目的言語 j: 原言語
  6. 統計的機械翻訳 ▪ 目的言語の文を英語文 e={e1,e2,e3,・・・,el} 原言語の文を日本語文 j={j1,j2,j3,・・・,jm} とする ▪ Fertilityモデル ▪

    英語の各単語eiがΦi個の日本語単語を生成すると考える ▪ 0個の場合や複数個の場合もある ▪ この確率をPn(ei|Φi)とする ▪ NULL generationモデル ▪ 生成する文章の長さを合わせるためe0=NULLという仮想的な語から Φ0個の日本語単語を生成する。
  7. 統計的機械翻訳 ▪ 単語アライメント ▪ 翻訳生成過程の単語の対応付け NULL I bought a book

    yesterday 私 は 昨日 本 を 買った e: 目的言語 a: アライメント j1 j2 j3 j4 j5 j6 j: 原言語 1, 0, 5, 4, 2, 2 ( )
  8. 統計的機械翻訳 ▪ 単語アライメントが大量にあれば、モデルのパラメータは最 尤推定で簡単に計算可能 ▪ 対訳コーパス中にbookが100回出現し,そのうち70回が本にアライメ ントされていればLexiconのモデルのPt(本|book)は0.7 ▪ 統計翻訳では100万文規模の対訳分が必要 ▪

    人手での単語アライメントの付与は非現実的 ▪ 対訳コーパスを用いて単語アライメントとパラメータ推定を同時に行う ▪ 対訳コーパスの尤度を最大化することを目標にパラメータを自動調整 → EMアルゴリズム