Upgrade to Pro — share decks privately, control downloads, hide ads and more …

B3 勉強会 第十回

B3 勉強会 第十回

gumigumi7

March 15, 2016
Tweet

More Decks by gumigumi7

Other Decks in Education

Transcript

  1. 統計的機械翻訳(おさらい) NULL I bought a book yesterday I bought bought

    book yesterday NULL I bought bought book yesterday は 私 を 買った 本 昨日 私 は 昨日 本 を 買った Fertility モデル NULL generation モデル Lexicon モデル Distortion モデル e: 目的言語 j: 原言語
  2. 統計的機械翻訳(おさらい) ▪ 単語アライメント ▪ 翻訳生成過程の単語の対応付け NULL I bought a book

    yesterday 私 は 昨日 本 を 買った e: 目的言語 a: アライメント j1 j2 j3 j4 j5 j6 j: 原言語 1, 0, 5, 4, 2, 2 ( )
  3. 句に基づく統計翻訳 NULL I bought a book yesterday 私 は 昨日

    本 を 買った NULL I bought a book yesterday 私 は 昨日 本 を 買った 私 は 昨 日 本 を 買 っ た I bought a book yesterday 私 は 昨 日 本 を 買 っ た I bought a book yesterday 私 は 昨 日 本 を 買 っ た I bought a book yesterday 私 は 昨 日 本 を 買 っ た I bought a book yesterday
  4. 句に基づく統計翻訳 ▪ この結果から単語対応と整合する句対応をすべて採用す る。 ▪ I ⇔ 私 , I

    ⇔ 私は , bought ⇔ を買った , book ⇔ 本 yesterday ⇔ 昨日 , bought a ⇔ を買った , book yesterday ⇔ 昨日本 , a book yesterday ⇔ 昨日本 bought a book ⇔ 本を買った bought a book yesterday ⇔ 昨日本を買った I bought a book yesterday ⇔ 私は昨日本を買った ▪ 句対応を採用した時、その外に単語対応する単語は残ら ないようにする ▪ bought a book yesterday ⇔ 昨日 本 を という対応は bought ⇔ 買う の単語対応が 外に出るので採用しない
  5. 句に基づく統計翻訳 ▪ デコーディング ▪ 原言語文に対して確率値が最大となる目的言語文を探索する ▪ 句に基づく翻訳では、句を単位として目的言語分を文頭から 順に生成していく ▪ これまでと同様の日本語文を入力すれば、順に翻訳して

    I bought a book yesterday. を得る ▪ 英語側は文頭から作成するが、日本語の句はどの順でも良い ▪ “a book yesterday”で始まる文も生成可能 ▪ 文頭から翻訳の途中結果のスコアを随時計算し、 枝刈りしながら探索を進める。 ▪ オープンソースのデコーディングのソフト → moses等
  6. 構文の利用 ▪ 日英,英日翻訳のように語順、性質が大きく異る言語間 の翻訳には限界がある → 構文を利用する ▪ 構文に基づく統計翻訳 ▪ 単語アライメントを行ったうえで、構文解析を行い、単語の対応関係

    をその上にマップすることで構造を持った翻訳断片の対応を学習する。 ▪ 状況に応じて一方の言語の構造解析を行うことが一般的 ▪ 例)英語のマニュアルを様々な言語に翻訳する ▪ 原言語側の英文の構造解析のみを行い、目的言語側は構造は扱わず に単語列として扱う。
  7. 構文の利用 ▪ 事前並び替え ▪ 日本語の構造は主辞が後ろに来る性質があるため、英日翻訳を考 える場合は原言語の英語の構造解析を行い、主辞が後ろに来るよう に並び替えを行う ▪ 語順の大きな違いがなくなることにより、句に基づく統計翻訳でうまく 扱うことが可能になる。

    ▪ 用例翻訳 ▪ 両言語の構文解析を行い、翻訳用例に対して大きさの制限を設け ず、できるだけ大きな用例を用いた用例を優先する。 ▪ 人間の専門家による翻訳の支援などにおいても有効
  8. 用例に基づく翻訳 知られている ことが 高い 有用性が CTは 光 対訳コーパス 知られている ことが

    高い 有用性が 方式は この is known it that has method this usefulness high CTは 光 増やす CT optical increases is known it that has CT optical usefulness high