Upgrade to Pro — share decks privately, control downloads, hide ads and more …

句に基づく統計翻訳における語句の並べ替えパターンの分析

 句に基づく統計翻訳における語句の並べ替えパターンの分析

大橋 一輝, 山本 和英, 齋藤 邦子, 永田 昌明. 句に基づく統計翻訳における語句の並べ替えパターンの分析. 言語処理学会第11回年次大会, pp.863-866 (2005.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 2 はじめに • 統計的機械翻訳 • 句に基づく翻訳モデル – 文脈に基づく訳語選択  ◦ –

    局所的な語の並べ替え ◦ – 大局的な語の並べ替え × • 語順が大きく異なる言語間の翻訳は難しい
  2. 4 句に基づく翻訳モデル p  f 1 I∣ e 1 I

    =∏ i=1 I   f i ∣ e i d a i −b i−1    f ∣ e= count   f , e ∑ f count   f , e d a i −b i−1 =∣a i −b i−1 −1∣ 文fが文eに翻訳される確率p(e|f) これが最大になる文 歪み確率 語順を表現する確率 翻訳確率 句eが句fに翻訳される確率  e=arg max e pe∣f =arg max e p f ∣e pe  e (ベイズの法則) 翻訳モデル
  3. 5 句に基づく翻訳モデル I you help disposed to am 私 助け

    て を 君 は あげ たい 0 1 2 3 4 5 6 |2-5|=3 歪み確率・・・直前に翻訳した句の右端と、次に翻訳 する句の左端に依存 直前 次 英日翻訳 → 句の相対的な位置しか考慮していない
  4. 6 語句の並べ替えパターン 英日翻訳で、日本語を文頭から生成していくと仮定 このとき、英語を翻訳する順番は、 Language of communication means is →

    → → 言語 は コミュニケーション の 道具 で ある Language is a means of communication どのようなパターンを考える?
  5. 7 語句の並べ替えパターン 直前に翻訳した句と次に翻訳した句の位置を考える Language ・・・ 正順 of communication ・・・ 正順間隙あり

    means ・・・ 逆順 is ・・・ 逆順間隙あり 言語 は コミュニケーション の 道具 で ある Language is a means of communication
  6. 9 分析方法 • 対訳文の対応付け • この対応付けを分析 言語 は コミュニケーション の

    道具 で ある Language is a means of communication 対応付けがわかれば並べ替えパターンもわかる 翻訳確率×削除確率×挿入確率がもっとも高い対応
  7. 17 実験 • 英日翻訳 • 英日の対訳コーパス78万文 – 日英新聞記事対応付けデータ(JENAAD) 15万文 –

    辞書例文 55万分 – 技術文献 8万文 • 500文をテストデータ、残りを翻訳モデルの構築
  8. 21 品詞への依存(英語側) 順位 1 2 3 4 正順(%) 正順間隙あり(%) 冠詞(24)

    冠詞(23) 代名詞(18) 名詞(19) 名詞(17) 前置詞(12) 動詞(12) 代名詞(11) • 冠詞、代名詞、名詞で約60% • 正順間隙ありでは前置詞が上位に
  9. 22 品詞への依存(日本語側) 順位 1 2 3 4 正順(%) 正順間隙あり(%) 助詞

    – 係助詞(20) 名詞 – 一般(23) 名詞 – 一般(15) 助詞 – 格助詞(16) 動詞 – 自立(9) 助詞 – 連体化(10) 助詞 – 格助詞(9) 助動詞(7) • 助詞や名詞が上位に
  10. 24 品詞への依存(英語側) • 動詞、前置詞が上位に 順位 1 2 3 4 逆順(%)

    逆順間隙あり(%) 動詞(23) 動詞(20) 前置詞(19) 代名詞(18) 限定詞(15) 名詞(16) 名詞(13) 限定詞(9)
  11. 25 品詞への依存(日本語側) • 助動詞、助詞、動詞が多い 順位 1 2 3 4 逆順(%)

    逆順間隙あり(%) 助動詞(26) 助動詞(29) 動詞 – 自立(17) 助詞 – 格助詞(13) 助詞 – 格助詞(13) 動詞 – 自立(11) 名詞 – 一般(10) 助詞 – 連体化(8)
  12. 32 品詞への依存(英語側) • 逆順 – 英語は主語の次に動詞が来る – 日本語では動詞が末尾に来る – 前置詞が単独で翻訳される(of

    communication) • 逆順間隙あり – 文頭近くの代名詞が動詞句に含まれる 言語 は コミュニケーション の 道具 で ある Language is a means of communication
  13. 33 ビタビアルゴリズム 言語 は コミュニケーション の 道具 で ある Language

    is a means of communication 現在の解析位置 言語 言語 Language Language ... is
  14. 34 ビタビアルゴリズム 言語 は コミュニケーション の 道具 で ある Language

    is a means of communication 現在の解析位置 言語 は Language is ... ... 言語 Language is は communication コミュニケーション
  15. 35 ビタビアルゴリズム 言語 は コミュニケーション の 道具 で ある Language

    is a means of communication 現在の解析位置 言語 は 言語 は Language Language is コミュニケーション communication コミュニケーション の communication of ... ...