句に基づく統計翻訳における語句の並べ替えパターンの分析

 句に基づく統計翻訳における語句の並べ替えパターンの分析

大橋 一輝, 山本 和英, 齋藤 邦子, 永田 昌明. 句に基づく統計翻訳における語句の並べ替えパターンの分析. 言語処理学会第11回年次大会, pp.863-866 (2005.3)

Transcript

  1. 1 句に基づく統計翻訳における 語句の並べ替えパターンの分析 大橋 一輝  山本和英  齋藤邦子  永田昌明 長岡技術科学大学 NTTサイバースペース研究所 1 1 2 2

    1 2
  2. 2 はじめに • 統計的機械翻訳 • 句に基づく翻訳モデル – 文脈に基づく訳語選択  ◦ –

    局所的な語の並べ替え ◦ – 大局的な語の並べ替え × • 語順が大きく異なる言語間の翻訳は難しい
  3. 3 はじめに • 英日翻訳における語句の並べ替えパターンを統計 的に分析 – 4つのパターンを考慮 – どれくらい存在する? –

    品詞に依存する? → より精度の高い語句の並べ替えモデルを作りたい
  4. 4 句に基づく翻訳モデル p  f 1 I∣ e 1 I

    =∏ i=1 I   f i ∣ e i d a i −b i−1    f ∣ e= count   f , e ∑ f count   f , e d a i −b i−1 =∣a i −b i−1 −1∣ 文fが文eに翻訳される確率p(e|f) これが最大になる文 歪み確率 語順を表現する確率 翻訳確率 句eが句fに翻訳される確率  e=arg max e pe∣f =arg max e p f ∣e pe  e (ベイズの法則) 翻訳モデル
  5. 5 句に基づく翻訳モデル I you help disposed to am 私 助け

    て を 君 は あげ たい 0 1 2 3 4 5 6 |2-5|=3 歪み確率・・・直前に翻訳した句の右端と、次に翻訳 する句の左端に依存 直前 次 英日翻訳 → 句の相対的な位置しか考慮していない
  6. 6 語句の並べ替えパターン 英日翻訳で、日本語を文頭から生成していくと仮定 このとき、英語を翻訳する順番は、 Language of communication means is →

    → → 言語 は コミュニケーション の 道具 で ある Language is a means of communication どのようなパターンを考える?
  7. 7 語句の並べ替えパターン 直前に翻訳した句と次に翻訳した句の位置を考える Language ・・・ 正順 of communication ・・・ 正順間隙あり

    means ・・・ 逆順 is ・・・ 逆順間隙あり 言語 は コミュニケーション の 道具 で ある Language is a means of communication
  8. 8 語句の並べ替えパターン 日本語で表現されない英語「a」 → 削除 英語で表現されない日本語「は」 → 挿入 言語 は

    コミュニケーション の 道具 で ある Language is a means of communication
  9. 9 分析方法 • 対訳文の対応付け • この対応付けを分析 言語 は コミュニケーション の

    道具 で ある Language is a means of communication 対応付けがわかれば並べ替えパターンもわかる 翻訳確率×削除確率×挿入確率がもっとも高い対応
  10. 10 分析方法 • 翻訳確率モデルの構築 – 対訳コーパスから句を抽出 – 相対確率 • 対訳コーパスのビタビ対応を算出

    – ビタビ対応・・・確率最大の対応付け – ビタビアルゴリズム
  11. 11 翻訳確率モデルの構築 • 対訳コーパスから句を抽出 – 単語対応を求めるツールGIZA++ – 原言語→目的言語、目的言語→原言語の両方向 – 単語対応付けから句を抽出

  12. 12 翻訳確率モデルの構築 …積集合 …和集合 言語 は コミュニケーション の 道具 で

    ある Language is a means of communication
  13. 13 翻訳確率モデルの構築 • 積集合の要素を句の中心とする • その近傍の和集合へ句を拡大 • 句に属していない単語を句へと吸収させていく …積集合 …近傍

  14. 14 翻訳確率モデルの構築 …積集合 …和集合 言語 は コミュニケーション の 道具 で

    ある Language is a means of communication
  15. 15 翻訳確率モデルの構築 …積集合 …和集合 言語 は コミュニケーション の 道具 で

    ある Language is a means of communication
  16. 16 分析方法 • 翻訳確率モデルの構築 – 対訳コーパスから句を抽出 – 相対確率 • 対訳コーパスにおける句のビタビ対応を算出

    – ビタビ対応・・・確率最大の対応付け – ビタビアルゴリズム
  17. 17 実験 • 英日翻訳 • 英日の対訳コーパス78万文 – 日英新聞記事対応付けデータ(JENAAD) 15万文 –

    辞書例文 55万分 – 技術文献 8万文 • 500文をテストデータ、残りを翻訳モデルの構築
  18. 18 実験 • オープンテスト – 3483単語中に1183語(34%)の挿入が発生 – 訳語が存在するかどうかが問題 • 500文のクローズドテストに対する評価のみ

    言語 は コミュニケーション の Language is a means of communication 道具 で ある
  19. 19 並び替えパターンの数 • 正順・・・515 • 正順間隙あり・・・355 • 逆順・・・448 • 逆順間隙あり・・・87

    • 正順以外が6割を占める • 英語と日本語の語順の違いが見られる
  20. 20 品詞への依存 • 並べ替えパターンは品詞に依存する? • 語句の並べ替えパターンに対する品詞の割合 – 英語側の句は先頭の語の品詞 – 日本語側の句は末尾の語の品詞

    • 品詞のタグ付け – 日本語は茶筌(第2階層まで) – 英語はMXPOST
  21. 21 品詞への依存(英語側) 順位 1 2 3 4 正順(%) 正順間隙あり(%) 冠詞(24)

    冠詞(23) 代名詞(18) 名詞(19) 名詞(17) 前置詞(12) 動詞(12) 代名詞(11) • 冠詞、代名詞、名詞で約60% • 正順間隙ありでは前置詞が上位に
  22. 22 品詞への依存(日本語側) 順位 1 2 3 4 正順(%) 正順間隙あり(%) 助詞

    – 係助詞(20) 名詞 – 一般(23) 名詞 – 一般(15) 助詞 – 格助詞(16) 動詞 – 自立(9) 助詞 – 連体化(10) 助詞 – 格助詞(9) 助動詞(7) • 助詞や名詞が上位に
  23. 23 品詞への依存 • 英語は前置詞を置いて後ろから修飾 • 日本語は前から修飾 言語 は コミュニケーション の

    道具 で ある Language is a means of communication 正順間隙あり
  24. 24 品詞への依存(英語側) • 動詞、前置詞が上位に 順位 1 2 3 4 逆順(%)

    逆順間隙あり(%) 動詞(23) 動詞(20) 前置詞(19) 代名詞(18) 限定詞(15) 名詞(16) 名詞(13) 限定詞(9)
  25. 25 品詞への依存(日本語側) • 助動詞、助詞、動詞が多い 順位 1 2 3 4 逆順(%)

    逆順間隙あり(%) 助動詞(26) 助動詞(29) 動詞 – 自立(17) 助詞 – 格助詞(13) 助詞 – 格助詞(13) 動詞 – 自立(11) 名詞 – 一般(10) 助詞 – 連体化(8)
  26. 26 品詞への依存(英語側) • 英語は主語の次に動詞が来る • 日本語では動詞が末尾に来る 言語 は コミュニケーション の

    道具 で ある Language is a means of communication 逆順間隙あり
  27. 27 考察 • 統計的機械翻訳のひとつの特徴 → 扱う言語対に依存せず翻訳ができる • しかし、英日翻訳では逆順や間隙ありが入り混 じり複雑 •

    語順の大きく異なる言語間では、言語に依存し た文法的な知識が必要
  28. 28 考察 • オープンテストを評価できなかった原因 – 日本語の活用や表記揺れ – 句の作り方 • 句の先頭・末尾の品詞を考慮したモデルを作る

    – 句の境界の選び方が重要 – 句の抽出においても何らかの文法的な知識
  29. 29 おわりに • 語句の並び替えパターン、正順・逆順は、 – 英語では句の先頭の単語の品詞 – 日本語では句の末尾の単語の品詞 である程度説明できる •

    この分析をもとにした句に基づく歪み確率モデ ルを作成したい
  30. 30 おわり

  31. 31 統計翻訳の考え方  e=arg max e pe∣f =arg max e

    p f ∣e pe
  32. 32 品詞への依存(英語側) • 逆順 – 英語は主語の次に動詞が来る – 日本語では動詞が末尾に来る – 前置詞が単独で翻訳される(of

    communication) • 逆順間隙あり – 文頭近くの代名詞が動詞句に含まれる 言語 は コミュニケーション の 道具 で ある Language is a means of communication
  33. 33 ビタビアルゴリズム 言語 は コミュニケーション の 道具 で ある Language

    is a means of communication 現在の解析位置 言語 言語 Language Language ... is
  34. 34 ビタビアルゴリズム 言語 は コミュニケーション の 道具 で ある Language

    is a means of communication 現在の解析位置 言語 は Language is ... ... 言語 Language is は communication コミュニケーション
  35. 35 ビタビアルゴリズム 言語 は コミュニケーション の 道具 で ある Language

    is a means of communication 現在の解析位置 言語 は 言語 は Language Language is コミュニケーション communication コミュニケーション の communication of ... ...
  36. 36 翻訳確率モデルの構築 …積集合 …和集合 言語 は コミュニケーション の 道具 で

    ある Language is a means of communication
  37. 37 翻訳確率モデルの構築 …積集合 …和集合 言語 は コミュニケーション の 道具 で

    ある Language is a means of communication