Upgrade to Pro — share decks privately, control downloads, hide ads and more …

統計的機械翻訳は意訳しにくいのか?

 統計的機械翻訳は意訳しにくいのか?

竹元 勇太, 山本 和英. 統計的機械翻訳は意訳しにくいのか?. 言語処理学会第15回年次大会, pp.228-231 (2009.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 関連研究 ▪直訳性を利用した機械翻訳知識の自 動構築[今村 04] 日英対訳コーパス TCR 英語 日本語 1.00 --a--

    --A-- 0.96 --b-- --B-- 0.85 --c-- --C-- 0.82 --d-- --D-- . . 0.65 --g-- --G-- 0.43 --g-- --G-- 0.10 --h-- --H-- 直訳的対訳文を用いた 翻訳モデル 意訳的対訳文を用いた 翻訳モデル
  2. 推定対訳辞書を TCR 英語 日本語 1.00 --a-- --A-- 0.46 --b-- --B--

    0.17 --c-- --C-- . . 英語 日本語 --a-- --A-- --b-- --B-- --c-- --C-- . . 日英対訳コーパス 推定対訳辞書を 用いてTCR値を付与 1.00 --a-- --A-- 0.86 --d-- --D-- 0.79 --e-- --E-- . 0.86 --d-- --D-- 0.46 --b-- --B-- 0.13 --f-- --F-- . 0.17 --c-- --C-- 0.10 --g-- --G-- 0.09 --h-- --H-- . 直訳的対訳文(30,000対訳) ランダム(30,000対訳) 意訳的対訳文(30,000対訳)
  3. 用いた実験方法 1.00 --a-- --A-- . 0.86 --d-- --D-- . 0.46

    --b-- --B-- . 0.13 --f-- --F-- . 0.10 --g-- --G-- . 0.09 --h-- --H-- . 直訳的対訳文の学習データ(28,500) 直訳的対訳文のテストセット(1,000) ランダムに選んだ学習データ              (28,500) ランダムに選んだテストセット              (1,000) 意訳的対訳文の学習データ(28,500) 意訳的対訳文のテストセット(1,000)
  4. 推定対訳辞書を用いた実験結果 ▪意訳のテストセットは直訳やランダムの テストセットに比べて翻訳精度が1/2程度 ➔ 意訳しにくいということを表している 翻訳 モデル テストセット 直訳 意訳

    ランダム 直訳 0.297 0.087 0.257 意訳 0.201 0.125 0.226 ランダム 0.270 0.099 0.229 平均 0.256 0.104 0.237 Table1 翻訳モデルの違いによる各テストセットの評価結果(BLEU)
  5. 0. 00 0. 05 0. 10 0. 15 0. 20

    0. 25 0. 30 0. 35 0. 0 0. 2 0. 4 0. 6 0. 8 TC R BLEU ▪英辞郎対訳辞書を使用した場合でも、TCR 値の低い対訳文はBLEU値が低い ➔ GIZA++の精度や特徴は関係ない Fig.1 TCR値を変化させた時の翻訳精度(BLEU) 英辞郎対訳辞書を用いた実験結果
  6. コーパスサイズを変化させて実験 ▪翻訳モデル構築方法の違いによる影響 を3種類の翻訳モデルによって確認  全体モデル ➔ 全対訳文(360,000対訳)から構築  直訳モデル ➔

    TCR値の高い方から30,000対訳ずつ増やして 構築(11個のモデルを構築)  意訳モデル ➔ TCR値の低い方から30,000対訳ずつ増やして 構築(11個のモデルを構築)
  7. 実験ツール&言語資源 ▪実験ツール  Moses   : デコーダ  GIZA++   : アライメント推定ツール 

    IRSTLM   : 言語モデル構築ツール  Chasen   : 日本語形態素解析器  TreeTagger : 英語形態素解析器 ▪言語資源  日英対訳コーパス :374,085対訳  日英推定対訳辞書 :748,258対訳  日英英辞郎対訳辞書 :153,067対訳
  8. TCRの計算方法 TCR = 2 ×対訳辞書中に対訳としてある数 [L ] 対訳辞書中にある原文の単語数 [Ts ]+

    対訳辞書中にある翻訳結果の単語数 [Tt ] 丸囲み単語の個数がTs及びTt、直線の数がLに値する