Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自然言語処理研究室 文献紹介ゼミ その2

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

自然言語処理研究室 文献紹介ゼミ その2

自然言語処理研究室 文献紹介ゼミ 2014年度 論文紹介 依存関係確率モデルを 用いた統計的句アライメント

Avatar for takegue

takegue

May 15, 2014

More Decks by takegue

Other Decks in Technology

Transcript

  1. • 中澤敏明 and 黒橋禎夫, “依存関係確率モデルを用い た統計的句アライメント,” 自然言語処理 = J. Nat.

    Lang. Process., vol. 17, no. 1, pp. 99–120, Jan. 2010. • 概要 語順や言語構造の大きく異なる言語対間の対訳文をアライメントする際 に最も重要 なことは,言語の構造情報を利用することと,一対多もしくは 多対多の対応が生成 できることである.本論文では両言語文の依存構 造木上での単語や句の依存関係を モデル化した新しい句アライメント手 法を提案する.依存関係モデルは木構造上で のreorderingモデルという ことができ,非局所的な語順変化を正確に扱うことがで きる.これは文を 単語列として扱う既存の単語アライメント手法にはない利点であ る.また 提案モデルはヒューリスティックなルールを一切用いずに,句となるべき 単 位の推定を自動的に行うことができる.アライメント実験では,既存の単語 アラ イメント手法と比較して,提案手法にではアライメントの精度をF値で 8.5ポイン ト向上させることができた. ※以降、図表式論文中より抜粋です。 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 文献紹介:依存関係確率モデルを用いた統計的句アライメント
  2. 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ 提案モデルの概観 – IBMモデル[Brown et al.

    1993] a : アライメント f : 日本語文 (単語の集合) e : 英語文(単語の集合) 語彙確率 アライメント確率 単語翻訳確率の積 単語eaj ⇒ 単語 fj になる確率 アライメントの相対的な位置を考慮した確率 一貫性のため e→f と f→e の場合を考慮し アライメントを決定する[Koehn et al. 2003] 一般的に用いられる基本モデル。 本研究におけるベースラインとなる
  3. 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ トレーニング Step1:単語翻訳確率の推定 IBM Modelと同じ アライメント確率は一定

    句候補となる単語を調べる Step2:句翻訳確率 依存関係確率の推定 Estep:初期アライメント生成 アライメントの探索 (山登り法) 新たな句候補の生成 Mstep:パラメータ推定 初期アライメントの生成: 句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする 山登り法: 初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる 新たな句候補の生成: NULL対応の句を組み合わせた 新たな句候補の生成 パラメータ推定: 句翻訳確率の推定 アライメント確率のn-bestデータから求める
  4. 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ トレーニング Step1:単語翻訳確率の推定 IBM Modelと同じ アライメント確率は一定

    句候補となる単語を調べる Step2:句翻訳確率 依存関係確率の推定 Estep:初期アライメント生成 アライメントの探索 (山登り法) 新たな句候補の生成 Mstep:パラメータ推定 初期アライメントの生成: 句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする 山登り法: 初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる 新たな句候補の生成: NULL対応の句を組み合わせた 新たな句候補の生成 パラメータ推定: 句翻訳確率の推定 アライメント確率のn-bestデータから求める
  5. 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ トレーニング Step1:単語翻訳確率の推定 IBM Modelと同じ アライメント確率は一定

    句候補となる単語を調べる Step2:句翻訳確率 依存関係確率の推定 Estep:初期アライメント生成 アライメントの探索 (山登り法) 新たな句候補の生成 Mstep:パラメータ推定 初期アライメントの生成: 句対応確率の高いものから採用(貪欲法) 各単語は1度しか対応付けないようにする 山登り法: 初期アライメントからより良いアライメントの探索 Swap, Extend, Add, Reject の4操作からなる 新たな句候補の生成: NULL対応の句を組み合わせた 新たな句候補の生成 パラメータ推定: 句翻訳確率の推定 アライメント確率のn-bestデータから求める
  6. 2014/5/15 長岡技術科学大学 自然言語処理研究室 2014年度 B4ゼミ まとめ • 依存構造関係を利用したアライメントにより精度の向 上が図れた。 –

    日本語 – 英語間のように言語体系が大きく異なる場合に 有効な手法である – 日本語 – 中国語でも確認し言語対に因らないロバストな 手法であることを確認予定。 – アライメントノ探索アルゴリズムには改良の余地あり • 翻訳精度の向上と提案手法の関連を調査予定