文献紹介(17.3.28) 長岡技術科学大学 自然言語処理研究室
機械翻訳システムの誤り分析のための誤り箇所選択手法赤部 晃一, Graham Neubig, Sakriani Sakti,戸田 智基, 中村 哲自然言語処理, Vol. 23, No. 1, pp. 87-117, 2016文献紹介 平成29年3月28日長岡技術科学大学 自然言語処理研究室 小川耀一朗
View Slide
概要目的:機械翻訳システムの比較・改善のための誤り分析の効率化従来手法:単純にシステムの翻訳結果と正解訳の差異に着目して分析提案手法:機械翻訳の誤り箇所選択法、選択箇所のフィルタリング法結果:従来手法より高い精度で適切な誤り箇所を捉えることに成功優先的に選択された少量の誤り箇所からシステムの誤り傾向を捉えることに成功2/21
研究背景u最近の機械翻訳システムはシステムの内部が複雑化しており、翻訳システムの傾向を事前に把握することが難しいu翻訳結果に注目→システムの問題点、システム同士を比較u翻訳結果の誤り分析は労力がいる→効率化3/21
提案手法先行研究:• 参照文と翻訳結果の差分で誤り分析• 同様の意味でありながら表層的な文字列が異なる場合に、不一致箇所を誤り箇所と判断してしまう提案手法:• 誤りと判断されたものの内、より誤りの可能性の高い箇所を優先的に捉える手法翻訳結果を生成→誤り分析を優先的に行うべき箇所を選択→選択箇所を人手により分析4/21
誤りの可能性をスコア付け誤りの可能性が高い箇所から順に提示→人手による誤り分析の効率が上がる手法:nランダム選択n誤り頻度に基づく選択n自己相互情報量に基づく選択n平滑化された条件付き確率に基づく選択n識別言語モデルの重みに基づく選択5/21
ベースラインnランダム選択• 順位づけを行わない誤り分析n誤り傾向に基づく選択• 翻訳結果に多く含まれ、正解訳に含まれない回数が多いn-gramを重点的に分析する• 頻繁に発生する誤りが必ずしも分かりやすく有用な誤りとは限らない• 目的言語に頻繁に出現するn-gramが分析対象の上位を占めてしまう6/21
提案手法1n自己相互情報量に基づく選択• 誤り頻度の高いn-gramと翻訳結果との関係性をスコアづけ• 翻訳結果と関係が強いn-gramは、正解訳との関係は逆に弱くなる7/21
提案手法2n平滑化された条件付き確率に基づく選択• 誤り頻度の高いn-gramがシステムの出力に含まれながら参照文に含まれない確率をスコアとする8/21
提案手法3n識別言語モデルの重みに基づく選択• 言語モデル→自然な出力言語文の特徴を捉えるように学習される• 識別言語モデル→起こりやすい出力誤りを修正するように学習される9/21
スコア計算に用いる正解訳の選択参照訳:正解訳として事前に人手で翻訳されたもの→ 使用する語彙が翻訳結果と異なる場合が多いオラクル訳:機械翻訳システムが出力した翻訳候補の中で、自動評価尺度により最も高いスコアが与えられた文参照訳に近い表現を維持しながらシステムの翻訳に近づく10/21
誤り候補n-gramのフィルタリングn厳密一致フィルタリング誤り箇所のn-gramが、正解訳の一部に厳密一致するかどうかを確認し、一致する場合は選択を行わないn換言によるフィルタリング表層的に異なるが意味が等しい文字列の場合、厳密一致フィルタリングでは誤選択になる換言データベースから正解訳の全単語に対して換言を検出し、換言が誤り候補にあったら候補から除外する11/21
選択された誤り箇所の調査u各手法によって順位付けされた誤りn-gramを人手で分析u各誤り箇所選択手法によって選択された箇所が、機械翻訳の誤り箇所を捉えているかをアノテーション→誤り箇所の適合率を測定u誤り箇所を捉えている場合は、誤りの種類をアノテーション{ 文脈依存置換誤り, 文脈非依存置換誤り, 挿入誤り,削除誤り, 並べ替え誤り, 活用誤り }12/21
実験設定コーパス:京都フリー翻訳タスク(KFTT)(Neubig 2011)日英翻訳単一の機械翻訳システム:Travatarツールキット(Neubig 2013)に基づくforest-to-string(F2S)システム比較:Mosesツールキットに基づくフレーズベース翻訳システム(PBMT)階層的フレーズベースシステム(HIERO)13/21
選択するn-gramの個数と適合率の関係識別言語モデルの重みに基づく選択が誤り箇所を高い精度で捉えている14/21
選択されたn-gramの統計上位30個に選ばれた誤りn-gramを選択した際の誤り箇所適合率15/21
システム間比較分析対象とするシステムによって含まれる誤りの分布が異なる→上位30個の誤りn-gramで分析16/21
選択箇所に対するフィルタリングの効果誤り箇所に対し、各フィルタリング法を適用した際の効果について、誤り箇所アノテーションコーパスを用いた自動評価により検証する自動評価:機械翻訳結果を後編集した際の編集パターンを利用した手法(赤部, Neubig, Sakti, 戸田, 中村 2014b)評価:翻訳結果を後編集したコーパスを作成(KFTTセット, 日英翻訳503文, 英日翻訳200文)翻訳結果の誤り部分にラベルを付与し、これを誤り箇所に正解ラベルとする正解ラベルをどの程度予測できるかを評価17/21
選択箇所に対するフィルタリングの効果正解訳の換言を用いたフィルタリングで誤り箇所の選択の精度が向上18/21
誤り箇所選択の分析における効果実際の誤り分析を想定し、各誤り箇所選択手法を用いて一定時間分析を行った参照訳の換言によるフィルタリングを利用手順:1. 各手法によってn-gramにスコアを与える2. 優先的に分析すべき順に抽出する3. 翻訳結果の中で各n-gramが含まれている文を列挙4. フィルタリング処理後、n-gramに一致する箇所を選択5. 分析者は選択した箇所について誤り分析を行う6. 「文脈依存誤り」か「文脈非依存誤り」かを記録19/21
誤り箇所選択の分析における効果識別言語モデルの重みに基づく手法で修正が容易な誤りを早期に発見→システムの改善を比較的効率よく行える20/21
まとめu機械翻訳システムの比較・改善のための誤り分析の効率化のため、機械翻訳の誤り箇所選択法、及び選択箇所のフィルタリング法を提案u従来法より高い精度で適切な誤り箇所を捉えることに成功u優先的に選択された少量の誤り箇所を分析するだけで各システムの誤り傾向を捉えることができ、システム間比較の効率化に貢献u容易に修正可能な文脈非依存誤りについて、提案手法により比較的早い段階から捉えることが可能21/21