intro_paper_3.pdf

言語横断質問応答に適した機械翻訳評価尺度の調査丸山拓海杉山享志朗・水上雅博・Graham Neubig・吉野幸一郎・鈴木優
・中村哲自然言語処理 Vol.23 (2016) No.5 pp. 437-461

1 概要・複数の評価尺度を用いて, 質問応答精度と翻訳精度との相関を調査・質問応答システムが高い精度で解答するためには, 大規模な知識ベースが必要・小規模の知識ベースしか持たない言語言語横断質問応答・質問応答システムに適した翻訳システムの評価尺度は,
人間の直感に相関する評価尺度とは必ずしも合致しない 2

2 はじめに (2) 言語横断質問応答に適した翻訳が可能か・事実型質問応答・調査 (1) 言語横断質問応答に対する翻訳結果の影響：情報源から解答を検索することによって実現 3

翻訳結果がどのように言語横断質問応答精度に影響を与えるか 3 言語横断質問応答精度に影響する翻訳結果の調査 4

・翻訳を用いたデータセットの生成英語質問セット:Free917(OR) Tree-to-string翻訳(Tra) 人手翻訳(HT) 商用翻訳システム(Google:GT, Yahoo!:YT) フレーズベース機械翻訳(Mo) 3 言語横断質問応答精度に影響する翻訳結果の調査
5

・質問応答システム: SEMPRE ・アライメント : 質問文中からクエリの一部となるエンティティやプロパティを生成・ブリッジング : 知識ベースに入力するクエリを生成・スコアリング
: 候補の導出過程を評価 3 言語横断質問応答精度に影響する翻訳結果の調査 6

・翻訳された質問セットの訳質評価・翻訳された質問セットを用いた質問応答・質問応答精度と機械翻訳自動評価尺度の関係 3 言語横断質問応答精度に影響する翻訳結果の調査 7

▪ 翻訳された質問セットの訳質評価 3 言語横断質問応答精度に影響する翻訳結果の調査 ※ Acceptability(人間による5段階評価を正規化) ・GTとYTの比較: BLEUとNISTにおいてはGTが高く RIBESとAcceptabilityではYTが高い
8

3 言語横断質問応答精度に影響する翻訳結果の調査 ▪ 翻訳された質問セットを用いた質問応答・YT: AcceptabilityはGTより高いが, 質問応答精度はGTより低い人間にとって良い翻訳が質問応答に適する翻訳とは限らない・264問の質問応答を行い，質問応答精度を測定
9

3 言語横断質問応答精度に影響する翻訳結果の調査 ▪ 質問応答精度と機械翻訳自動評価尺度の関係・質問セットをORに基づいて正解と不正解に分類不正解グループ:123問×5 正解グループ: 141問×5 10

・正解グループにおける質問応答精度と訳質評価値 11

4 自動評価尺度を用いた質問応答精度改善・翻訳器からNベスト出力を得る・質問応答精度と相関の強い評価尺度を用いて翻訳結果を選択既存の資源・システムを用いて言語横断質問応答精度を向上させる可能性を探る 12

4 自動評価尺度を用いた翻訳結果選択による質問応答精度改善・翻訳100ベストの中から最もNISTの高い翻訳を使用 ▪ リスコアリングされた翻訳結果を用いた質問応答・質問応答精度と高い相関を持つ評価尺度に最適化することで, 質問応答精度の高い翻訳結果を得ることが可能 13

5 まとめ・翻訳結果が質問応答の結果に与える影響について調査・翻訳精度評価, 言語横断質問応答精度の評価, 両者の関係 NISTスコアが質問応答精度と高い相関をもつ人間にとって良い翻訳が必ずしも質問応答に適しているとは限らない・NIST スコアに基づいて選択された翻訳結果の質問応答
機械翻訳器の最適化を行うことで、言語横断応答精度を改善できる・日英以外の言語対における言語横断質問応答ドイツ語, 中国語, ベトナム語 - 英語間で内容語を重視する訳質評価尺度が質問応答精度と相関が高い傾向 14

intro_paper_3.pdf

intro_paper_3.pdf

MARUYAMA

More Decks by MARUYAMA

Featured

Transcript

言語横断質問応答に適した機械翻訳評価尺度の調査丸山拓海杉山享志朗・水上雅博・Graham Neubig・吉野幸一郎・鈴木優

2 はじめに (2) 言語横断質問応答に適した翻訳が可能か・事実型質問応答・調査 (1) 言語横断質問応答に対する翻訳結果の影響：情報源から解答を検索することによって実現 3

翻訳結果がどのように言語横断質問応答精度に影響を与えるか 3 言語横断質問応答精度に影響する翻訳結果の調査 4

・翻訳を用いたデータセットの生成英語質問セット:Free917(OR) Tree-to-string翻訳(Tra) 人手翻訳(HT) 商用翻訳システム(Google:GT, Yahoo!:YT) フレーズベース機械翻訳(Mo) 3 言語横断質問応答精度に影響する翻訳結果の調査

・質問応答システム: SEMPRE ・アライメント : 質問文中からクエリの一部となるエンティティやプロパティを生成・ブリッジング : 知識ベースに入力するクエリを生成・スコアリング

・翻訳された質問セットの訳質評価・翻訳された質問セットを用いた質問応答・質問応答精度と機械翻訳自動評価尺度の関係 3 言語横断質問応答精度に影響する翻訳結果の調査 7

▪ 翻訳された質問セットの訳質評価 3 言語横断質問応答精度に影響する翻訳結果の調査 ※ Acceptability(人間による5段階評価を正規化) ・GTとYTの比較: BLEUとNISTにおいてはGTが高く RIBESとAcceptabilityではYTが高い

3 言語横断質問応答精度に影響する翻訳結果の調査 ▪ 質問応答精度と機械翻訳自動評価尺度の関係・質問セットをORに基づいて正解と不正解に分類不正解グループ:123問×5 正解グループ: 141問×5 10

・正解グループにおける質問応答精度と訳質評価値 11

4 自動評価尺度を用いた質問応答精度改善・翻訳器からNベスト出力を得る・質問応答精度と相関の強い評価尺度を用いて翻訳結果を選択既存の資源・システムを用いて言語横断質問応答精度を向上させる可能性を探る 12