文献紹介:Better Automatic Evaluation of Open-Domain Dialogue Systems with Contextualized Embeddings

文献紹介 Better Automatic Evaluation of Open-Domain Dialogue System with Contextualized
Embeddings 鈴木脩右 2019/8/7 長岡技術科学大学自然言語処理研究室 1

文献情報 [1] Sarik Ghazarian, Johnny Wei, Aram Galstyan, and Nanyun
Peng. Better Automatic Evaluation of Open-Domain Dialogue Systems with Contextualized Embeddings. In Proceedings of the Workshop on Methods for Optimizing and Evaluating Neural Language Generation, pages 82–89, Minneapolis, Minnesota, June 2019. Association for Computational Linguistics. 2

Abstract • 対話システムの自動評価に関する研究 • 既存手法 RUBER の単語埋め込みを改善 • BERT を使用し文脈を考慮した単語埋め込みを獲得
• RUBER よりも，人手評価との相関が高いことを確認 3

Introduction • 対話システムの評価に用いられる BLEU などは人手評価と相関が低い (Liu et al.2016) •
人手評価はコストが高く研究論文間の比較が難しいため，信頼性の高い自動評価が必要 • 人手評価と相関が高い RUBER(Tao et al.2018) は単語埋め込みに強く依存 • 本研究では単語埋め込みの効果を確認 4

RUBER • ２種類の評価スコアを組み合わせて最終的な評価スコアを算出 • Referenced Metric • 単語埋め込みの max
pooling，min pooling から文ベクトルを獲得 • 参照応答文，システム応答文のコサイン類似度をスコアとして算出 • Unreferenced Metric • 発話文とシステム応答文をそれぞれ入力とした Encoder をベースとしたモデルでスコアを算出 • モデルは発話-応答ペアの正例とネガティブサンプリングした負例でスコアの予測を学習 5

Proposed models -Referenced Metric- • RUBER では単語埋め込みに word2vec を使用 •
本研究では単語埋め込みに BERT を使用 Figure 1: BERT-based referenced metric. [1] 6

Proposed models -Unreferenced Metric- • 大きく分けて三箇所を変更 • Word Embeddings
• Sentence Representations • MLP(MultiLayer Perceptron) Network Figure 2: An illustration of changes applied to RUBERs unreferenced metrics architecture. [1] 7

Proposed models -Word Embeddings- • word2vec • RUBER ではこちらを使用 •
文脈を考慮できない • BERT • 本研究ではこちらを使用 • 文脈を考慮した単語埋め込みが可能 • 近年，様々な NLP タスクで有効性が示されている 8

Proposed models -Sentence Representation- • Bi-RNN • RUBER ではこちらを使用 •
Bi-GRU を使用 • Pooling • 本研究ではこちらを使用 • BERT で文脈が考慮されているため，Bi-RNN では必要以上に複雑にしている可能性を考慮 • max pooling と mean pooling をそれぞれ使用 9

MLP Network • Ranking loss • RUBER ではこちらを使用 • 正例と負例のスコア差を最大化
• Cross entropy loss • 本研究ではこちらを使用 • スコア予測を二項分類問題とみなす • 正例を 1，負例を 0 に割り当て 10

Dataset • DailyDialog dataset(Li et al.2017) • 1 対 1
のマルチターン英対話データセット • 二つに分割し，対話システムと Unreferenced Metrc の学習にそれぞれ使用 • 対話システム (評価対象) • Bi-LSTM の seq2seq+attention モデル • OpenNMT を利用 • 人手評価 • Amazon Mechanical Turk(AMT) で収集 • 発話-応答ペアを与え，1 5 のスケールで応答の適切さを評価 • 各ペアにつき 3 人のアノテーションが付けられている 11

Experimental Setup • word2vec • 約 1,000 億語の Google News
Corpus で学習 • 次元数は 300 • BERT • 33 億語の Books Corpus と Wikipedia で学習 • 次元数は 768 次元 12

Results -Unreferenced Metric- Table 1: Correlations and similarity values between
relatedness scores predicted by different unreferenced models and human judgments. First row is RUBERs unreferenced model. [1] 13

Results -Unreferenced+Referenced Metric- • Unreferenced Metric のみよりも相関が下がる • RUBER の調査結果と矛盾
• データや言語の違いに起因する可能性 Table 2: Correlation and similarity values between automatic evaluation metrics (combination of Referenced and Unreferenced metrics) and human annotations for 300 query-response pairs annotated by AMT workers. [1] 14

Conclusion • 文脈を考慮した単語埋め込みを自動評価システムに適用 • 上記により RUBER のスコアを改善 • 将来的にはマルチターンの評価に拡張したい 15

文献紹介:Better Automatic Evaluation of Open-Domain...

文献紹介:Better Automatic Evaluation of Open-Domain Dialogue Systems with Contextualized Embeddings

shu_suzuki

More Decks by shu_suzuki

Other Decks in Technology

Featured

Transcript

文献紹介 Better Automatic Evaluation of Open-Domain Dialogue System with Contextualized

文献情報 [1] Sarik Ghazarian, Johnny Wei, Aram Galstyan, and Nanyun

Abstract • 対話システムの自動評価に関する研究 • 既存手法 RUBER の単語埋め込みを改善 • BERT を使用し文脈を考慮した単語埋め込みを獲得

Introduction • 対話システムの評価に用いられる BLEU などは人手評価と相関が低い (Liu et al.2016) •

RUBER • ２種類の評価スコアを組み合わせて最終的な評価スコアを算出 • Referenced Metric • 単語埋め込みの max

Proposed models -Referenced Metric- • RUBER では単語埋め込みに word2vec を使用 •

Proposed models -Unreferenced Metric- • 大きく分けて三箇所を変更 • Word Embeddings

Proposed models -Word Embeddings- • word2vec • RUBER ではこちらを使用 •

Proposed models -Sentence Representation- • Bi-RNN • RUBER ではこちらを使用 •

MLP Network • Ranking loss • RUBER ではこちらを使用 • 正例と負例のスコア差を最大化

Dataset • DailyDialog dataset(Li et al.2017) • 1 対 1

Experimental Setup • word2vec • 約 1,000 億語の Google News

Results -Unreferenced Metric- Table 1: Correlations and similarity values between

Results -Unreferenced+Referenced Metric- • Unreferenced Metric のみよりも相関が下がる • RUBER の調査結果と矛盾

Conclusion • 文脈を考慮した単語埋め込みを自動評価システムに適用 • 上記により RUBER のスコアを改善 • 将来的にはマルチターンの評価に拡張したい 15