Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Better Automatic Evaluation of Open-Domain Dialogue Systems with Contextualized Embeddings

文献紹介:Better Automatic Evaluation of Open-Domain Dialogue Systems with Contextualized Embeddings

長岡技術科学大学
自然言語処理研究室
鈴木脩右

論文: https://www.aclweb.org/anthology/W19-2310

shu_suzuki

August 07, 2019
Tweet

More Decks by shu_suzuki

Other Decks in Technology

Transcript

  1. 文献紹介 Better Automatic Evaluation of Open-Domain Dialogue System with Contextualized

    Embeddings 鈴木脩右 2019/8/7 長岡技術科学大学 自然言語処理研究室 1
  2. 文献情報 [1] Sarik Ghazarian, Johnny Wei, Aram Galstyan, and Nanyun

    Peng. Better Automatic Evaluation of Open-Domain Dialogue Systems with Contextualized Embeddings. In Proceedings of the Workshop on Methods for Optimizing and Evaluating Neural Language Generation, pages 82–89, Minneapolis, Minnesota, June 2019. Association for Computational Linguistics. 2
  3. Introduction • 対話システムの評価に用いられる BLEU などは人手評価と相 関が低い (Liu et al.2016) •

    人手評価はコストが高く研究論文間の比較が難しいため, 信頼性の高い自動評価が必要 • 人手評価と相関が高い RUBER(Tao et al.2018) は単語埋め込 みに強く依存 • 本研究では単語埋め込みの効果を確認 4
  4. RUBER • 2種類の評価スコアを組み合わせて最終的な評価スコアを 算出 • Referenced Metric • 単語埋め込みの max

    pooling,min pooling から文ベクトルを獲得 • 参照応答文,システム応答文のコサイン類似度をスコアとして算出 • Unreferenced Metric • 発話文とシステム応答文をそれぞれ入力とした Encoder をベース としたモデルでスコアを算出 • モデルは発話-応答ペアの正例とネガティブサンプリングした負例 でスコアの予測を学習 5
  5. Proposed models -Referenced Metric- • RUBER では単語埋め込みに word2vec を使用 •

    本研究では単語埋め込みに BERT を使用 Figure 1: BERT-based referenced metric. [1] 6
  6. Proposed models -Unreferenced Metric- • 大きく分けて三箇所 を変更 • Word Embeddings

    • Sentence Representations • MLP(MultiLayer Perceptron) Network Figure 2: An illustration of changes applied to RUBERs unreferenced metrics architecture. [1] 7
  7. Proposed models -Word Embeddings- • word2vec • RUBER ではこちらを使用 •

    文脈を考慮できない • BERT • 本研究ではこちらを使用 • 文脈を考慮した単語埋め込みが可能 • 近年,様々な NLP タスクで有効性が示されている 8
  8. Proposed models -Sentence Representation- • Bi-RNN • RUBER ではこちらを使用 •

    Bi-GRU を使用 • Pooling • 本研究ではこちらを使用 • BERT で文脈が考慮されているため,Bi-RNN では必要以上に複雑 にしている可能性を考慮 • max pooling と mean pooling をそれぞれ使用 9
  9. MLP Network • Ranking loss • RUBER ではこちらを使用 • 正例と負例のスコア差を最大化

    • Cross entropy loss • 本研究ではこちらを使用 • スコア予測を二項分類問題とみなす • 正例を 1,負例を 0 に割り当て 10
  10. Dataset • DailyDialog dataset(Li et al.2017) • 1 対 1

    のマルチターン英対話データセット • 二つに分割し,対話システムと Unreferenced Metrc の学習にそれ ぞれ使用 • 対話システム (評価対象) • Bi-LSTM の seq2seq+attention モデル • OpenNMT を利用 • 人手評価 • Amazon Mechanical Turk(AMT) で収集 • 発話-応答ペアを与え,1 5 のスケールで応答の適切さを評価 • 各ペアにつき 3 人のアノテーションが付けられている 11
  11. Experimental Setup • word2vec • 約 1,000 億語の Google News

    Corpus で学習 • 次元数は 300 • BERT • 33 億語の Books Corpus と Wikipedia で学習 • 次元数は 768 次元 12
  12. Results -Unreferenced Metric- Table 1: Correlations and similarity values between

    relatedness scores predicted by different unreferenced models and human judgments. First row is RUBERs unreferenced model. [1] 13
  13. Results -Unreferenced+Referenced Metric- • Unreferenced Metric のみよりも相関が下がる • RUBER の調査結果と矛盾

    • データや言語の違いに起因する可能性 Table 2: Correlation and similarity values between automatic evaluation metrics (combination of Referenced and Unreferenced metrics) and human annotations for 300 query-response pairs annotated by AMT workers. [1] 14