Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts

T.Tada
September 24, 2019

文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts

T.Tada

September 24, 2019
Tweet

More Decks by T.Tada

Other Decks in Technology

Transcript

  1. - 文献紹介 2019 Sep 24 - Sentence Mover’s Similarity: Automatic

    Evaluation for Multi-Sentence Texts 長岡技術科学大学
 自然言語処理研究室
 多田太郎

  2. Sentence Mover’s Similarity Metrics ・文埋め込みを使用してWMD ( WMD into a similarity:WMS

    )を改良 ・2つのドキュメント間の類似度評価手法を提案  1. Sentence Mover’s Similarity (SMS) WMSの単語の埋め込みを文の埋め込みに置き換えて使用  2. Sentence and Word Mover’s Similarity (S + WMS) 単語埋め込みと文埋め込みの両方を使用 5
  3. 1. Sentence Mover’s Similarity (SMS) ・WMSの各ドキュメントを表す文埋め込みを変更 bag of words embeddings

    → bag of sentence embeddings ・文埋め込みには単語埋め込みの平均を用いる 6
  4. 2. Sentence and Word Mover’s Similarity (S + WMS) ・WMSとSMSを組み合わせ、各ドキュメントの単語と文の情報を使い距離を累積

    bag of words embeddingsとbag of sentence embeddingsを併用 ・文の埋め込みは単語の埋め込みと同様に扱う 7
  5. Intrinsic Evaluation ・ドキュメント間の評価手法としての有用性を確認(自動生成文と人手と両方で) Summaries Dataset (CNN/Daily Mail news datasetから自動生成) Essays

    Dataset (学生のエッセイ) ・単語埋め込み手法:学習データ GloVe: Common Crawl ELMo: 1B Word Benchmark ・評価: 人手とのスピアマン相関 Williams (1959)で優位性を評価 8
  6. Intrinsic Evaluation -Summaries Dataset Evaluation- ・データ・セット 自動生成された要約文の人手評価 ( -1〜1 )

    2名以上でアノテート、スコアの平均を使用 ・提案手法で人手要約と自動生成要約の類似度を算出 人手評価と相関をみる ・SMSは人間の判断と最もよく相関 ・GloVeとELMoのスコアの差はそれほど大きくない 9
  7. Intrinsic Evaluation - Essays Dataset Evaluation - ・10年生(日本では高校1年生)のエッセイのデータ・セット 問題文を読んで5-15文のエッセイに要約したもの 各エッセイ

    0〜3 のスコアでアノテーション(参照文:最も優れたエッセイ) 一部スペルミスや文体の違いが含まれる 10
  8. Extrinsic Evaluation テキスト生成モデルを学習する際の報酬として使用し評価 ・学習データ: CNN / Daily Mailデータセット ・モデル:  エンコーダーデコーダーモデル、強化学習を使用

     エンコーダ:2層 bidirectiona LSTM、デコーダ:2層 LSTM  policy gradient 強化学習、評価手法を最大化するように学習等(詳細は論文参照) 11