文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts

- 文献紹介 2019 Sep 24 - Sentence Mover’s Similarity: Automatic
Evaluation for Multi-Sentence Texts 長岡技術科学大学  自然言語処理研究室  多田太郎 

About the paper 2 Authors： Conference：

Abstract ・複数文のテキスト間の類似性を自動評価したい・BLEUやROUGEなどの一般的に用いられる自動評価 →単語のマッチングを用い柔軟性がない →単語と文の埋め込みを利用する自動評価手法を提案・人手との相関において、ベースラインの手法よりも優れていることを確認・要約タスクの生成モデルの報酬として使用しベースラインを超えた 3

Introduction ・複数文のテキスト間における人手評価を削減したい・既存のテキスト間の自動評価手法には課題がある既存の手法(ROUGE等)は単語一致に基づく手法が一般的で柔軟性にかける →人手との相関が弱い Word Mover’s Distance（WMD）はこの点で優れる →しかし、長い文の評価が難しい・文埋め込みを用いWMDを改良、複数文のテキスト間での類似性の評価に対応
4

Sentence Mover’s Similarity Metrics ・文埋め込みを使用してWMD ( WMD into a similarity：WMS
)を改良・2つのドキュメント間の類似度評価手法を提案　1. Sentence Mover’s Similarity (SMS) WMSの単語の埋め込みを文の埋め込みに置き換えて使用　2. Sentence and Word Mover’s Similarity (S + WMS）単語埋め込みと文埋め込みの両方を使用 5

1. Sentence Mover’s Similarity (SMS) ・WMSの各ドキュメントを表す文埋め込みを変更 bag of words embeddings
→ bag of sentence embeddings ・文埋め込みには単語埋め込みの平均を用いる 6

2. Sentence and Word Mover’s Similarity (S + WMS) ・WMSとSMSを組み合わせ、各ドキュメントの単語と文の情報を使い距離を累積
bag of words embeddingsとbag of sentence embeddingsを併用・文の埋め込みは単語の埋め込みと同様に扱う 7

Intrinsic Evaluation ・ドキュメント間の評価手法としての有用性を確認（自動生成文と人手と両方で） Summaries Dataset （CNN/Daily Mail news datasetから自動生成） Essays
Dataset (学生のエッセイ) ・単語埋め込み手法：学習データ GloVe： Common Crawl ELMo： 1B Word Benchmark ・評価：人手とのスピアマン相関 Williams (1959)で優位性を評価 8

Intrinsic Evaluation -Summaries Dataset Evaluation- ・データ・セット自動生成された要約文の人手評価 ( -1〜1 )
２名以上でアノテート、スコアの平均を使用・提案手法で人手要約と自動生成要約の類似度を算出人手評価と相関をみる・SMSは人間の判断と最もよく相関・GloVeとELMoのスコアの差はそれほど大きくない 9

Intrinsic Evaluation - Essays Dataset Evaluation - ・10年生(日本では高校1年生)のエッセイのデータ・セット問題文を読んで5-15文のエッセイに要約したもの各エッセイ
0〜3 のスコアでアノテーション（参照文：最も優れたエッセイ）一部スペルミスや文体の違いが含まれる 10

Extrinsic Evaluation テキスト生成モデルを学習する際の報酬として使用し評価・学習データ： CNN / Daily Mailデータセット・モデル：　エンコーダーデコーダーモデル、強化学習を使用
　エンコーダ：2層 bidirectiona LSTM、デコーダ：2層 LSTM 　policy gradient 強化学習、評価手法を最大化するように学習等（詳細は論文参照） 11

Extrinsic Evaluation -Generated Summary Evaluation- SMSを報酬としてトレーニングされたモデルが全ての評価で優れた結果に 12 ※評価手法間の比較は不可

Extrinsic Evaluation - Human Evaluation - ランダムにサンプルした100要約について人手(3人)で比較評価判断基準：冗長性、一貫性、焦点、全体を通した評価 3手法とも
ROUGE-L よりも高い評価に 13

Conclusion ・複数文からなるドキュメントに対応した類似度の自動評価手法を提案・既存の手法と比較し人手との相関が向上・自動生成の報酬として用いた際にもベースラインを上回った・コード（既存のWMD実装の拡張）とデータセットは公開 14

Example of output (Summaries Dataset Evaluation) 15

Example of output (generated summary) 16

文献紹介_201909_Sentence Mover’s Similarity_ Automa...

文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts

T.Tada

More Decks by T.Tada

Other Decks in Technology

Featured

Transcript

- 文献紹介 2019 Sep 24 - Sentence Mover’s Similarity: Automatic

About the paper 2 Authors： Conference：

Sentence Mover’s Similarity Metrics ・文埋め込みを使用してWMD ( WMD into a similarity：WMS

1. Sentence Mover’s Similarity (SMS) ・WMSの各ドキュメントを表す文埋め込みを変更 bag of words embeddings

2. Sentence and Word Mover’s Similarity (S + WMS) ・WMSとSMSを組み合わせ、各ドキュメントの単語と文の情報を使い距離を累積

Intrinsic Evaluation ・ドキュメント間の評価手法としての有用性を確認（自動生成文と人手と両方で） Summaries Dataset （CNN/Daily Mail news datasetから自動生成） Essays

Intrinsic Evaluation -Summaries Dataset Evaluation- ・データ・セット自動生成された要約文の人手評価 ( -1〜1 )

Intrinsic Evaluation - Essays Dataset Evaluation - ・10年生(日本では高校1年生)のエッセイのデータ・セット問題文を読んで5-15文のエッセイに要約したもの各エッセイ

Extrinsic Evaluation テキスト生成モデルを学習する際の報酬として使用し評価・学習データ： CNN / Daily Mailデータセット・モデル：　エンコーダーデコーダーモデル、強化学習を使用

Extrinsic Evaluation -Generated Summary Evaluation- SMSを報酬としてトレーニングされたモデルが全ての評価で優れた結果に 12 ※評価手法間の比較は不可

Extrinsic Evaluation - Human Evaluation - ランダムにサンプルした100要約について人手(3人)で比較評価判断基準：冗長性、一貫性、焦点、全体を通した評価 3手法とも

Example of output (Summaries Dataset Evaluation) 15

Example of output (generated summary) 16