Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
Search
T.Tada
September 24, 2019
Technology
0
120
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
T.Tada
September 24, 2019
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
54
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
120
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
150
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
170
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
92
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
54
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
78
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
80
文献紹介201905_Context-Aware Cross-Lingual Mapping
tad
0
81
Other Decks in Technology
See All in Technology
20分で完全に理解するGrafanaダッシュボード
hamadakoji
5
1k
類似ロジック実装をiOS/Android間で合わせる道標No.1
fumiyasac0921
1
170
コードや知識を組み込む / Incorporate Code and knowledge
ks91
PRO
0
160
家族アルバム みてねにおけるGrafana活用術 / Grafana Meetup Japan Vol.1 LT
isaoshimizu
1
1.1k
本当のガバクラ基礎
toru_kubota
0
230
How to do well in consulting–Balkan Ruby 2024
irinanazarova
0
180
自己改善からチームを動かす! 「セルフエンジニアリングマネージャー」のすゝめ
shoota
6
1.1k
M&A戦略を支えるデータマネジメント (MIDAS Tech Study #16 GENDA Komiyama)
kommy339
1
170
M5stackで使用できるpHセンサの開発
shinrinakamura
1
290
Max out Local LLM in Challenging Environments
sashimimochi
2
210
ルーターでプレゼンする
puhitaku
1
3.4k
Building Dashboards as a Hobby
egmc
0
430
Featured
See All Featured
RailsConf 2023
tenderlove
9
570
Designing the Hi-DPI Web
ddemaree
276
33k
Agile that works and the tools we love
rasmusluckow
325
20k
Designing Experiences People Love
moore
136
23k
Automating Front-end Workflow
addyosmani
1357
200k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
14
8.4k
How STYLIGHT went responsive
nonsquared
92
4.8k
How To Stay Up To Date on Web Technology
chriscoyier
782
250k
Creatively Recalculating Your Daily Design Routine
revolveconf
211
11k
Gamification - CAS2011
davidbonilla
77
4.6k
Music & Morning Musume
bryan
41
5.6k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
34
6.1k
Transcript
- 文献紹介 2019 Sep 24 - Sentence Mover’s Similarity: Automatic
Evaluation for Multi-Sentence Texts 長岡技術科学大学 自然言語処理研究室 多田太郎
About the paper 2 Authors: Conference:
Abstract ・複数文のテキスト間の類似性を自動評価したい ・BLEUやROUGEなどの一般的に用いられる自動評価 →単語のマッチングを用い柔軟性がない →単語と文の埋め込みを利用する自動評価手法を提案 ・人手との相関において、ベースラインの手法よりも優れていることを確認 ・要約タスクの生成モデルの報酬として使用しベースラインを超えた 3
Introduction ・複数文のテキスト間における人手評価を削減したい ・既存のテキスト間の自動評価手法には課題がある 既存の手法(ROUGE等)は単語一致に基づく手法が一般的で柔軟性にかける →人手との相関が弱い Word Mover’s Distance(WMD)はこの点で優れる →しかし、長い文の評価が難しい ・文埋め込みを用いWMDを改良、複数文のテキスト間での類似性の評価に対応
4
Sentence Mover’s Similarity Metrics ・文埋め込みを使用してWMD ( WMD into a similarity:WMS
)を改良 ・2つのドキュメント間の類似度評価手法を提案 1. Sentence Mover’s Similarity (SMS) WMSの単語の埋め込みを文の埋め込みに置き換えて使用 2. Sentence and Word Mover’s Similarity (S + WMS) 単語埋め込みと文埋め込みの両方を使用 5
1. Sentence Mover’s Similarity (SMS) ・WMSの各ドキュメントを表す文埋め込みを変更 bag of words embeddings
→ bag of sentence embeddings ・文埋め込みには単語埋め込みの平均を用いる 6
2. Sentence and Word Mover’s Similarity (S + WMS) ・WMSとSMSを組み合わせ、各ドキュメントの単語と文の情報を使い距離を累積
bag of words embeddingsとbag of sentence embeddingsを併用 ・文の埋め込みは単語の埋め込みと同様に扱う 7
Intrinsic Evaluation ・ドキュメント間の評価手法としての有用性を確認(自動生成文と人手と両方で) Summaries Dataset (CNN/Daily Mail news datasetから自動生成) Essays
Dataset (学生のエッセイ) ・単語埋め込み手法:学習データ GloVe: Common Crawl ELMo: 1B Word Benchmark ・評価: 人手とのスピアマン相関 Williams (1959)で優位性を評価 8
Intrinsic Evaluation -Summaries Dataset Evaluation- ・データ・セット 自動生成された要約文の人手評価 ( -1〜1 )
2名以上でアノテート、スコアの平均を使用 ・提案手法で人手要約と自動生成要約の類似度を算出 人手評価と相関をみる ・SMSは人間の判断と最もよく相関 ・GloVeとELMoのスコアの差はそれほど大きくない 9
Intrinsic Evaluation - Essays Dataset Evaluation - ・10年生(日本では高校1年生)のエッセイのデータ・セット 問題文を読んで5-15文のエッセイに要約したもの 各エッセイ
0〜3 のスコアでアノテーション(参照文:最も優れたエッセイ) 一部スペルミスや文体の違いが含まれる 10
Extrinsic Evaluation テキスト生成モデルを学習する際の報酬として使用し評価 ・学習データ: CNN / Daily Mailデータセット ・モデル: エンコーダーデコーダーモデル、強化学習を使用
エンコーダ:2層 bidirectiona LSTM、デコーダ:2層 LSTM policy gradient 強化学習、評価手法を最大化するように学習等(詳細は論文参照) 11
Extrinsic Evaluation -Generated Summary Evaluation- SMSを報酬としてトレーニングされたモデルが全ての評価で優れた結果に 12 ※評価手法間の比較は不可
Extrinsic Evaluation - Human Evaluation - ランダムにサンプルした100要約について人手(3人)で比較評価 判断基準: 冗長性、一貫性、焦点、全体を通した評価 3手法とも
ROUGE-L よりも高い評価に 13
Conclusion ・複数文からなるドキュメントに対応した類似度の自動評価手法を提案 ・既存の手法と比較し人手との相関が向上 ・自動生成の報酬として用いた際にもベースラインを上回った ・コード(既存のWMD実装の拡張)とデータセットは公開 14
Example of output (Summaries Dataset Evaluation) 15
Example of output (generated summary) 16