Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_201909_Sentence Mover’s Similarity_ Automa...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
T.Tada
September 24, 2019
Technology
170
0
Share
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
T.Tada
September 24, 2019
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
70
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
180
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
170
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
230
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
110
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
72
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
110
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
110
文献紹介201905_Context-Aware Cross-Lingual Mapping
tad
0
110
Other Decks in Technology
See All in Technology
キャリア25年目にしてTypeScript に出会うまで - 「型」を通じて振り返るプログラミング言語遍歴 / Meeting TypeScript After 25 Years in Tech - Looking Back at My Programming Language Journey Through "Types"
bitkey
PRO
2
280
Kaggle未経験社員をメダリストに育てる「AIドラゴン桜」
lycorptech_jp
PRO
0
560
Typiaで配信JSONの安全性を構造的に担保する(TSKaigi2026)
righttouch
PRO
1
170
責任あるソフトウェアエンジニアリングの紹介4章・5章 / RSE_Ch4-5
ido_kara_deru
0
330
管理アカウント単一運用からAWS Organizationsに移行するの大変で滅
hiramax
0
230
データ分析基盤の信頼を支える視点と設計
yuki_saito
1
650
形式手法特論:公平性制約の位相的特徴づけ #kernelvm / Kernel VM Study Kansai 12th
ytaka23
0
150
Gradle×GitHub_ActionsでCI時間を約50%短縮 ジョブ分割の設計と落とし穴 / Cutting CI Time by ~50% with Gradle and GitHub Actions: Job-Splitting Design and Pitfalls
takatty
0
120
freee-mcpを Local→Remote で出してわかった MCP認可実装のリアル
terara
3
630
TSKaigi 2026 - Auth.jsからBetter Authへの 移行に見る「型とランタイム」の 設計思想の変化
teamlab
PRO
1
260
RubyでRuby拡張を書いたらRubyより35倍速になったってどういうこと??
kazuho
3
610
AI時代から振り返るTerraform drift運用の歴史 / AI Age Reflections on the History of Terraform Drift Operations
aeonpeople
0
340
Featured
See All Featured
Building AI with AI
inesmontani
PRO
1
1k
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
170
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
65
54k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.9k
Visualization
eitanlees
151
17k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
150
4 Signs Your Business is Dying
shpigford
187
22k
Testing 201, or: Great Expectations
jmmastey
46
8.2k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
310
Navigating Weather and Climate Data
rabernat
0
200
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
260
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.3k
Transcript
- 文献紹介 2019 Sep 24 - Sentence Mover’s Similarity: Automatic
Evaluation for Multi-Sentence Texts 長岡技術科学大学 自然言語処理研究室 多田太郎
About the paper 2 Authors: Conference:
Abstract ・複数文のテキスト間の類似性を自動評価したい ・BLEUやROUGEなどの一般的に用いられる自動評価 →単語のマッチングを用い柔軟性がない →単語と文の埋め込みを利用する自動評価手法を提案 ・人手との相関において、ベースラインの手法よりも優れていることを確認 ・要約タスクの生成モデルの報酬として使用しベースラインを超えた 3
Introduction ・複数文のテキスト間における人手評価を削減したい ・既存のテキスト間の自動評価手法には課題がある 既存の手法(ROUGE等)は単語一致に基づく手法が一般的で柔軟性にかける →人手との相関が弱い Word Mover’s Distance(WMD)はこの点で優れる →しかし、長い文の評価が難しい ・文埋め込みを用いWMDを改良、複数文のテキスト間での類似性の評価に対応
4
Sentence Mover’s Similarity Metrics ・文埋め込みを使用してWMD ( WMD into a similarity:WMS
)を改良 ・2つのドキュメント間の類似度評価手法を提案 1. Sentence Mover’s Similarity (SMS) WMSの単語の埋め込みを文の埋め込みに置き換えて使用 2. Sentence and Word Mover’s Similarity (S + WMS) 単語埋め込みと文埋め込みの両方を使用 5
1. Sentence Mover’s Similarity (SMS) ・WMSの各ドキュメントを表す文埋め込みを変更 bag of words embeddings
→ bag of sentence embeddings ・文埋め込みには単語埋め込みの平均を用いる 6
2. Sentence and Word Mover’s Similarity (S + WMS) ・WMSとSMSを組み合わせ、各ドキュメントの単語と文の情報を使い距離を累積
bag of words embeddingsとbag of sentence embeddingsを併用 ・文の埋め込みは単語の埋め込みと同様に扱う 7
Intrinsic Evaluation ・ドキュメント間の評価手法としての有用性を確認(自動生成文と人手と両方で) Summaries Dataset (CNN/Daily Mail news datasetから自動生成) Essays
Dataset (学生のエッセイ) ・単語埋め込み手法:学習データ GloVe: Common Crawl ELMo: 1B Word Benchmark ・評価: 人手とのスピアマン相関 Williams (1959)で優位性を評価 8
Intrinsic Evaluation -Summaries Dataset Evaluation- ・データ・セット 自動生成された要約文の人手評価 ( -1〜1 )
2名以上でアノテート、スコアの平均を使用 ・提案手法で人手要約と自動生成要約の類似度を算出 人手評価と相関をみる ・SMSは人間の判断と最もよく相関 ・GloVeとELMoのスコアの差はそれほど大きくない 9
Intrinsic Evaluation - Essays Dataset Evaluation - ・10年生(日本では高校1年生)のエッセイのデータ・セット 問題文を読んで5-15文のエッセイに要約したもの 各エッセイ
0〜3 のスコアでアノテーション(参照文:最も優れたエッセイ) 一部スペルミスや文体の違いが含まれる 10
Extrinsic Evaluation テキスト生成モデルを学習する際の報酬として使用し評価 ・学習データ: CNN / Daily Mailデータセット ・モデル: エンコーダーデコーダーモデル、強化学習を使用
エンコーダ:2層 bidirectiona LSTM、デコーダ:2層 LSTM policy gradient 強化学習、評価手法を最大化するように学習等(詳細は論文参照) 11
Extrinsic Evaluation -Generated Summary Evaluation- SMSを報酬としてトレーニングされたモデルが全ての評価で優れた結果に 12 ※評価手法間の比較は不可
Extrinsic Evaluation - Human Evaluation - ランダムにサンプルした100要約について人手(3人)で比較評価 判断基準: 冗長性、一貫性、焦点、全体を通した評価 3手法とも
ROUGE-L よりも高い評価に 13
Conclusion ・複数文からなるドキュメントに対応した類似度の自動評価手法を提案 ・既存の手法と比較し人手との相関が向上 ・自動生成の報酬として用いた際にもベースラインを上回った ・コード(既存のWMD実装の拡張)とデータセットは公開 14
Example of output (Summaries Dataset Evaluation) 15
Example of output (generated summary) 16