Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Split and Rephrase: Better Evaluation and a Str...
Search
katsutan
November 12, 2018
Technology
180
0
Share
Split and Rephrase: Better Evaluation and a Stronger Baseline
文献紹介
katsutan
November 12, 2018
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
250
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
220
Simple task-specific bilingual word embeddings
katsutan
0
230
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
270
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
220
Improving Word Embeddings Using Kernel PCA
katsutan
0
240
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
340
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
280
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
310
Other Decks in Technology
See All in Technology
脅威をエンジニアリングの糧にして:恐怖を乗り越えた先にあったもの / Turn threats into fuel for engineering: what lay beyond overcoming fear
nrslib
1
370
オンコールの負荷軽減のためのBits Assistant 活用方法 / How to Use Bits Assistant to Reduce the Workload on On-Call Staff
sms_tech
1
370
『家族アルバム みてね』における インシデント対応との向き合い方 / Approach incident response in Family Album
kohbis
2
290
サイバーセキュリティ概論 / Introduction to Cybersecurity
ks91
PRO
0
120
さきさん文庫の書籍ができるまで
sakiengineer
0
330
TypeScript Compiler APIとPHP-Parserを活用し、TypeScriptとPHPで型を共有する
shuta13
0
320
20260528_生成AIを専属DSに_Howの次にすべきことを考える
doradora09
PRO
0
280
AIを「創る」と「使う」の循環 — HRテックが実践するリアルなAI組織実装
taketo957
0
180
Databricks 月刊サービスアップデート 2026年05月号
tyosi1212
0
190
PHP と TypeScript の型システム比較:AI 時代の「型」は誰のためにあるのか? #frontend_phpcon_do / frontend_phpcon_do_2026
shogogg
1
230
イベントストーミングとKiroの仕様駆動開発で実現する要件の認識合わせプロセス
syobochim
7
1.1k
大学生が本気でDatabricksを活用してDiscordサークルをデータ駆動させてみた
phantomjuju
1
320
Featured
See All Featured
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
460
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.9k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.9k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
280
Mobile First: as difficult as doing things right
swwweet
225
10k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
130
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
1
130
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
150
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.3k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
310
Deep Space Network (abreviated)
tonyrice
0
160
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
150
Transcript
Split and Rephrase: Better Evaluation and a Stronger Baseline Roee
Aharoni & Yoav Goldberg Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Short Papers), pages 719–724 Melbourne, Australia, July 15 - 20, 2018. 長岡技術科学大学 自然言語処理研究室 勝田 哲弘
Abstract Split and Rephrase • 複数の文が含まれている文から意味を保持したまま、分割と言い換えを行う 新たな分割データセット、モデルの提案 2
Introduction “Split-and-Rephrase” by Narayan et al. (2017) • データセット、評価方法、ベースラインの設定 •
BlEU ◦ 48.9 for the best text-to-text system. ◦ 78.7 for the best RDF-aware one. text-to-textモデルに注目 3
Introduction • より困難なデータセットの提案 ◦ 既存のデータセットには問題がある ◦ new split : Githubで公開
• より優れたモデルを構築 ◦ copy mechanismの拡張 4
Preliminary Experiments Task Definition • Complex sentence: Cが与えられたときに全ての情報を含む ように平易文を生成 ◦
Simple sentence: • 各文をRDF triplesと関連付ける 5
Preliminary Experiments Experimental Details • vanilla sequence-to-sequence models with attention
(Bahdanau et al., 2015) ◦ OPENNMT-PY toolkit (Klein et al., 2017) ◦ LSTM cell size (128, 256 and 512, respectively) 6
Results RDFを用いるベースラインより優れている Narayan et al. (2017)のモデルは 過剰に分割を行っている 7
Analysis 手動でいくつかの結果を分析 • 入力側にない • 重複 • 欠落 (97.16%)の予測文が、訓練セットにおいて そのまま出現している
8
Analysis 9
New Data-split 今のデータセットは問題を一般化するために適していない、より良 いデータセットの構築を行う RDFを使用し、以下の条件でランダムに文を分割する(5,554 sentences) • 全てのRDF relationを学習データに含める •
全てのRDF triplesは分割した1文で表現される 10
New Data-split 11
Experiments and Results 新しいデータセットによる評価 • new data split • v1.0
モデルの拡張: Copy • copy-enhanced models of varying LSTM widths ◦ (128, 256 and 512) 12
Results 13
Analysis 14
Analysis SEQ2SEQ512では学習データから文を生成する傾向が強くなる 15
Conclusions • SEQ2SEQモデルがsplit-and-rephraseを学習していなくても 高いスコアを得ていることを確認した • 新たに構築したデータセットでは不当に高くなる問題を改善 • どちらのモデルに対してもcopy-mechanismがパフォーマンス を向上させる 16