$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Split and Rephrase: Better Evaluation and a Str...
Search
katsutan
November 12, 2018
Technology
0
170
Split and Rephrase: Better Evaluation and a Stronger Baseline
文献紹介
katsutan
November 12, 2018
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
230
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
210
Simple task-specific bilingual word embeddings
katsutan
0
210
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
260
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
210
Improving Word Embeddings Using Kernel PCA
katsutan
0
220
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
320
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
260
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
290
Other Decks in Technology
See All in Technology
Entity Framework Core におけるIN句クエリ最適化について
htkym
0
130
AR Guitar: Expanding Guitar Performance from a Live House to Urban Space
ekito_station
0
230
Strands Agents × インタリーブ思考 で変わるAIエージェント設計 / Strands Agents x Interleaved Thinking AI Agents
takanorig
5
2.1k
意外と知らない状態遷移テストの世界
nihonbuson
PRO
1
270
通勤手当申請チェックエージェント開発のリアル
whisaiyo
3
470
事業の財務責任に向き合うリクルートデータプラットフォームのFinOps
recruitengineers
PRO
2
220
半年で、AIゼロ知識から AI中心開発組織の変革担当に至るまで
rfdnxbro
0
140
2025-12-27 Claude CodeでPRレビュー対応を効率化する@機械学習社会実装勉強会第54回
nakamasato
4
1.1k
20251222_サンフランシスコサバイバル術
ponponmikankan
2
140
Identity Management for Agentic AI 解説
fujie
0
480
子育てで想像してなかった「見えないダメージ」 / Unforeseen "hidden burdens" of raising children.
pauli
2
330
「もしもデータ基盤開発で『強くてニューゲーム』ができたなら今の僕はどんなデータ基盤を作っただろう」
aeonpeople
0
250
Featured
See All Featured
Leo the Paperboy
mayatellez
0
1.3k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.1k
The agentic SEO stack - context over prompts
schlessera
0
560
A Modern Web Designer's Workflow
chriscoyier
698
190k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
330
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
120
How to train your dragon (web standard)
notwaldorf
97
6.5k
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
230
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
0
260
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
0
67
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
286
14k
Transcript
Split and Rephrase: Better Evaluation and a Stronger Baseline Roee
Aharoni & Yoav Goldberg Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Short Papers), pages 719–724 Melbourne, Australia, July 15 - 20, 2018. 長岡技術科学大学 自然言語処理研究室 勝田 哲弘
Abstract Split and Rephrase • 複数の文が含まれている文から意味を保持したまま、分割と言い換えを行う 新たな分割データセット、モデルの提案 2
Introduction “Split-and-Rephrase” by Narayan et al. (2017) • データセット、評価方法、ベースラインの設定 •
BlEU ◦ 48.9 for the best text-to-text system. ◦ 78.7 for the best RDF-aware one. text-to-textモデルに注目 3
Introduction • より困難なデータセットの提案 ◦ 既存のデータセットには問題がある ◦ new split : Githubで公開
• より優れたモデルを構築 ◦ copy mechanismの拡張 4
Preliminary Experiments Task Definition • Complex sentence: Cが与えられたときに全ての情報を含む ように平易文を生成 ◦
Simple sentence: • 各文をRDF triplesと関連付ける 5
Preliminary Experiments Experimental Details • vanilla sequence-to-sequence models with attention
(Bahdanau et al., 2015) ◦ OPENNMT-PY toolkit (Klein et al., 2017) ◦ LSTM cell size (128, 256 and 512, respectively) 6
Results RDFを用いるベースラインより優れている Narayan et al. (2017)のモデルは 過剰に分割を行っている 7
Analysis 手動でいくつかの結果を分析 • 入力側にない • 重複 • 欠落 (97.16%)の予測文が、訓練セットにおいて そのまま出現している
8
Analysis 9
New Data-split 今のデータセットは問題を一般化するために適していない、より良 いデータセットの構築を行う RDFを使用し、以下の条件でランダムに文を分割する(5,554 sentences) • 全てのRDF relationを学習データに含める •
全てのRDF triplesは分割した1文で表現される 10
New Data-split 11
Experiments and Results 新しいデータセットによる評価 • new data split • v1.0
モデルの拡張: Copy • copy-enhanced models of varying LSTM widths ◦ (128, 256 and 512) 12
Results 13
Analysis 14
Analysis SEQ2SEQ512では学習データから文を生成する傾向が強くなる 15
Conclusions • SEQ2SEQモデルがsplit-and-rephraseを学習していなくても 高いスコアを得ていることを確認した • 新たに構築したデータセットでは不当に高くなる問題を改善 • どちらのモデルに対してもcopy-mechanismがパフォーマンス を向上させる 16