Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介: Learning To Split and Rephrase From Wikip...
Search
Yumeto Inaoka
November 21, 2018
Research
0
200
文献紹介: Learning To Split and Rephrase From Wikipedia Edit History
2018/11/21の文献紹介で発表
Yumeto Inaoka
November 21, 2018
Tweet
Share
More Decks by Yumeto Inaoka
See All by Yumeto Inaoka
文献紹介: Quantity doesn’t buy quality syntax with neural language models
yumeto
1
180
文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling
yumeto
0
230
文献紹介: Self-Supervised_Neural_Machine_Translation
yumeto
0
160
文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts
yumeto
0
170
文献紹介: PAWS: Paraphrase Adversaries from Word Scrambling
yumeto
0
150
文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
yumeto
0
270
文献紹介: EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing
yumeto
0
340
文献紹介: Decomposable Neural Paraphrase Generation
yumeto
0
230
文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
yumeto
0
220
Other Decks in Research
See All in Research
ASSADS:ASMR動画に合わせて撫でられる感覚を提示するシステムの開発と評価 / ec75-shimizu
yumulab
1
410
Cross-Media Information Spaces and Architectures
signer
PRO
0
230
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
120
20250605_新交通システム推進議連_熊本都市圏「車1割削減、渋滞半減、公共交通2倍」から考える地方都市交通政策
trafficbrain
0
550
90 分で学ぶ P 対 NP 問題
e869120
18
7.6k
Computational OT #1 - Monge and Kantorovitch
gpeyre
0
190
AIによる画像認識技術の進化 -25年の技術変遷を振り返る-
hf149
6
3.6k
Delta Airlines® Customer Care in the U.S.: How to Reach Them Now
bookingcomcustomersupportusa
PRO
0
100
カスタマーサクセスの視点からAWS Summitの展示を考える~製品開発で活用できる勘所~
masakiokuda
2
120
最適化と機械学習による問題解決
mickey_kubo
0
140
EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing
satai
3
350
EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry
satai
4
300
Featured
See All Featured
[RailsConf 2023] Rails as a piece of cake
palkan
55
5.7k
Statistics for Hackers
jakevdp
799
220k
We Have a Design System, Now What?
morganepeng
53
7.7k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.3k
Bash Introduction
62gerente
613
210k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
How STYLIGHT went responsive
nonsquared
100
5.6k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
The Invisible Side of Design
smashingmag
301
51k
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.4k
Optimizing for Happiness
mojombo
379
70k
Transcript
Learning To Split and Rephrase From Wikipedia Edit History 文献紹介
( 2018/11/21 ) 長岡技術科学大学 自然言語処理研究室 稲岡 夢人
Literature • Learning To Split and Rephrase From Wikipedia Edit
History • Jan A. Botha, Manaal Faruqui, John Alex, Jason Baldridge, Dipanjan Das (Google AI Language) • Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2
Split and Rephrase 複雑な文章を複数の平易な文章に書き換える操作 3 removing adding
Related Works Split and Rephrase [Narayan et al. 2017] •
新しい平易化タスク“Split and Rephrase”を提案 • ベンチマーク WebSplit を作成 • 既存のモデルを適用してタスクの難易度を調査 4
Related Works Split and Rephrase: Better Evaluation and a Stronger
Baseline [Aharoni, Goldberg. 2018] • WebSplit内のデータの重複を削減 • Copy mechanismを用いても性能が不十分 5
Contributions • Wikipediaの編集履歴 (Wikipedia Edits)から split-and-rephraseの書き換えを抽出する手法 • 英語のWikiSplitデータセットの公開 • WebSplitと比較してBLEUが倍増
(30.5 → 62.4) 6
WebSplit • 文の分割と書き換えを評価する基準を提供 • サイズが小さく反復性がある → 適用範囲が制限される • モデル評価のベンチマークには使えるが 訓練には使えない
→ WikiSplitコーパスを作成 7
Mining Wikipedia Edits • 記事からマークアップを除去 • splitta [Gillick. 2009] で文を分割
• 時間的に隣接するスナップショットを比較し 文分割を含む編集を特定 • 分割候補から高品質の分割のみを抽出 8
Mining Wikipedia Edits • Full sentence: C Candidate split: S =
(S 1 , S 2 ) • CとS 1 の接頭辞、CとS 2 の接尾辞が同じtri-gram • S 1 とS 2 の接尾辞が異なるtri-gram • BLEU(C, S 1 )とBLEU(C, S 2 )がδより小さい 9
Mining Wikipedia Edits 例: C 0 = I am a
cat who has no name as yet. S 1 = I am a cat. S 2 = I have no name as yet. BLEU(C, S 1 ) > δ < BLEU(C, S 2 ) 10 removing adding
Corpus Statistics and Quality コーパスサイズと 品質はトレードオフ ランダムな100文を 使ってδを選定 δ=0.2が最適と判断 11
Corpus Statistics and Quality • Correct/Unsupp./Miss. = 168/35/4 (δ =
0.2) → 68%は完璧で、32%はノイズを含む • このデータを訓練データとして使用 • 評価においてノイズやバイアスを含む不完全な 信号であることを受け入れる 12
Comparison to WebSplit 13
Comparison to WebSplit • WikiSplitの方がより多様でスパース → より難しいタスクとなる • WikiSplitは一様に1度の分割のみを行う →
より簡単なタスクとなる 14
Comparison to WebSplit • WikiSplitはヒューリスティックな手法による 抽出を用いて構築されている • WebSplitは複数のReferenceを提供 → WebSplitの方が評価に適したデータセット
15
Experiments • WebSplitのみ、WikiSplitのみ、両方で実験 • Text-to-textとみなし、BLEU, S-BLEUで評価 • モデルは [Aharoni, Goldberg.
2018] で最高の 結果を出した“Copy512”を使用 16
Results • WebSplitはドメイン外で 非常に低い • WikiSplitはドメイン外で も高い • 両方を使用するとさらに 向上
17 SOURCE : 入力をそのまま出力 SPLITHALF : 半分に分割し、ピリオドを追加
Results 18
Results BOTHにおいて学習にない3文の出力ができている 19
Results BOTHにおいて正確な出力が95%であることを 人手評価によって確認 20
Conclusion and Outlook • ノイズを含む大規模で多様なデータが split-and-rephraseにおいて好影響 • 今後、他のデータ源の発見により改善が できることを示唆 •
理想的には、自然な文による評価データや タスクに適した評価指標が必要 21