文献紹介: Learning To Split and Rephrase From Wikipedia Edit History

Learning To Split and Rephrase From Wikipedia Edit History 文献紹介
( 2018/11/21 ) 長岡技術科学大学自然言語処理研究室稲岡夢人

Literature • Learning To Split and Rephrase From Wikipedia Edit
History • Jan A. Botha, Manaal Faruqui, John Alex, Jason Baldridge, Dipanjan Das (Google AI Language) • Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2

Split and Rephrase 複雑な文章を複数の平易な文章に書き換える操作 3 removing adding

Related Works Split and Rephrase [Narayan et al. 2017] •
新しい平易化タスク“Split and Rephrase”を提案 • ベンチマーク WebSplit を作成 • 既存のモデルを適用してタスクの難易度を調査 4

Related Works Split and Rephrase: Better Evaluation and a Stronger
Baseline [Aharoni, Goldberg. 2018] • WebSplit内のデータの重複を削減 • Copy mechanismを用いても性能が不十分 5

Contributions • Wikipediaの編集履歴 (Wikipedia Edits)から split-and-rephraseの書き換えを抽出する手法 • 英語のWikiSplitデータセットの公開 • WebSplitと比較してBLEUが倍増
(30.5 → 62.4) 6

WebSplit • 文の分割と書き換えを評価する基準を提供 • サイズが小さく反復性がある → 適用範囲が制限される • モデル評価のベンチマークには使えるが訓練には使えない
→ WikiSplitコーパスを作成 7

Mining Wikipedia Edits • 記事からマークアップを除去 • splitta [Gillick. 2009] で文を分割
• 時間的に隣接するスナップショットを比較し文分割を含む編集を特定 • 分割候補から高品質の分割のみを抽出 8

Mining Wikipedia Edits • Full sentence: C　Candidate split: S =
(S 1 , S 2 ) • CとS 1 の接頭辞、CとS 2 の接尾辞が同じtri-gram • S 1 とS 2 の接尾辞が異なるtri-gram • BLEU(C, S 1 )とBLEU(C, S 2 )がδより小さい 9

Mining Wikipedia Edits 例： C 0 = I am a
cat who has no name as yet. S 1 = I am a cat.　S 2 = I have no name as yet. BLEU(C, S 1 ) > δ < BLEU(C, S 2 ) 10 removing adding

Corpus Statistics and Quality コーパスサイズと品質はトレードオフランダムな100文を使ってδを選定 δ=0.2が最適と判断 11

Corpus Statistics and Quality • Correct/Unsupp./Miss. = 168/35/4 (δ =
0.2) → 68%は完璧で、32%はノイズを含む • このデータを訓練データとして使用 • 評価においてノイズやバイアスを含む不完全な信号であることを受け入れる 12

Comparison to WebSplit 13

Comparison to WebSplit • WikiSplitの方がより多様でスパース → より難しいタスクとなる • WikiSplitは一様に1度の分割のみを行う →
より簡単なタスクとなる 14

Comparison to WebSplit • WikiSplitはヒューリスティックな手法による抽出を用いて構築されている • WebSplitは複数のReferenceを提供 → WebSplitの方が評価に適したデータセット
15

Experiments • WebSplitのみ、WikiSplitのみ、両方で実験 • Text-to-textとみなし、BLEU, S-BLEUで評価 • モデルは [Aharoni, Goldberg.
2018] で最高の結果を出した“Copy512”を使用 16

Results • WebSplitはドメイン外で非常に低い • WikiSplitはドメイン外でも高い • 両方を使用するとさらに向上
17 SOURCE : 入力をそのまま出力 SPLITHALF : 半分に分割し、ピリオドを追加

Results 18

Results BOTHにおいて学習にない3文の出力ができている 19

Results BOTHにおいて正確な出力が95%であることを人手評価によって確認 20

Conclusion and Outlook • ノイズを含む大規模で多様なデータが split-and-rephraseにおいて好影響 • 今後、他のデータ源の発見により改善ができることを示唆 •
理想的には、自然な文による評価データやタスクに適した評価指標が必要 21

文献紹介: Learning To Split and Rephrase From Wikip...

文献紹介: Learning To Split and Rephrase From Wikipedia Edit History

Yumeto Inaoka

More Decks by Yumeto Inaoka

Other Decks in Research

Featured

Transcript

Learning To Split and Rephrase From Wikipedia Edit History 文献紹介

Literature • Learning To Split and Rephrase From Wikipedia Edit

Split and Rephrase 複雑な文章を複数の平易な文章に書き換える操作 3 removing adding

Related Works Split and Rephrase [Narayan et al. 2017] •

Related Works Split and Rephrase: Better Evaluation and a Stronger

Contributions • Wikipediaの編集履歴 (Wikipedia Edits)から split-and-rephraseの書き換えを抽出する手法 • 英語のWikiSplitデータセットの公開 • WebSplitと比較してBLEUが倍増

WebSplit • 文の分割と書き換えを評価する基準を提供 • サイズが小さく反復性がある → 適用範囲が制限される • モデル評価のベンチマークには使えるが訓練には使えない

Mining Wikipedia Edits • 記事からマークアップを除去 • splitta [Gillick. 2009] で文を分割

Mining Wikipedia Edits • Full sentence: C　Candidate split: S =

Mining Wikipedia Edits 例： C 0 = I am a

Corpus Statistics and Quality コーパスサイズと品質はトレードオフランダムな100文を使ってδを選定 δ=0.2が最適と判断 11

Corpus Statistics and Quality • Correct/Unsupp./Miss. = 168/35/4 (δ =

Comparison to WebSplit 13

Comparison to WebSplit • WikiSplitの方がより多様でスパース → より難しいタスクとなる • WikiSplitは一様に1度の分割のみを行う →

Comparison to WebSplit • WikiSplitはヒューリスティックな手法による抽出を用いて構築されている • WebSplitは複数のReferenceを提供 → WebSplitの方が評価に適したデータセット

Experiments • WebSplitのみ、WikiSplitのみ、両方で実験 • Text-to-textとみなし、BLEU, S-BLEUで評価 • モデルは [Aharoni, Goldberg.

Results • WebSplitはドメイン外で非常に低い • WikiSplitはドメイン外でも高い • 両方を使用するとさらに向上

Results 18

Results BOTHにおいて学習にない3文の出力ができている 19

Results BOTHにおいて正確な出力が95%であることを人手評価によって確認 20

Conclusion and Outlook • ノイズを含む大規模で多様なデータが split-and-rephraseにおいて好影響 • 今後、他のデータ源の発見により改善ができることを示唆 •