Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: Learning To Split and Rephrase From Wikip...

Avatar for Yumeto Inaoka Yumeto Inaoka
November 21, 2018

文献紹介: Learning To Split and Rephrase From Wikipedia Edit History

2018/11/21の文献紹介で発表

Avatar for Yumeto Inaoka

Yumeto Inaoka

November 21, 2018
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Learning To Split and Rephrase From Wikipedia Edit History 文献紹介

    ( 2018/11/21 ) 長岡技術科学大学 自然言語処理研究室 稲岡 夢人
  2. Literature • Learning To Split and Rephrase From Wikipedia Edit

    History • Jan A. Botha, Manaal Faruqui, John Alex, Jason Baldridge, Dipanjan Das (Google AI Language) • Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2
  3. Related Works Split and Rephrase [Narayan et al. 2017] •

    新しい平易化タスク“Split and Rephrase”を提案 • ベンチマーク WebSplit を作成 • 既存のモデルを適用してタスクの難易度を調査 4
  4. Related Works Split and Rephrase: Better Evaluation and a Stronger

    Baseline [Aharoni, Goldberg. 2018] • WebSplit内のデータの重複を削減 • Copy mechanismを用いても性能が不十分 5
  5. Mining Wikipedia Edits • 記事からマークアップを除去 • splitta [Gillick. 2009] で文を分割

    • 時間的に隣接するスナップショットを比較し 文分割を含む編集を特定 • 分割候補から高品質の分割のみを抽出 8
  6. Mining Wikipedia Edits • Full sentence: C Candidate split: S =

    (S 1 , S 2 ) • CとS 1 の接頭辞、CとS 2 の接尾辞が同じtri-gram • S 1 とS 2 の接尾辞が異なるtri-gram • BLEU(C, S 1 )とBLEU(C, S 2 )がδより小さい 9
  7. Mining Wikipedia Edits 例: C 0 = I am a

    cat who has no name as yet. S 1 = I am a cat. S 2 = I have no name as yet. BLEU(C, S 1 ) > δ < BLEU(C, S 2 ) 10 removing adding
  8. Corpus Statistics and Quality • Correct/Unsupp./Miss. = 168/35/4 (δ =

    0.2) → 68%は完璧で、32%はノイズを含む • このデータを訓練データとして使用 • 評価においてノイズやバイアスを含む不完全な 信号であることを受け入れる 12