Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: Learning To Split and Rephrase From Wikipedia Edit History

Yumeto Inaoka
November 21, 2018

文献紹介: Learning To Split and Rephrase From Wikipedia Edit History

2018/11/21の文献紹介で発表

Yumeto Inaoka

November 21, 2018
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Learning To Split and Rephrase From Wikipedia Edit History 文献紹介

    ( 2018/11/21 ) 長岡技術科学大学 自然言語処理研究室 稲岡 夢人
  2. Literature • Learning To Split and Rephrase From Wikipedia Edit

    History • Jan A. Botha, Manaal Faruqui, John Alex, Jason Baldridge, Dipanjan Das (Google AI Language) • Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2
  3. Related Works Split and Rephrase [Narayan et al. 2017] •

    新しい平易化タスク“Split and Rephrase”を提案 • ベンチマーク WebSplit を作成 • 既存のモデルを適用してタスクの難易度を調査 4
  4. Related Works Split and Rephrase: Better Evaluation and a Stronger

    Baseline [Aharoni, Goldberg. 2018] • WebSplit内のデータの重複を削減 • Copy mechanismを用いても性能が不十分 5
  5. Mining Wikipedia Edits • 記事からマークアップを除去 • splitta [Gillick. 2009] で文を分割

    • 時間的に隣接するスナップショットを比較し 文分割を含む編集を特定 • 分割候補から高品質の分割のみを抽出 8
  6. Mining Wikipedia Edits • Full sentence: C Candidate split: S =

    (S 1 , S 2 ) • CとS 1 の接頭辞、CとS 2 の接尾辞が同じtri-gram • S 1 とS 2 の接尾辞が異なるtri-gram • BLEU(C, S 1 )とBLEU(C, S 2 )がδより小さい 9
  7. Mining Wikipedia Edits 例: C 0 = I am a

    cat who has no name as yet. S 1 = I am a cat. S 2 = I have no name as yet. BLEU(C, S 1 ) > δ < BLEU(C, S 2 ) 10 removing adding
  8. Corpus Statistics and Quality • Correct/Unsupp./Miss. = 168/35/4 (δ =

    0.2) → 68%は完璧で、32%はノイズを含む • このデータを訓練データとして使用 • 評価においてノイズやバイアスを含む不完全な 信号であることを受け入れる 12