Upgrade to Pro — share decks privately, control downloads, hide ads and more …

An Analysis of Crowdsourced Text Simplifications

An Analysis of Crowdsourced Text Simplifications

文献紹介

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

July 20, 2017
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. An Analysis of Crowdsourced Text Simplifications Marcelo Adriano Amancio and

    Lucia Specia Department of Computer Science University of Sheffield Sheffield, UK Proceedings of the 3rd Workshop on Predicting and Improving Text Readability for Target Reader Populations (PITR) @ EACL 2014, pages 123–130, Gothenburg, Sweden, April 26-30 2014. 自然言語処理研究室 B4 勝田 哲弘 図、表などは論文中から引用しています。 1 2017/7/21
  2. 概要 • 換言の学習に並列コーパスが適切であるか • 単純な並列コーパスを、平易化の操作によって 自動分類 • Simple English Wikipediaの操作

    ▫ 言い換え(39.80%) ▫ 情報の低下(26.76%) • 分類の精度 ▫ 言い換え(73%) ▫ 情報の低下(69%) 2
  3. 目的 • 言換は抽象的な変化が多いため誤った操作を誘 発させる可能性が高まる。 ▫ 換言だけを行っているデータを取り除く ↓ • 操作ごとに自動で分類できるモデルを構築する 3

  4. 関連研究 Yasseri et al. (2012).  English Wikipedia(EW)とSimpleEWの両方で言語の 複雑さを統計的に分析 Stajner

    et al. (2013)  スペイン語の平易化コーパスを文分割、削除、縮小 に分類し、F値が92%であった。 4
  5. コーパス • ParallelSWEからランダムに143文抽出 ▫ SW寄稿者によって行われた操作(TOs)を文に付 与する  Parallel143 corpus 5

  6. 平易化の操作(TOs) • TO ▫ 文分割(SS)、換言(PR)、情報欠落(DI)、 文の並び替え(SR)、情報の挿入(II) ▫ Not a Parallel

    Sentence(NPS) 6
  7. 実験 • 6つのラベルを分類 • 操作が1回(S)、操作が2回以上(C) • 10分割交差検定 • Weka pacage(Hall

    et al., 2009)分類器 ▫ Baseline デフォルト設定 ▫ Model 最も精度の高い学習アルゴリズム 7
  8. 素性 • 6つのラベルに分類 • 1回の操作か2回以上の操作か分類 • 原文の単語数 • 平易文の単語数 •

    T/Sサイズ比 • 平易文で削除、挿入された単語数 • 文字の置換の有無(True or False) 8
  9. 結果 9

  10. まとめ • 平易化操作 ▫ 換言が多いが、コーパスで学習させるのが難しい。 • 精度の良い分類器の構築 ▫ 平易化コーパスの品質向上のためのフィルタに使 用できる

    10