Upgrade to Pro — share decks privately, control downloads, hide ads and more …

An Analysis of Crowdsourced Text Simplifications

An Analysis of Crowdsourced Text Simplifications

文献紹介

katsutan

July 20, 2017
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. An Analysis of Crowdsourced Text Simplifications Marcelo Adriano Amancio and

    Lucia Specia Department of Computer Science University of Sheffield Sheffield, UK Proceedings of the 3rd Workshop on Predicting and Improving Text Readability for Target Reader Populations (PITR) @ EACL 2014, pages 123–130, Gothenburg, Sweden, April 26-30 2014. 自然言語処理研究室 B4 勝田 哲弘 図、表などは論文中から引用しています。 1 2017/7/21
  2. 概要 • 換言の学習に並列コーパスが適切であるか • 単純な並列コーパスを、平易化の操作によって 自動分類 • Simple English Wikipediaの操作

    ▫ 言い換え(39.80%) ▫ 情報の低下(26.76%) • 分類の精度 ▫ 言い換え(73%) ▫ 情報の低下(69%) 2
  3. 関連研究 Yasseri et al. (2012).  English Wikipedia(EW)とSimpleEWの両方で言語の 複雑さを統計的に分析 Stajner

    et al. (2013)  スペイン語の平易化コーパスを文分割、削除、縮小 に分類し、F値が92%であった。 4
  4. 実験 • 6つのラベルを分類 • 操作が1回(S)、操作が2回以上(C) • 10分割交差検定 • Weka pacage(Hall

    et al., 2009)分類器 ▫ Baseline デフォルト設定 ▫ Model 最も精度の高い学習アルゴリズム 7
  5. 素性 • 6つのラベルに分類 • 1回の操作か2回以上の操作か分類 • 原文の単語数 • 平易文の単語数 •

    T/Sサイズ比 • 平易文で削除、挿入された単語数 • 文字の置換の有無(True or False) 8