Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Understanding the Lexical Simplification Needs of Non-Native Speakers of English

katsutan
April 18, 2018

Understanding the Lexical Simplification Needs of Non-Native Speakers of English

文献紹介

長岡技術科学大学
勝田哲弘

katsutan

April 18, 2018
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. Understanding the Lexical Simplification Needs of Non-Native Speakers of English

    Gustavo Henrique Paetzold and Lucia Specia, Department of Computer Science, University of Sheffield, UK, Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, pages 717–727, 長岡技術科学大学 自然言語処理研究室 勝田 哲弘 1 2018/4/19
  2. Introduction • テキスト平易化はNLPタスクの改善、及び 言語学習者の読解を支援できる – (Chandrasekar et al., 1996) •

    支援のために英語学習者のニーズを調査する – ユーザ調査を行った研究はほとんどない 今回 • 平易化の観点から3つの調査を行った 2
  3. Complex Word Identification • どの単語をテキスト内で平易化するか – 平易化すべきでない単語を識別する(Paetzold, 2015) • 精度に大きく影響

    • CWIの調査目的 – 母国語以外の人が難しく感じる言葉の特徴を理解する。 – 複雑な言葉を自動的に識別するモデルのためのデータセッ トを構築する。 5
  4. Complex Word Identification • Data Sources – 20~40語の長さで9200文を抽出 以下の3つから –

    CW Corpus (Shardlow, 2013b) • 確実に1つの単語を平易化している – LexMTurk Corpus (Horn et al., 2014) • 平易化された単語が1つ存在する – Simple Wikipedia (Kauchak, 2013) 6
  5. Complex Word Identification • Annotation Process – 世界中の大学生、職員 400人 –

    基準に従って、母国語、年齢、教育レベル、 英語能力レベルを調査 • CEFR(Common European Reference for Language) 文章から難しい単語を選択する For each sentence, mark all the words you do not understand, even if you understand the sentence as a whole. If you understand all of them, just select the “I understand all words!” option. 7
  6. Complex Word Identification • 1つは難しい単語が含まれる割合 – CW, LexMTurkのデータセットの内、 • 51.9,

    40.8[%] – Simple English Wikipedia • 27.3[%] 改善が必要かもしれない 10
  7. Complex Word Identification • 難しい単語の特徴の調査(関連研究) – Morphological: • Word length

    and number of syllables (Burns, 2013) – Semantic: • Number of senses, synonyms, hypernyms and hyponyms (Fellbaum,1998) – Lexical: • N-gram language model log-probabilities – the SubIMDB (Paetzold and Specia, 2016) – Subtlex (Brysbaert and New, 2009) – Simple Wikipedia (Kauchak, 2013) corpora 11
  8. Complex Word Identification • Inter-annotator agreement (Carletta, 1996) – 平均

    0.616 ±0.05 • レベルごとの一致度 – 英語能力ごと 0.575 ± 0.07 – 教育 0.638 ± 0.08 – 年齢 0.671 ± 0.08 – 母国語 0.718 ± 0.1 13
  9. Substitution Selection • Data Sources – CWIから数字、名前、色、ストップワードを除 いた1471の単語リスト – 平均50単語の候補を生成し、意味類似度の高い

    10単語を選択 • LEXenstein framework (Paetzold and Specia, 2015) – 1471の単語が3つ以上出現するようにwikiから文 を抽出(2554文) – それぞれの候補で置換(25540文) 15
  10. Substitution Selection • 置換前と置換後の文法、意味保持性の 評価 Judge the following candidate substitutions

    of complex words with respect to their grammaticality and meaning preservation. When judging, please ignore any grammatical errors that are not caused by the substitution. – The substitution preserves the sentence’s grammaticality – The substitution preserves the original sentence’s meaning • 1600文は5人、23940文は1人ずつ • 平易さは考慮しない 16
  11. Substitution Selection • 関連研究 – 言語モデル • SubIMDB (Paetzold and

    Specia, 2016) • Subtlex (Brysbaert and New, 2009) • Simple Wikipedia corpora (Kauchak, 2013). – コサイン類似 • 候補との類似度(Target Sim.) • 内容語との類似度(Context Sim.) – (Glavas and Stajner, 2015) – 品詞の予測 • (Klein and Manning, 2003) 17
  12. Substitution Ranking • Data Sources – SSから901文を抽出 • 難しい単語に対して複数の候補がある –

    2~4 • 3人以上が両方保持しているとした候補 • 候補を2つ出してどちらが分かりやすいか を選ぶ For each of the following instances, select which candidate makes the sentence easier to understand. If the words are equally complex/simple, select the “The words are equally simple” option. Please overlook any grammatical or spelling errors. 20