Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Understanding the Lexical Simplification Needs of Non-Native Speakers of English

Understanding the Lexical Simplification Needs of Non-Native Speakers of English

文献紹介

長岡技術科学大学
勝田哲弘

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

April 18, 2018
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. Understanding the Lexical Simplification Needs of Non-Native Speakers of English

    Gustavo Henrique Paetzold and Lucia Specia, Department of Computer Science, University of Sheffield, UK, Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, pages 717–727, 長岡技術科学大学 自然言語処理研究室 勝田 哲弘 1 2018/4/19
  2. Introduction • テキスト平易化はNLPタスクの改善、及び 言語学習者の読解を支援できる – (Chandrasekar et al., 1996) •

    支援のために英語学習者のニーズを調査する – ユーザ調査を行った研究はほとんどない 今回 • 平易化の観点から3つの調査を行った 2
  3. Introduction • 平易化タスク 3

  4. Introduction • 調査対象 4

  5. Complex Word Identification • どの単語をテキスト内で平易化するか – 平易化すべきでない単語を識別する(Paetzold, 2015) • 精度に大きく影響

    • CWIの調査目的 – 母国語以外の人が難しく感じる言葉の特徴を理解する。 – 複雑な言葉を自動的に識別するモデルのためのデータセッ トを構築する。 5
  6. Complex Word Identification • Data Sources – 20~40語の長さで9200文を抽出 以下の3つから –

    CW Corpus (Shardlow, 2013b) • 確実に1つの単語を平易化している – LexMTurk Corpus (Horn et al., 2014) • 平易化された単語が1つ存在する – Simple Wikipedia (Kauchak, 2013) 6
  7. Complex Word Identification • Annotation Process – 世界中の大学生、職員 400人 –

    基準に従って、母国語、年齢、教育レベル、 英語能力レベルを調査 • CEFR(Common European Reference for Language) 文章から難しい単語を選択する For each sentence, mark all the words you do not understand, even if you understand the sentence as a whole. If you understand all of them, just select the “I understand all words!” option. 7
  8. Complex Word Identification • Dataset Analysis – 200文を20人が注釈をつける – 9000文を1人がつける(平均22文)

    – 158,624の注釈 • 合計6388語が難しい単語である 8
  9. Complex Word Identification 9

  10. Complex Word Identification • 1つは難しい単語が含まれる割合 – CW, LexMTurkのデータセットの内、 • 51.9,

    40.8[%] – Simple English Wikipedia • 27.3[%] 改善が必要かもしれない 10
  11. Complex Word Identification • 難しい単語の特徴の調査(関連研究) – Morphological: • Word length

    and number of syllables (Burns, 2013) – Semantic: • Number of senses, synonyms, hypernyms and hyponyms (Fellbaum,1998) – Lexical: • N-gram language model log-probabilities – the SubIMDB (Paetzold and Specia, 2016) – Subtlex (Brysbaert and New, 2009) – Simple Wikipedia (Kauchak, 2013) corpora 11
  12. Complex Word Identification 12 • Complex,Simpleの差

  13. Complex Word Identification • Inter-annotator agreement (Carletta, 1996) – 平均

    0.616 ±0.05 • レベルごとの一致度 – 英語能力ごと 0.575 ± 0.07 – 教育 0.638 ± 0.08 – 年齢 0.671 ± 0.08 – 母国語 0.718 ± 0.1 13
  14. Substitution Selection • 文脈から置換候補を決定するタスク – 文法や意味を考慮 • 調査目的 – 良い候補の理解

    – SSのデータセット構築 14
  15. Substitution Selection • Data Sources – CWIから数字、名前、色、ストップワードを除 いた1471の単語リスト – 平均50単語の候補を生成し、意味類似度の高い

    10単語を選択 • LEXenstein framework (Paetzold and Specia, 2015) – 1471の単語が3つ以上出現するようにwikiから文 を抽出(2554文) – それぞれの候補で置換(25540文) 15
  16. Substitution Selection • 置換前と置換後の文法、意味保持性の 評価 Judge the following candidate substitutions

    of complex words with respect to their grammaticality and meaning preservation. When judging, please ignore any grammatical errors that are not caused by the substitution. – The substitution preserves the sentence’s grammaticality – The substitution preserves the original sentence’s meaning • 1600文は5人、23940文は1人ずつ • 平易さは考慮しない 16
  17. Substitution Selection • 関連研究 – 言語モデル • SubIMDB (Paetzold and

    Specia, 2016) • Subtlex (Brysbaert and New, 2009) • Simple Wikipedia corpora (Kauchak, 2013). – コサイン類似 • 候補との類似度(Target Sim.) • 内容語との類似度(Context Sim.) – (Glavas and Stajner, 2015) – 品詞の予測 • (Klein and Manning, 2003) 17
  18. Substitution Selection 18 • 3人以上が両方を良いと判断した単語 – 356単語 • 171 (48%)

    WordNetにない単語
  19. Substitution Ranking • 平易さに従ってランク付けされる • 調査目的 – 平易さ評価の調査 – データセットの構築

    19
  20. Substitution Ranking • Data Sources – SSから901文を抽出 • 難しい単語に対して複数の候補がある –

    2~4 • 3人以上が両方保持しているとした候補 • 候補を2つ出してどちらが分かりやすいか を選ぶ For each of the following instances, select which candidate makes the sentence easier to understand. If the words are equally complex/simple, select the “The words are equally simple” option. Please overlook any grammatical or spelling errors. 20
  21. Substitution Ranking • それぞれ5人が注釈をつける – 合計21000の注釈 • バイナリ比較からランキングを推測 – (Wauthier

    et al., 2013) • CWIのモデルとの相関を計算 21
  22. Substitution Ranking 22

  23. Conclusions • 平易化の3つのタスクにおいて大学の学生、 教員を対象に調査を行った • 調査結果 – SSにおいては文脈を無視しても信頼性が高い – CWI,SRでは文脈が重要な手がかりになるだろう

    23
  24. Conclusions データはダウンロード可能 24