Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts

Yumeto Inaoka
November 22, 2019

文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts

2019/11/22の文献紹介で発表

Yumeto Inaoka

November 22, 2019
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Comparing and Developing Tools to Measure the Readability of Domain-Specific

    Texts 文献紹介 2019/11/22 長岡技術科学大学 自然言語処理研究室 稲岡 夢人
  2. Literature 2 Title: Comparing and Developing Tools to Measure the

    Readability of Domain-Specific Texts Authors: Elissa Redmiles, Lisa Maszkiewicz, Emily Hwang, Dhruv Kuchhal, Everest Liu, Miraida Morales, Denis Peskov, Sudha Rao, Rock Stevens, Kristina Gligorić, Sean Kross, Michelle Mazurek, Hal Daumé III Volume: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) Pages: 4833-4844 Year: 2019
  3. Digital Readability Corpus • Story corpus • Wikipedia corpus •

    Health corpus: • Security corpus • Final evaluation corpus 7
  4. Readability Metrics • 各文書に理解度を確認する問題を作成 ← 1つのTrue/False 問題と2つの多肢選択問題 • 問題が簡単だったかどうかの質問も行なう(Ease) •

    SecurityとHealthの問題は3人の専門家が作成 • 質問は全部で300(=3[問]*25[文書]*4[コーパス]) • 質問を作成、評価した経験のある専門家が10時間 以上かけて編集、改良 13
  5. Smart Cloze (Distractors) • 単語が対象単語の代わりになり得るかどうかは • 対象単語の前の単語と後の単語からbi-gram確率 を計算 (Google n-gramを使用)

    • 誤肢候補の単語と後の単語からbi-gram確率を計算 • そのbi-gram確率がそれぞれ対象単語の場合よりも 高ければ誤肢として採用される • 4つ見つからなければbi-gram確率が高い候補を採用 19
  6. Content validity • 可読性に関連する以下の言語要素について調査 • Narrativity • Syntactic simplicity •

    Word concreteness • Referential cohesion • Deep cohesion • 言語要素を入力として予測させる線形回帰モデルに よって測定 22