Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: Comparing and Developing Tools to Measure...

Avatar for Yumeto Inaoka Yumeto Inaoka
November 22, 2019

文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts

2019/11/22の文献紹介で発表

Avatar for Yumeto Inaoka

Yumeto Inaoka

November 22, 2019
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Comparing and Developing Tools to Measure the Readability of Domain-Specific

    Texts 文献紹介 2019/11/22 長岡技術科学大学 自然言語処理研究室 稲岡 夢人
  2. Literature 2 Title: Comparing and Developing Tools to Measure the

    Readability of Domain-Specific Texts Authors: Elissa Redmiles, Lisa Maszkiewicz, Emily Hwang, Dhruv Kuchhal, Everest Liu, Miraida Morales, Denis Peskov, Sudha Rao, Rock Stevens, Kristina Gligorić, Sean Kross, Michelle Mazurek, Hal Daumé III Volume: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) Pages: 4833-4844 Year: 2019
  3. Digital Readability Corpus • Story corpus • Wikipedia corpus •

    Health corpus: • Security corpus • Final evaluation corpus 7
  4. Readability Metrics • 各文書に理解度を確認する問題を作成 ← 1つのTrue/False 問題と2つの多肢選択問題 • 問題が簡単だったかどうかの質問も行なう(Ease) •

    SecurityとHealthの問題は3人の専門家が作成 • 質問は全部で300(=3[問]*25[文書]*4[コーパス]) • 質問を作成、評価した経験のある専門家が10時間 以上かけて編集、改良 13
  5. Smart Cloze (Distractors) • 単語が対象単語の代わりになり得るかどうかは • 対象単語の前の単語と後の単語からbi-gram確率 を計算 (Google n-gramを使用)

    • 誤肢候補の単語と後の単語からbi-gram確率を計算 • そのbi-gram確率がそれぞれ対象単語の場合よりも 高ければ誤肢として採用される • 4つ見つからなければbi-gram確率が高い候補を採用 19
  6. Content validity • 可読性に関連する以下の言語要素について調査 • Narrativity • Syntactic simplicity •

    Word concreteness • Referential cohesion • Deep cohesion • 言語要素を入力として予測させる線形回帰モデルに よって測定 22