文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts

F637b583c221c132af26c91cb3dba0ca?s=47 Yumeto Inaoka
November 22, 2019

文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts

2019/11/22の文献紹介で発表

F637b583c221c132af26c91cb3dba0ca?s=128

Yumeto Inaoka

November 22, 2019
Tweet

Transcript

  1. Comparing and Developing Tools to Measure the Readability of Domain-Specific

    Texts 文献紹介 2019/11/22 長岡技術科学大学 自然言語処理研究室 稲岡 夢人
  2. Literature 2 Title: Comparing and Developing Tools to Measure the

    Readability of Domain-Specific Texts Authors: Elissa Redmiles, Lisa Maszkiewicz, Emily Hwang, Dhruv Kuchhal, Everest Liu, Miraida Morales, Denis Peskov, Sudha Rao, Rock Stevens, Kristina Gligorić, Sean Kross, Michelle Mazurek, Hal Daumé III Volume: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) Pages: 4833-4844 Year: 2019
  3. Abstract • よく知られている可読性(Readability)の尺度の 有効性を比較 • 既存尺度の欠点に対処したSmart Clozeを提案 • 各尺度でcontent validity,

    convergent validityを 評価し、精度やドメイン固有性、participant burden のトレードオフを説明 3
  4. Readability • NLPシステムの品質の評価や検索結果のランキング に使用されている • テキストの理解度を評価するために、専門家が書く 理解度の質問、自動生成されるReadability tests、 計算のみで得られる指標が利用できる 4

  5. Readability assessments • 大半の読みやすさ評価は小学校のテキスト用に開発 されており、小学生の読者で検証されている • 一方でオンライン上のテキストは大人の読者が対象 → 構造、単語の抽象性、ドメイン固有性の違い •

    読みやすさの評価手法の有効性はオンライン上の テキストで評価されることはほとんど無い 5
  6. Contributions • Content validity, Convergent validity, Redundancy, スコア精度の観点からよく用いられる手法を評価 • ドメイン固有の自動生成されたreadability

    testsの 必要性を特定 • オープンソースのツールとコーパスを公開 6
  7. Digital Readability Corpus • Story corpus • Wikipedia corpus •

    Health corpus: • Security corpus • Final evaluation corpus 7
  8. Story corpus • 500の架空の物語を基に作成 • Amazon Mechanical Turkを使用 • 品質は人手で検証されている

    8
  9. Wikipedia corpus • Wikipediaからスクレイピングされてクリーニング された20,000件の記事から作成 • ドメイン固有のテキストに対する大人向けテキスト のベースラインとして選択 • ドメイン固有のテキストに近いFRESを持つ

    9
  10. Health corpus • Health readability corpusから500文書の健康に 関する記事 • ワークシート、ポスター、infographics、Webサイト は含まれない

    • 7~8年生の読書レベル以下 10
  11. Security corpus • Mturkでセキュリティに関するGoogle検索クエリの 作成を依頼し、上位20件の本文を使用 • 10人のセキュリティの専門家と司書が推薦する セキュリティソースからスクレイピング • 合計1,878件の文書を作成

    11
  12. Final evaluation corpus • 各コーパスから25文書を選択 • 選択した全ての文書を人手で確認し、トピックに沿っ た適切でクリーンであることを確認 12

  13. Readability Metrics • 各文書に理解度を確認する問題を作成 ← 1つのTrue/False 問題と2つの多肢選択問題 • 問題が簡単だったかどうかの質問も行なう(Ease) •

    SecurityとHealthの問題は3人の専門家が作成 • 質問は全部で300(=3[問]*25[文書]*4[コーパス]) • 質問を作成、評価した経験のある専門家が10時間 以上かけて編集、改良 13
  14. Cloze • 文書内のn番目の単語を削除し、読者に正しい単語を 入力させる → 試験に時間が掛かる • Clozeの改良として、辞書から同じ品詞を持つ単語を 複数取り出し、それを誤答として多肢選択問題を 作成する手法

    → ドメイン固有のテキストでは簡単になりすぎる 14
  15. Prior work to improve Cloze (例) セキュリティドメイン ### を元のデータに戻す処理を復号という。 (a)

    暗号 (b) 犬 (c) 桜 (d) 人生 15
  16. Smart Cloze • 同じコーパスからドメイン固有の辞書を作成し、 そこから誤答となる選択肢を作成 (例) セキュリティドメイン ### を元のデータに戻す処理を復号という。 (a)

    暗号 (b) ウイルス (c) キー (d) 乱数 16
  17. Smart Cloze (Procedure) 1. コーパス内の単語に品詞を付与 2. コーパス内の単語から品詞毎に辞書を作成 3. 文書の単語のみを使用して同様に辞書を作成 4.

    多肢選択問題に置換できる文書内の単語を特定 5. その単語毎に誤肢を作成 17
  18. Smart Cloze (Distractors) • ドメイン固有、文書固有の辞書から対象単語と同じ 品詞を持つ単語を14個ランダムに選択 • 上単語から誤肢として満足のいく単語を4つ選択 (各辞書からそれぞれ2つ選択) •

    誤肢として満足がいくかどうかは、その単語が 対象単語の代わりになり得るかどうかで判断 18
  19. Smart Cloze (Distractors) • 単語が対象単語の代わりになり得るかどうかは • 対象単語の前の単語と後の単語からbi-gram確率 を計算 (Google n-gramを使用)

    • 誤肢候補の単語と後の単語からbi-gram確率を計算 • そのbi-gram確率がそれぞれ対象単語の場合よりも 高ければ誤肢として採用される • 4つ見つからなければbi-gram確率が高い候補を採用 19
  20. Validity Evaluation 構成概念妥当性によって可読性指標を比較 • Content validity: 可読性との関連が理論化された概念に関連する尺度 の度合い • Convergent

    validity: 関連する尺度との相関度合い 20
  21. Validity Evaluation 可読性に相応しい尺度の選択に関連する要因の検討 • Redundancy: ある尺度が別の尺度によってカバーされる度合い • Score precision: 異なる文書を尺度が区別する精度

    • Participant burden: 完了するまでの参加者にかかるコスト 21
  22. Content validity • 可読性に関連する以下の言語要素について調査 • Narrativity • Syntactic simplicity •

    Word concreteness • Referential cohesion • Deep cohesion • 言語要素を入力として予測させる線形回帰モデルに よって測定 22
  23. Convergent validity • 評価セットにおける各可読性手法のピアソン相関を 計算して評価 • α< 0.05において有意な相関としてp値を報告 23

  24. Redundancy • Convergent validityにて完全に相関するとき、 相関する両方の尺度が必要になることはほぼない • ある尺度が他の尺度によって予測できるかを線形 回帰モデルによって確認 24

  25. Score precision • 尺度のスコアの分布の形状を調べることで評価 • 視覚的な検証と尖度の両方で確認 25

  26. Participant burden • タスクを完了するのにかかる時間によって評価 • 研究者にかかるコストの代理でもある • 平均完了時間の信頼区間により比較 → 重複しない信頼区間は大きな違いを示す

    26
  27. Result (Content validity) 27

  28. Result (Content validity) 28

  29. Result (Content validity) 29

  30. Result (Content validity) 30

  31. Result (Content validity) 31

  32. Result (Content validity) 32

  33. • 万能な指標はなく、 使い分ける必要がある • 考慮する事項をまとめ、 複数の指標を使用する べきである 33