Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts

Yumeto Inaoka
November 22, 2019

文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts

2019/11/22の文献紹介で発表

Yumeto Inaoka

November 22, 2019
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Comparing and Developing Tools to Measure
    the Readability of Domain-Specific Texts
    文献紹介 2019/11/22
    長岡技術科学大学 自然言語処理研究室
    稲岡 夢人

    View Slide

  2. Literature
    2
    Title:
    Comparing and Developing Tools to Measure the Readability of
    Domain-Specific Texts
    Authors:
    Elissa Redmiles, Lisa Maszkiewicz, Emily Hwang, Dhruv Kuchhal,
    Everest Liu, Miraida Morales, Denis Peskov, Sudha Rao,
    Rock Stevens, Kristina Gligorić, Sean Kross, Michelle Mazurek,
    Hal Daumé III
    Volume:
    Proceedings of the 2019 Conference on Empirical Methods in
    Natural Language Processing and the 9th International Joint
    Conference on Natural Language Processing (EMNLP-IJCNLP)
    Pages: 4833-4844
    Year: 2019

    View Slide

  3. Abstract
    • よく知られている可読性(Readability)の尺度の
    有効性を比較
    • 既存尺度の欠点に対処したSmart Clozeを提案
    • 各尺度でcontent validity, convergent validityを
    評価し、精度やドメイン固有性、participant burden
    のトレードオフを説明
    3

    View Slide

  4. Readability
    • NLPシステムの品質の評価や検索結果のランキング
    に使用されている
    • テキストの理解度を評価するために、専門家が書く
    理解度の質問、自動生成されるReadability tests、
    計算のみで得られる指標が利用できる
    4

    View Slide

  5. Readability assessments
    • 大半の読みやすさ評価は小学校のテキスト用に開発
    されており、小学生の読者で検証されている
    • 一方でオンライン上のテキストは大人の読者が対象
    → 構造、単語の抽象性、ドメイン固有性の違い
    • 読みやすさの評価手法の有効性はオンライン上の
    テキストで評価されることはほとんど無い
    5

    View Slide

  6. Contributions
    • Content validity, Convergent validity, Redundancy,
    スコア精度の観点からよく用いられる手法を評価
    • ドメイン固有の自動生成されたreadability testsの
    必要性を特定
    • オープンソースのツールとコーパスを公開
    6

    View Slide

  7. Digital Readability Corpus
    • Story corpus
    • Wikipedia corpus
    • Health corpus:
    • Security corpus
    • Final evaluation corpus
    7

    View Slide

  8. Story corpus
    • 500の架空の物語を基に作成
    • Amazon Mechanical Turkを使用
    • 品質は人手で検証されている
    8

    View Slide

  9. Wikipedia corpus
    • Wikipediaからスクレイピングされてクリーニング
    された20,000件の記事から作成
    • ドメイン固有のテキストに対する大人向けテキスト
    のベースラインとして選択
    • ドメイン固有のテキストに近いFRESを持つ
    9

    View Slide

  10. Health corpus
    • Health readability corpusから500文書の健康に
    関する記事
    • ワークシート、ポスター、infographics、Webサイト
    は含まれない
    • 7~8年生の読書レベル以下
    10

    View Slide

  11. Security corpus
    • Mturkでセキュリティに関するGoogle検索クエリの
    作成を依頼し、上位20件の本文を使用
    • 10人のセキュリティの専門家と司書が推薦する
    セキュリティソースからスクレイピング
    • 合計1,878件の文書を作成
    11

    View Slide

  12. Final evaluation corpus
    • 各コーパスから25文書を選択
    • 選択した全ての文書を人手で確認し、トピックに沿っ
    た適切でクリーンであることを確認
    12

    View Slide

  13. Readability Metrics
    • 各文書に理解度を確認する問題を作成
    ← 1つのTrue/False 問題と2つの多肢選択問題
    • 問題が簡単だったかどうかの質問も行なう(Ease)
    • SecurityとHealthの問題は3人の専門家が作成
    • 質問は全部で300(=3[問]*25[文書]*4[コーパス])
    • 質問を作成、評価した経験のある専門家が10時間
    以上かけて編集、改良
    13

    View Slide

  14. Cloze
    • 文書内のn番目の単語を削除し、読者に正しい単語を
    入力させる
    → 試験に時間が掛かる
    • Clozeの改良として、辞書から同じ品詞を持つ単語を
    複数取り出し、それを誤答として多肢選択問題を
    作成する手法
    → ドメイン固有のテキストでは簡単になりすぎる
    14

    View Slide

  15. Prior work to improve Cloze
    (例) セキュリティドメイン
    ### を元のデータに戻す処理を復号という。
    (a) 暗号 (b) 犬 (c) 桜 (d) 人生
    15

    View Slide

  16. Smart Cloze
    • 同じコーパスからドメイン固有の辞書を作成し、
    そこから誤答となる選択肢を作成
    (例) セキュリティドメイン
    ### を元のデータに戻す処理を復号という。
    (a) 暗号 (b) ウイルス (c) キー (d) 乱数
    16

    View Slide

  17. Smart Cloze (Procedure)
    1. コーパス内の単語に品詞を付与
    2. コーパス内の単語から品詞毎に辞書を作成
    3. 文書の単語のみを使用して同様に辞書を作成
    4. 多肢選択問題に置換できる文書内の単語を特定
    5. その単語毎に誤肢を作成
    17

    View Slide

  18. Smart Cloze (Distractors)
    • ドメイン固有、文書固有の辞書から対象単語と同じ
    品詞を持つ単語を14個ランダムに選択
    • 上単語から誤肢として満足のいく単語を4つ選択
    (各辞書からそれぞれ2つ選択)
    • 誤肢として満足がいくかどうかは、その単語が
    対象単語の代わりになり得るかどうかで判断
    18

    View Slide

  19. Smart Cloze (Distractors)
    • 単語が対象単語の代わりになり得るかどうかは
    • 対象単語の前の単語と後の単語からbi-gram確率
    を計算 (Google n-gramを使用)
    • 誤肢候補の単語と後の単語からbi-gram確率を計算
    • そのbi-gram確率がそれぞれ対象単語の場合よりも
    高ければ誤肢として採用される
    • 4つ見つからなければbi-gram確率が高い候補を採用
    19

    View Slide

  20. Validity Evaluation
    構成概念妥当性によって可読性指標を比較
    • Content validity:
    可読性との関連が理論化された概念に関連する尺度
    の度合い
    • Convergent validity:
    関連する尺度との相関度合い
    20

    View Slide

  21. Validity Evaluation
    可読性に相応しい尺度の選択に関連する要因の検討
    • Redundancy:
    ある尺度が別の尺度によってカバーされる度合い
    • Score precision:
    異なる文書を尺度が区別する精度
    • Participant burden:
    完了するまでの参加者にかかるコスト
    21

    View Slide

  22. Content validity
    • 可読性に関連する以下の言語要素について調査
    • Narrativity
    • Syntactic simplicity
    • Word concreteness
    • Referential cohesion
    • Deep cohesion
    • 言語要素を入力として予測させる線形回帰モデルに
    よって測定
    22

    View Slide

  23. Convergent validity
    • 評価セットにおける各可読性手法のピアソン相関を
    計算して評価
    • α< 0.05において有意な相関としてp値を報告
    23

    View Slide

  24. Redundancy
    • Convergent validityにて完全に相関するとき、
    相関する両方の尺度が必要になることはほぼない
    • ある尺度が他の尺度によって予測できるかを線形
    回帰モデルによって確認
    24

    View Slide

  25. Score precision
    • 尺度のスコアの分布の形状を調べることで評価
    • 視覚的な検証と尖度の両方で確認
    25

    View Slide

  26. Participant burden
    • タスクを完了するのにかかる時間によって評価
    • 研究者にかかるコストの代理でもある
    • 平均完了時間の信頼区間により比較
    → 重複しない信頼区間は大きな違いを示す
    26

    View Slide

  27. Result (Content validity)
    27

    View Slide

  28. Result (Content validity)
    28

    View Slide

  29. Result (Content validity)
    29

    View Slide

  30. Result (Content validity)
    30

    View Slide

  31. Result (Content validity)
    31

    View Slide

  32. Result (Content validity)
    32

    View Slide

  33. • 万能な指標はなく、
    使い分ける必要がある
    • 考慮する事項をまとめ、
    複数の指標を使用する
    べきである
    33

    View Slide