Slide 1

Slide 1 text

Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts 文献紹介 2019/11/22 長岡技術科学大学 自然言語処理研究室 稲岡 夢人

Slide 2

Slide 2 text

Literature 2 Title: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts Authors: Elissa Redmiles, Lisa Maszkiewicz, Emily Hwang, Dhruv Kuchhal, Everest Liu, Miraida Morales, Denis Peskov, Sudha Rao, Rock Stevens, Kristina Gligorić, Sean Kross, Michelle Mazurek, Hal Daumé III Volume: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) Pages: 4833-4844 Year: 2019

Slide 3

Slide 3 text

Abstract • よく知られている可読性(Readability)の尺度の 有効性を比較 • 既存尺度の欠点に対処したSmart Clozeを提案 • 各尺度でcontent validity, convergent validityを 評価し、精度やドメイン固有性、participant burden のトレードオフを説明 3

Slide 4

Slide 4 text

Readability • NLPシステムの品質の評価や検索結果のランキング に使用されている • テキストの理解度を評価するために、専門家が書く 理解度の質問、自動生成されるReadability tests、 計算のみで得られる指標が利用できる 4

Slide 5

Slide 5 text

Readability assessments • 大半の読みやすさ評価は小学校のテキスト用に開発 されており、小学生の読者で検証されている • 一方でオンライン上のテキストは大人の読者が対象 → 構造、単語の抽象性、ドメイン固有性の違い • 読みやすさの評価手法の有効性はオンライン上の テキストで評価されることはほとんど無い 5

Slide 6

Slide 6 text

Contributions • Content validity, Convergent validity, Redundancy, スコア精度の観点からよく用いられる手法を評価 • ドメイン固有の自動生成されたreadability testsの 必要性を特定 • オープンソースのツールとコーパスを公開 6

Slide 7

Slide 7 text

Digital Readability Corpus • Story corpus • Wikipedia corpus • Health corpus: • Security corpus • Final evaluation corpus 7

Slide 8

Slide 8 text

Story corpus • 500の架空の物語を基に作成 • Amazon Mechanical Turkを使用 • 品質は人手で検証されている 8

Slide 9

Slide 9 text

Wikipedia corpus • Wikipediaからスクレイピングされてクリーニング された20,000件の記事から作成 • ドメイン固有のテキストに対する大人向けテキスト のベースラインとして選択 • ドメイン固有のテキストに近いFRESを持つ 9

Slide 10

Slide 10 text

Health corpus • Health readability corpusから500文書の健康に 関する記事 • ワークシート、ポスター、infographics、Webサイト は含まれない • 7~8年生の読書レベル以下 10

Slide 11

Slide 11 text

Security corpus • Mturkでセキュリティに関するGoogle検索クエリの 作成を依頼し、上位20件の本文を使用 • 10人のセキュリティの専門家と司書が推薦する セキュリティソースからスクレイピング • 合計1,878件の文書を作成 11

Slide 12

Slide 12 text

Final evaluation corpus • 各コーパスから25文書を選択 • 選択した全ての文書を人手で確認し、トピックに沿っ た適切でクリーンであることを確認 12

Slide 13

Slide 13 text

Readability Metrics • 各文書に理解度を確認する問題を作成 ← 1つのTrue/False 問題と2つの多肢選択問題 • 問題が簡単だったかどうかの質問も行なう(Ease) • SecurityとHealthの問題は3人の専門家が作成 • 質問は全部で300(=3[問]*25[文書]*4[コーパス]) • 質問を作成、評価した経験のある専門家が10時間 以上かけて編集、改良 13

Slide 14

Slide 14 text

Cloze • 文書内のn番目の単語を削除し、読者に正しい単語を 入力させる → 試験に時間が掛かる • Clozeの改良として、辞書から同じ品詞を持つ単語を 複数取り出し、それを誤答として多肢選択問題を 作成する手法 → ドメイン固有のテキストでは簡単になりすぎる 14

Slide 15

Slide 15 text

Prior work to improve Cloze (例) セキュリティドメイン ### を元のデータに戻す処理を復号という。 (a) 暗号 (b) 犬 (c) 桜 (d) 人生 15

Slide 16

Slide 16 text

Smart Cloze • 同じコーパスからドメイン固有の辞書を作成し、 そこから誤答となる選択肢を作成 (例) セキュリティドメイン ### を元のデータに戻す処理を復号という。 (a) 暗号 (b) ウイルス (c) キー (d) 乱数 16

Slide 17

Slide 17 text

Smart Cloze (Procedure) 1. コーパス内の単語に品詞を付与 2. コーパス内の単語から品詞毎に辞書を作成 3. 文書の単語のみを使用して同様に辞書を作成 4. 多肢選択問題に置換できる文書内の単語を特定 5. その単語毎に誤肢を作成 17

Slide 18

Slide 18 text

Smart Cloze (Distractors) • ドメイン固有、文書固有の辞書から対象単語と同じ 品詞を持つ単語を14個ランダムに選択 • 上単語から誤肢として満足のいく単語を4つ選択 (各辞書からそれぞれ2つ選択) • 誤肢として満足がいくかどうかは、その単語が 対象単語の代わりになり得るかどうかで判断 18

Slide 19

Slide 19 text

Smart Cloze (Distractors) • 単語が対象単語の代わりになり得るかどうかは • 対象単語の前の単語と後の単語からbi-gram確率 を計算 (Google n-gramを使用) • 誤肢候補の単語と後の単語からbi-gram確率を計算 • そのbi-gram確率がそれぞれ対象単語の場合よりも 高ければ誤肢として採用される • 4つ見つからなければbi-gram確率が高い候補を採用 19

Slide 20

Slide 20 text

Validity Evaluation 構成概念妥当性によって可読性指標を比較 • Content validity: 可読性との関連が理論化された概念に関連する尺度 の度合い • Convergent validity: 関連する尺度との相関度合い 20

Slide 21

Slide 21 text

Validity Evaluation 可読性に相応しい尺度の選択に関連する要因の検討 • Redundancy: ある尺度が別の尺度によってカバーされる度合い • Score precision: 異なる文書を尺度が区別する精度 • Participant burden: 完了するまでの参加者にかかるコスト 21

Slide 22

Slide 22 text

Content validity • 可読性に関連する以下の言語要素について調査 • Narrativity • Syntactic simplicity • Word concreteness • Referential cohesion • Deep cohesion • 言語要素を入力として予測させる線形回帰モデルに よって測定 22

Slide 23

Slide 23 text

Convergent validity • 評価セットにおける各可読性手法のピアソン相関を 計算して評価 • α< 0.05において有意な相関としてp値を報告 23

Slide 24

Slide 24 text

Redundancy • Convergent validityにて完全に相関するとき、 相関する両方の尺度が必要になることはほぼない • ある尺度が他の尺度によって予測できるかを線形 回帰モデルによって確認 24

Slide 25

Slide 25 text

Score precision • 尺度のスコアの分布の形状を調べることで評価 • 視覚的な検証と尖度の両方で確認 25

Slide 26

Slide 26 text

Participant burden • タスクを完了するのにかかる時間によって評価 • 研究者にかかるコストの代理でもある • 平均完了時間の信頼区間により比較 → 重複しない信頼区間は大きな違いを示す 26

Slide 27

Slide 27 text

Result (Content validity) 27

Slide 28

Slide 28 text

Result (Content validity) 28

Slide 29

Slide 29 text

Result (Content validity) 29

Slide 30

Slide 30 text

Result (Content validity) 30

Slide 31

Slide 31 text

Result (Content validity) 31

Slide 32

Slide 32 text

Result (Content validity) 32

Slide 33

Slide 33 text

• 万能な指標はなく、 使い分ける必要がある • 考慮する事項をまとめ、 複数の指標を使用する べきである 33