文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts

Comparing and Developing Tools to Measure the Readability of Domain-Specific
Texts 文献紹介 2019/11/22 長岡技術科学大学自然言語処理研究室稲岡夢人

Literature 2 Title: Comparing and Developing Tools to Measure the
Readability of Domain-Specific Texts Authors: Elissa Redmiles, Lisa Maszkiewicz, Emily Hwang, Dhruv Kuchhal, Everest Liu, Miraida Morales, Denis Peskov, Sudha Rao, Rock Stevens, Kristina Gligorić, Sean Kross, Michelle Mazurek, Hal Daumé III Volume: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) Pages: 4833-4844 Year: 2019

Abstract • よく知られている可読性(Readability)の尺度の有効性を比較 • 既存尺度の欠点に対処したSmart Clozeを提案 • 各尺度でcontent validity,
convergent validityを評価し、精度やドメイン固有性、participant burden のトレードオフを説明 3

Readability • NLPシステムの品質の評価や検索結果のランキングに使用されている • テキストの理解度を評価するために、専門家が書く理解度の質問、自動生成されるReadability tests、計算のみで得られる指標が利用できる 4

Readability assessments • 大半の読みやすさ評価は小学校のテキスト用に開発されており、小学生の読者で検証されている • 一方でオンライン上のテキストは大人の読者が対象 → 構造、単語の抽象性、ドメイン固有性の違い •
読みやすさの評価手法の有効性はオンライン上のテキストで評価されることはほとんど無い 5

Contributions • Content validity, Convergent validity, Redundancy, スコア精度の観点からよく用いられる手法を評価 • ドメイン固有の自動生成されたreadability
testsの必要性を特定 • オープンソースのツールとコーパスを公開 6

Digital Readability Corpus • Story corpus • Wikipedia corpus •
Health corpus: • Security corpus • Final evaluation corpus 7

Story corpus • 500の架空の物語を基に作成 • Amazon Mechanical Turkを使用 • 品質は人手で検証されている
8

Wikipedia corpus • Wikipediaからスクレイピングされてクリーニングされた20,000件の記事から作成 • ドメイン固有のテキストに対する大人向けテキストのベースラインとして選択 • ドメイン固有のテキストに近いFRESを持つ
9

Health corpus • Health readability corpusから500文書の健康に関する記事 • ワークシート、ポスター、infographics、Webサイトは含まれない
• 7～8年生の読書レベル以下 10

Security corpus • Mturkでセキュリティに関するGoogle検索クエリの作成を依頼し、上位20件の本文を使用 • 10人のセキュリティの専門家と司書が推薦するセキュリティソースからスクレイピング • 合計1,878件の文書を作成
11

Final evaluation corpus • 各コーパスから25文書を選択 • 選択した全ての文書を人手で確認し、トピックに沿った適切でクリーンであることを確認 12

Readability Metrics • 各文書に理解度を確認する問題を作成 ← 1つのTrue/False 問題と2つの多肢選択問題 • 問題が簡単だったかどうかの質問も行なう(Ease) •
SecurityとHealthの問題は3人の専門家が作成 • 質問は全部で300(=3[問]*25[文書]*4[コーパス]) • 質問を作成、評価した経験のある専門家が10時間以上かけて編集、改良 13

Cloze • 文書内のn番目の単語を削除し、読者に正しい単語を入力させる → 試験に時間が掛かる • Clozeの改良として、辞書から同じ品詞を持つ単語を複数取り出し、それを誤答として多肢選択問題を作成する手法
→ ドメイン固有のテキストでは簡単になりすぎる 14

Prior work to improve Cloze (例) セキュリティドメイン ### を元のデータに戻す処理を復号という。 (a)
暗号 (b) 犬 (c) 桜 (d) 人生 15

Smart Cloze • 同じコーパスからドメイン固有の辞書を作成し、そこから誤答となる選択肢を作成 (例) セキュリティドメイン ### を元のデータに戻す処理を復号という。 (a)
暗号 (b) ウイルス (c) キー (d) 乱数 16

Smart Cloze (Procedure) 1. コーパス内の単語に品詞を付与 2. コーパス内の単語から品詞毎に辞書を作成 3. 文書の単語のみを使用して同様に辞書を作成 4.
多肢選択問題に置換できる文書内の単語を特定 5. その単語毎に誤肢を作成 17

Smart Cloze (Distractors) • ドメイン固有、文書固有の辞書から対象単語と同じ品詞を持つ単語を14個ランダムに選択 • 上単語から誤肢として満足のいく単語を4つ選択 (各辞書からそれぞれ2つ選択) •
誤肢として満足がいくかどうかは、その単語が対象単語の代わりになり得るかどうかで判断 18

Smart Cloze (Distractors) • 単語が対象単語の代わりになり得るかどうかは • 対象単語の前の単語と後の単語からbi-gram確率を計算 (Google n-gramを使用)
• 誤肢候補の単語と後の単語からbi-gram確率を計算 • そのbi-gram確率がそれぞれ対象単語の場合よりも高ければ誤肢として採用される • 4つ見つからなければbi-gram確率が高い候補を採用 19

Validity Evaluation 構成概念妥当性によって可読性指標を比較 • Content validity: 可読性との関連が理論化された概念に関連する尺度の度合い • Convergent
validity: 関連する尺度との相関度合い 20

Validity Evaluation 可読性に相応しい尺度の選択に関連する要因の検討 • Redundancy: ある尺度が別の尺度によってカバーされる度合い • Score precision: 異なる文書を尺度が区別する精度
• Participant burden: 完了するまでの参加者にかかるコスト 21

Content validity • 可読性に関連する以下の言語要素について調査 • Narrativity • Syntactic simplicity •
Word concreteness • Referential cohesion • Deep cohesion • 言語要素を入力として予測させる線形回帰モデルによって測定 22

Convergent validity • 評価セットにおける各可読性手法のピアソン相関を計算して評価 • α< 0.05において有意な相関としてp値を報告 23

Redundancy • Convergent validityにて完全に相関するとき、相関する両方の尺度が必要になることはほぼない • ある尺度が他の尺度によって予測できるかを線形回帰モデルによって確認 24

Score precision • 尺度のスコアの分布の形状を調べることで評価 • 視覚的な検証と尖度の両方で確認 25

Participant burden • タスクを完了するのにかかる時間によって評価 • 研究者にかかるコストの代理でもある • 平均完了時間の信頼区間により比較 → 重複しない信頼区間は大きな違いを示す
26

Result (Content validity) 27

• 万能な指標はなく、使い分ける必要がある • 考慮する事項をまとめ、複数の指標を使用するべきである 33

文献紹介: Comparing and Developing Tools to Measure...

文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts

Yumeto Inaoka

More Decks by Yumeto Inaoka

Other Decks in Research

Featured

Transcript

Comparing and Developing Tools to Measure the Readability of Domain-Specific

Literature 2 Title: Comparing and Developing Tools to Measure the

Abstract • よく知られている可読性(Readability)の尺度の有効性を比較 • 既存尺度の欠点に対処したSmart Clozeを提案 • 各尺度でcontent validity,

Readability • NLPシステムの品質の評価や検索結果のランキングに使用されている • テキストの理解度を評価するために、専門家が書く理解度の質問、自動生成されるReadability tests、計算のみで得られる指標が利用できる 4

Readability assessments • 大半の読みやすさ評価は小学校のテキスト用に開発されており、小学生の読者で検証されている • 一方でオンライン上のテキストは大人の読者が対象 → 構造、単語の抽象性、ドメイン固有性の違い •

Contributions • Content validity, Convergent validity, Redundancy, スコア精度の観点からよく用いられる手法を評価 • ドメイン固有の自動生成されたreadability

Digital Readability Corpus • Story corpus • Wikipedia corpus •

Story corpus • 500の架空の物語を基に作成 • Amazon Mechanical Turkを使用 • 品質は人手で検証されている

Wikipedia corpus • Wikipediaからスクレイピングされてクリーニングされた20,000件の記事から作成 • ドメイン固有のテキストに対する大人向けテキストのベースラインとして選択 • ドメイン固有のテキストに近いFRESを持つ

Health corpus • Health readability corpusから500文書の健康に関する記事 • ワークシート、ポスター、infographics、Webサイトは含まれない

Security corpus • Mturkでセキュリティに関するGoogle検索クエリの作成を依頼し、上位20件の本文を使用 • 10人のセキュリティの専門家と司書が推薦するセキュリティソースからスクレイピング • 合計1,878件の文書を作成

Final evaluation corpus • 各コーパスから25文書を選択 • 選択した全ての文書を人手で確認し、トピックに沿った適切でクリーンであることを確認 12

Readability Metrics • 各文書に理解度を確認する問題を作成 ← 1つのTrue/False 問題と2つの多肢選択問題 • 問題が簡単だったかどうかの質問も行なう(Ease) •

Cloze • 文書内のn番目の単語を削除し、読者に正しい単語を入力させる → 試験に時間が掛かる • Clozeの改良として、辞書から同じ品詞を持つ単語を複数取り出し、それを誤答として多肢選択問題を作成する手法

Prior work to improve Cloze (例) セキュリティドメイン ### を元のデータに戻す処理を復号という。 (a)

Smart Cloze • 同じコーパスからドメイン固有の辞書を作成し、そこから誤答となる選択肢を作成 (例) セキュリティドメイン ### を元のデータに戻す処理を復号という。 (a)

Smart Cloze (Procedure) 1. コーパス内の単語に品詞を付与 2. コーパス内の単語から品詞毎に辞書を作成 3. 文書の単語のみを使用して同様に辞書を作成 4.

Smart Cloze (Distractors) • ドメイン固有、文書固有の辞書から対象単語と同じ品詞を持つ単語を14個ランダムに選択 • 上単語から誤肢として満足のいく単語を4つ選択 (各辞書からそれぞれ2つ選択) •

Smart Cloze (Distractors) • 単語が対象単語の代わりになり得るかどうかは • 対象単語の前の単語と後の単語からbi-gram確率を計算 (Google n-gramを使用)

Validity Evaluation 構成概念妥当性によって可読性指標を比較 • Content validity: 可読性との関連が理論化された概念に関連する尺度の度合い • Convergent

Validity Evaluation 可読性に相応しい尺度の選択に関連する要因の検討 • Redundancy: ある尺度が別の尺度によってカバーされる度合い • Score precision: 異なる文書を尺度が区別する精度

Content validity • 可読性に関連する以下の言語要素について調査 • Narrativity • Syntactic simplicity •

Convergent validity • 評価セットにおける各可読性手法のピアソン相関を計算して評価 • α< 0.05において有意な相関としてp値を報告 23

Redundancy • Convergent validityにて完全に相関するとき、相関する両方の尺度が必要になることはほぼない • ある尺度が他の尺度によって予測できるかを線形回帰モデルによって確認 24

Score precision • 尺度のスコアの分布の形状を調べることで評価 • 視覚的な検証と尖度の両方で確認 25

Participant burden • タスクを完了するのにかかる時間によって評価 • 研究者にかかるコストの代理でもある • 平均完了時間の信頼区間により比較 → 重複しない信頼区間は大きな違いを示す

Result (Content validity) 27

Result (Content validity) 28

Result (Content validity) 29

Result (Content validity) 30

Result (Content validity) 31

Result (Content validity) 32

• 万能な指標はなく、使い分ける必要がある • 考慮する事項をまとめ、複数の指標を使用するべきである 33