ACL読み会 Give Me More Feedback II: Annotating Thesis Strength and Related Attributes in Student Essays

Give Me More Feedback II: Annotating Thesis Strength and Related
Attributes in Student Essays Related Attributes in Student Essays Zixuan Ke, Hrishikesh Inamdar, Hui Lin, Vincent Ng University of Texas at Dallas ACL 2019 紹介者：平尾礼央（TMU, B4, 小町研究室） 18 November, 2019 @ACL読み会

選んだ理由 • 現在の研究内容である、Automated Essay Scoring（AES）についての論文 • どのようなリソース作成系の論文がACLに通るのか興味があった • 共著者の中にAESのサーベイ中によく名前を見る人がいた

Introduction • 既存の自動採点システムは全体の点数につけているものが多い ◦ 近年は、複数の項目における点数についての研究がされている ◦ 問題点：注釈付きコーパスの不足 • 新たな採点項目として、Thesis Strengthを提案
◦ Thesis Statement（主張）の強さ ◦ 関係する10個の評価項目も提案（後述） ◦ Internal Corpus of Learner Englishより約1000エッセイ ◦ 注釈付きコーパスと採点する際のルーブリックを公開

Related Work • Holistic scoring ◦ Kaggle ASAPコンペティションの学生の小論文データ（約 10,000 essays）
◦ CLC-FCE（1244 essays）、スウェーデンコーパス（1702 essays） • Dimension-specific scoring ◦ 「説得力」に関するデータは2018年にCalrlie et al. によって作成 ◦ ICLEデータセットはこれまでに以下の項目についてアノテートされてきた ▪ organization (Persing et al., 2010) ▪ thesis clarity (Persing and Ng, 2013) ▪ prompt adherence (Persing and Ng, 2014) ▪ argument persuasiveness (Persing and Ng, 2015)

Corpus • Internal Corpus of Learner English （ICLE）コーパス ◦ 450万単語、6000エッセイで構成
◦ エッセイは16カ国の大学生によって書かれている • 採点したデータ ◦ 同じエッセイに複数の評価がある方が良いので、既存のデータセットと重複するようにした ◦ 前述のPersingとNgのデータ重複する1021エッセイについてアノテート

Annotation Scheme • Thesis Statement が存在するか確認（793 / 1021 essays） •
Thesis Strength の採点（1～6点） • 各種項目の採点（1～3点） ◦ 要約文を必要とするため、要約文が存在する約 800エッセイが対象 ◦ 1点：無し、2点：部分的に有り、3点：有り ◦ 評価項目は以下 ▪ Arguability（議論性） ▪ Specificity（特異性） ▪ Clarity（明確さ） ▪ Relevance to prompt（関連性） ▪ Conciseness（簡潔さ） ▪ Eloquence（雄弁さ） ▪ Confidence（自信） ▪ Direction of Development（方向性の提示） ▪ Justification of Opinion（意見の正当性） ▪ Justification of Importance/Interest（重要性の正当性）

Rubrics　 • Thesis Strengthの規定例 ◦ 1点：全く読み取れない ◦ ～ ◦ 6点：改良できる点はほとんどない

Rubrics • 各種項目の規定例 ◦ 議論性 ▪ 1点：議論がなく、出来事と事実について記載してあるだけ ▪ 2点：相反する意見を提示しているが、著者は自分の立場を示していない ▪
3点：著者の立場と意見が示されている

Distribution of scores and Inter-Annotator Agreement • 各項目の採点されたデータの個数 • クリッペンドルフのα係数でアノテータ間の一致率
◦ あいまいな点数（1～3の2点）が少ないほどαの値が高くなっている

Correlation between Thesis Strength and the attributes • p<0.01において、全ての項目にThesis Strengthと正の相関がある
◦ 特に以下の二つは相関が高い ▪ お題との関連性（Relevance to Prompt） ▪ 意見の正当性（Justification of Opinion）

Attribute importance • 10個の項目からThesis Strengthを予測する時に使用した SVM の重み ◦ 比較的重みが高い項目 ▪
Relevance to Prompt ▪ Justification of Opinion ▪ Justification of Importance/Interest ◦ 上記の3つはThesis Strengthと相関が高く、データの分布もばらけている

Correlation with other scoring dimensions • 前述の論文で同じデータセットにアノテートされた点数との相関 ◦ 明確ではない論文の主張は強くならないと考えられるので、相関が高い ◦
説得力は主張に基づいているので、こちらの相関が高い ◦ 残りの2項目はエッセイ全体に基づいて採点していると考えれば相関は低くなる

Additional Experiments • 実際に採点をする時の難易度を測定するための実験 • Thesis statement identification ◦ 本文中から主張を識別するタスク
◦ 4つのシステムで実験 ▪ First Major Claim • 本文と主張が合致する最初の主張を Thesis Statementとする ▪ Keyword similarity • promptに登場する重要な単語が最も登場する k文をThesis Statementとする ▪ SVM • n-gramsを素性として、各文がThesis Statementか否か分類 ▪ Neural Network • promptと文に対してbi-LSTMで、各文がThesis Statementか否か分類

Thesis statement identification • SVMが他のシステムと比較して優れているが、25%程度なので難しいタスクと言える

Thesis strength scoring • 実際にThesis Strengthスコアの予測をするタスク • 3つの設定でSVMとNNを使って実験 ◦ Gold
thesis statements without attributes ▪ Thesis Statementを与え、予測する ◦ Gold thesis statements with predicted attributes ▪ パイプラインモデルであり、以下の 2ステップからなる • 10つの項目の点数を別々に予測する • 予測された10つの点数を使って最終的なスコアを予測する ◦ Entire essay without attributes ▪ エッセイの全文のみを入力し、予測する

Thesis strength scoring • 最高でも相関係数0.4未満、MAE0.92以上なのであまり良い結果ではない • 1、2行目は中間に10つの点数を挟むことによるノイズの影響を示唆している • 3行目はThesis Statementの識別が重要であることを示唆している

Conclusion • Automated Essay Scoringにおいて、注釈付きコーパスが不足しているため、 Thesis Strength（主張の強さ）についての注釈コーパスと規定を作成 • エッセイのデータとして、以前にも複数項目についての注釈コーパスとして使用されたICLEのエッセイを選択した
• これらの注釈付きコーパスは公開され、使用することができる

ACL読み会 Give Me More Feedback II: Annotating The...

ACL読み会 Give Me More Feedback II: Annotating Thesis Strength and Related Attributes in Student Essays

Reo

More Decks by Reo

Other Decks in Technology

Featured

Transcript

Give Me More Feedback II: Annotating Thesis Strength and Related

選んだ理由 • 現在の研究内容である、Automated Essay Scoring（AES）についての論文 • どのようなリソース作成系の論文がACLに通るのか興味があった • 共著者の中にAESのサーベイ中によく名前を見る人がいた

Related Work • Holistic scoring ◦ Kaggle ASAPコンペティションの学生の小論文データ（約 10,000 essays）

Corpus • Internal Corpus of Learner English （ICLE）コーパス ◦ 450万単語、6000エッセイで構成

Annotation Scheme • Thesis Statement が存在するか確認（793 / 1021 essays） •

Rubrics　 • Thesis Strengthの規定例 ◦ 1点：全く読み取れない ◦ ～ ◦ 6点：改良できる点はほとんどない

Rubrics • 各種項目の規定例 ◦ 議論性 ▪ 1点：議論がなく、出来事と事実について記載してあるだけ ▪ 2点：相反する意見を提示しているが、著者は自分の立場を示していない ▪

Distribution of scores and Inter-Annotator Agreement • 各項目の採点されたデータの個数 • クリッペンドルフのα係数でアノテータ間の一致率

Correlation between Thesis Strength and the attributes • p<0.01において、全ての項目にThesis Strengthと正の相関がある

Attribute importance • 10個の項目からThesis Strengthを予測する時に使用した SVM の重み ◦ 比較的重みが高い項目 ▪

Correlation with other scoring dimensions • 前述の論文で同じデータセットにアノテートされた点数との相関 ◦ 明確ではない論文の主張は強くならないと考えられるので、相関が高い ◦

Additional Experiments • 実際に採点をする時の難易度を測定するための実験 • Thesis statement identification ◦ 本文中から主張を識別するタスク

Thesis statement identification • SVMが他のシステムと比較して優れているが、25%程度なので難しいタスクと言える

Thesis strength scoring • 実際にThesis Strengthスコアの予測をするタスク • 3つの設定でSVMとNNを使って実験 ◦ Gold