Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ACL読み会 Give Me More Feedback II: Annotating Thesis Strength and Related Attributes in Student Essays
Search
Reo
November 18, 2019
Technology
0
130
ACL読み会 Give Me More Feedback II: Annotating Thesis Strength and Related Attributes in Student Essays
2019/11/18(月)に首都大学東京小町研究室で発表したACL読み会の資料です。
Reo
November 18, 2019
Tweet
Share
More Decks by Reo
See All by Reo
論文紹介 Taking Notes on the Fly Helps Language Pre-Trainig
reo11
0
32
論文紹介 Reformer: The Efficient Transformer
reo11
0
180
EMNLP論文紹介 The Myth of Double-Blind Review Revisited: ACL vs. EMNLP
reo11
0
110
論文読み会 How Large Are Lions? Inducing Distributions over Quantitative Attributes
reo11
1
170
NAACL読み会 Attention is not Explanation
reo11
0
66
Other Decks in Technology
See All in Technology
DevOpsメトリクスとアウトカムの接続にトライ!開発プロセスを通して計測できるメトリクスの活用方法
ham0215
2
240
Kernel MemoryでAzure OpenAI Serviceとお手軽データソース連携
mitsuzono
1
250
オーナーシップを持つ領域を明確にする
konifar
13
3.2k
アクセス制御にまつわる改善 / Improving access control
itkq
0
540
MLOpsの「壁」を乗り越える、LINEヤフーの Data Quality as Code
lycorptech_jp
PRO
5
520
生成AIの変革の時代に、直近1年で直面した課題とその解決策
ktc_wada
0
200
競技としてのKaggle、役に立つKaggle
yu4u
3
1.3k
VS CodeでAWSを操作しよう
smt7174
8
1.7k
Azure犬駆動開発の記録/GlobalAzureFukuoka2024_20240420
nina01
1
210
ServiceNow Knowledge 24の歩き方 EYストラテジー・アンド・コンサルティング
manarobot
0
200
自己改善からチームを動かす! 「セルフエンジニアリングマネージャー」のすゝめ
shoota
6
690
GrafanaMeetup_AmazonManagedGrafanaのアクセス制御機能とマルチテナント環境下でのアクセス制御について
daitak
0
230
Featured
See All Featured
Learning to Love Humans: Emotional Interface Design
aarron
267
39k
Building Flexible Design Systems
yeseniaperezcruz
319
37k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
9
8.3k
Imperfection Machines: The Place of Print at Facebook
scottboms
260
12k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
244
20k
Design by the Numbers
sachag
274
18k
Keith and Marios Guide to Fast Websites
keithpitt
408
22k
Documentation Writing (for coders)
carmenintech
60
3.9k
Fontdeck: Realign not Redesign
paulrobertlloyd
76
4.9k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
25
2.3k
What’s in a name? Adding method to the madness
productmarketing
PRO
16
2.6k
4 Signs Your Business is Dying
shpigford
175
21k
Transcript
Give Me More Feedback II: Annotating Thesis Strength and Related
Attributes in Student Essays Related Attributes in Student Essays Zixuan Ke, Hrishikesh Inamdar, Hui Lin, Vincent Ng University of Texas at Dallas ACL 2019 紹介者:平尾 礼央(TMU, B4, 小町研究室) 18 November, 2019 @ACL読み会
選んだ理由 • 現在の研究内容である、Automated Essay Scoring(AES) についての論文 • どのようなリソース作成系の論文がACLに通るのか興味があった • 共著者の中にAESのサーベイ中によく名前を見る人がいた
Introduction • 既存の自動採点システムは全体の点数につけているものが多い ◦ 近年は、複数の項目における点数についての研究がされている ◦ 問題点:注釈付きコーパスの不足 • 新たな採点項目として、Thesis Strengthを提案
◦ Thesis Statement(主張)の強さ ◦ 関係する10個の評価項目も提案(後述) ◦ Internal Corpus of Learner Englishより約1000エッセイ ◦ 注釈付きコーパスと採点する際のルーブリックを公開
Related Work • Holistic scoring ◦ Kaggle ASAPコンペティションの学生の小論文データ(約 10,000 essays)
◦ CLC-FCE(1244 essays)、スウェーデンコーパス(1702 essays) • Dimension-specific scoring ◦ 「説得力」に関するデータは2018年にCalrlie et al. によって作成 ◦ ICLEデータセットはこれまでに以下の項目についてアノテートされてきた ▪ organization (Persing et al., 2010) ▪ thesis clarity (Persing and Ng, 2013) ▪ prompt adherence (Persing and Ng, 2014) ▪ argument persuasiveness (Persing and Ng, 2015)
Corpus • Internal Corpus of Learner English (ICLE)コーパス ◦ 450万単語、6000エッセイで構成
◦ エッセイは16カ国の大学生によって書かれている • 採点したデータ ◦ 同じエッセイに複数の評価がある方が良いので、既存のデータセットと重複するよう にした ◦ 前述のPersingとNgのデータ重複する1021エッセイについてアノテート
Annotation Scheme • Thesis Statement が存在するか確認(793 / 1021 essays) •
Thesis Strength の採点(1~6点) • 各種項目の採点(1~3点) ◦ 要約文を必要とするため、要約文が存在する約 800エッセイが対象 ◦ 1点:無し、2点:部分的に有り、3点:有り ◦ 評価項目は以下 ▪ Arguability(議論性) ▪ Specificity(特異性) ▪ Clarity(明確さ) ▪ Relevance to prompt(関連性) ▪ Conciseness(簡潔さ) ▪ Eloquence(雄弁さ) ▪ Confidence(自信) ▪ Direction of Development(方向性の提示) ▪ Justification of Opinion(意見の正当性) ▪ Justification of Importance/Interest(重要性の正当性)
Rubrics • Thesis Strengthの規定例 ◦ 1点:全く読み取れない ◦ ~ ◦ 6点:改良できる点はほとんどない
Rubrics • 各種項目の規定例 ◦ 議論性 ▪ 1点:議論がなく、出来事と事実について記載してあるだけ ▪ 2点:相反する意見を提示しているが、著者は自分の立場を示していない ▪
3点:著者の立場と意見が示されている
Distribution of scores and Inter-Annotator Agreement • 各項目の採点されたデータの個数 • クリッペンドルフのα係数でアノテータ間の一致率
◦ あいまいな点数(1~3の2点)が少ないほどαの値が高くなっている
Correlation between Thesis Strength and the attributes • p<0.01において、全ての項目にThesis Strengthと正の相関がある
◦ 特に以下の二つは相関が高い ▪ お題との関連性(Relevance to Prompt) ▪ 意見の正当性(Justification of Opinion)
Attribute importance • 10個の項目からThesis Strengthを予測する時に使用した SVM の重み ◦ 比較的重みが高い項目 ▪
Relevance to Prompt ▪ Justification of Opinion ▪ Justification of Importance/Interest ◦ 上記の3つはThesis Strengthと相関が高く、データの分布もばらけている
Correlation with other scoring dimensions • 前述の論文で同じデータセットにアノテートされた点数との相関 ◦ 明確ではない論文の主張は強くならないと考えられるので、相関が高い ◦
説得力は主張に基づいているので、こちらの相関が高い ◦ 残りの2項目はエッセイ全体に基づいて採点していると考えれば相関は低くなる
Additional Experiments • 実際に採点をする時の難易度を測定するための実験 • Thesis statement identification ◦ 本文中から主張を識別するタスク
◦ 4つのシステムで実験 ▪ First Major Claim • 本文と主張が合致する最初の主張を Thesis Statementとする ▪ Keyword similarity • promptに登場する重要な単語が最も登場する k文をThesis Statementとする ▪ SVM • n-gramsを素性として、各文がThesis Statementか否か分類 ▪ Neural Network • promptと文に対してbi-LSTMで、各文がThesis Statementか否か分類
Thesis statement identification • SVMが他のシステムと比較して優れているが、25%程度なので難しいタスクと言え る
Thesis strength scoring • 実際にThesis Strengthスコアの予測をするタスク • 3つの設定でSVMとNNを使って実験 ◦ Gold
thesis statements without attributes ▪ Thesis Statementを与え、予測する ◦ Gold thesis statements with predicted attributes ▪ パイプラインモデルであり、以下の 2ステップからなる • 10つの項目の点数を別々に予測する • 予測された10つの点数を使って最終的なスコアを予測する ◦ Entire essay without attributes ▪ エッセイの全文のみを入力し、予測する
Thesis strength scoring • 最高でも相関係数0.4未満、MAE0.92以上なのであまり良い結果ではない • 1、2行目は中間に10つの点数を挟むことによるノイズの影響を示唆している • 3行目はThesis Statementの識別が重要であることを示唆している
Conclusion • Automated Essay Scoringにおいて、注釈付きコーパスが不足しているため、 Thesis Strength(主張の強さ)についての注釈コーパスと規定を作成 • エッセイのデータとして、以前にも複数項目についての注釈コーパスとして使用され たICLEのエッセイを選択した
• これらの注釈付きコーパスは公開され、使用することができる