Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ACL読み会 Give Me More Feedback II: Annotating The...
Search
Reo
November 18, 2019
Technology
0
190
ACL読み会 Give Me More Feedback II: Annotating Thesis Strength and Related Attributes in Student Essays
2019/11/18(月)に首都大学東京小町研究室で発表したACL読み会の資料です。
Reo
November 18, 2019
Tweet
Share
More Decks by Reo
See All by Reo
論文紹介 Taking Notes on the Fly Helps Language Pre-Trainig
reo11
0
43
論文紹介 Reformer: The Efficient Transformer
reo11
0
260
EMNLP論文紹介 The Myth of Double-Blind Review Revisited: ACL vs. EMNLP
reo11
0
170
論文読み会 How Large Are Lions? Inducing Distributions over Quantitative Attributes
reo11
1
260
NAACL読み会 Attention is not Explanation
reo11
0
160
Other Decks in Technology
See All in Technology
Exadata Fleet Update
oracle4engineer
PRO
0
1.1k
Kiro IDEのドキュメントを全部読んだので地味だけどちょっと嬉しい機能を紹介する
khmoryz
0
210
StrandsとNeptuneを使ってナレッジグラフを構築する
yakumo
1
130
モダンUIでフルサーバーレスなAIエージェントをAmplifyとCDKでサクッとデプロイしよう
minorun365
4
230
AIエージェントに必要なのはデータではなく文脈だった/ai-agent-context-graph-mybest
jonnojun
1
250
20260208_第66回 コンピュータビジョン勉強会
keiichiito1978
0
200
SRE Enabling戦記 - 急成長する組織にSREを浸透させる戦いの歴史
markie1009
0
170
コミュニティが変えるキャリアの地平線:コロナ禍新卒入社のエンジニアがAWSコミュニティで見つけた成長の羅針盤
kentosuzuki
0
130
猫でもわかるKiro CLI(セキュリティ編)
kentapapa
0
120
AzureでのIaC - Bicep? Terraform? それ早く言ってよ会議
torumakabe
1
620
We Built for Predictability; The Workloads Didn’t Care
stahnma
0
150
SREじゃなかった僕らがenablingを通じて「SRE実践者」になるまでのリアル / SRE Kaigi 2026
aeonpeople
6
2.6k
Featured
See All Featured
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
117
110k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
120
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
120
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.1k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.2k
How to make the Groovebox
asonas
2
1.9k
Discover your Explorer Soul
emna__ayadi
2
1.1k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
440
We Are The Robots
honzajavorek
0
170
AI: The stuff that nobody shows you
jnunemaker
PRO
2
280
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
55
Transcript
Give Me More Feedback II: Annotating Thesis Strength and Related
Attributes in Student Essays Related Attributes in Student Essays Zixuan Ke, Hrishikesh Inamdar, Hui Lin, Vincent Ng University of Texas at Dallas ACL 2019 紹介者:平尾 礼央(TMU, B4, 小町研究室) 18 November, 2019 @ACL読み会
選んだ理由 • 現在の研究内容である、Automated Essay Scoring(AES) についての論文 • どのようなリソース作成系の論文がACLに通るのか興味があった • 共著者の中にAESのサーベイ中によく名前を見る人がいた
Introduction • 既存の自動採点システムは全体の点数につけているものが多い ◦ 近年は、複数の項目における点数についての研究がされている ◦ 問題点:注釈付きコーパスの不足 • 新たな採点項目として、Thesis Strengthを提案
◦ Thesis Statement(主張)の強さ ◦ 関係する10個の評価項目も提案(後述) ◦ Internal Corpus of Learner Englishより約1000エッセイ ◦ 注釈付きコーパスと採点する際のルーブリックを公開
Related Work • Holistic scoring ◦ Kaggle ASAPコンペティションの学生の小論文データ(約 10,000 essays)
◦ CLC-FCE(1244 essays)、スウェーデンコーパス(1702 essays) • Dimension-specific scoring ◦ 「説得力」に関するデータは2018年にCalrlie et al. によって作成 ◦ ICLEデータセットはこれまでに以下の項目についてアノテートされてきた ▪ organization (Persing et al., 2010) ▪ thesis clarity (Persing and Ng, 2013) ▪ prompt adherence (Persing and Ng, 2014) ▪ argument persuasiveness (Persing and Ng, 2015)
Corpus • Internal Corpus of Learner English (ICLE)コーパス ◦ 450万単語、6000エッセイで構成
◦ エッセイは16カ国の大学生によって書かれている • 採点したデータ ◦ 同じエッセイに複数の評価がある方が良いので、既存のデータセットと重複するよう にした ◦ 前述のPersingとNgのデータ重複する1021エッセイについてアノテート
Annotation Scheme • Thesis Statement が存在するか確認(793 / 1021 essays) •
Thesis Strength の採点(1~6点) • 各種項目の採点(1~3点) ◦ 要約文を必要とするため、要約文が存在する約 800エッセイが対象 ◦ 1点:無し、2点:部分的に有り、3点:有り ◦ 評価項目は以下 ▪ Arguability(議論性) ▪ Specificity(特異性) ▪ Clarity(明確さ) ▪ Relevance to prompt(関連性) ▪ Conciseness(簡潔さ) ▪ Eloquence(雄弁さ) ▪ Confidence(自信) ▪ Direction of Development(方向性の提示) ▪ Justification of Opinion(意見の正当性) ▪ Justification of Importance/Interest(重要性の正当性)
Rubrics • Thesis Strengthの規定例 ◦ 1点:全く読み取れない ◦ ~ ◦ 6点:改良できる点はほとんどない
Rubrics • 各種項目の規定例 ◦ 議論性 ▪ 1点:議論がなく、出来事と事実について記載してあるだけ ▪ 2点:相反する意見を提示しているが、著者は自分の立場を示していない ▪
3点:著者の立場と意見が示されている
Distribution of scores and Inter-Annotator Agreement • 各項目の採点されたデータの個数 • クリッペンドルフのα係数でアノテータ間の一致率
◦ あいまいな点数(1~3の2点)が少ないほどαの値が高くなっている
Correlation between Thesis Strength and the attributes • p<0.01において、全ての項目にThesis Strengthと正の相関がある
◦ 特に以下の二つは相関が高い ▪ お題との関連性(Relevance to Prompt) ▪ 意見の正当性(Justification of Opinion)
Attribute importance • 10個の項目からThesis Strengthを予測する時に使用した SVM の重み ◦ 比較的重みが高い項目 ▪
Relevance to Prompt ▪ Justification of Opinion ▪ Justification of Importance/Interest ◦ 上記の3つはThesis Strengthと相関が高く、データの分布もばらけている
Correlation with other scoring dimensions • 前述の論文で同じデータセットにアノテートされた点数との相関 ◦ 明確ではない論文の主張は強くならないと考えられるので、相関が高い ◦
説得力は主張に基づいているので、こちらの相関が高い ◦ 残りの2項目はエッセイ全体に基づいて採点していると考えれば相関は低くなる
Additional Experiments • 実際に採点をする時の難易度を測定するための実験 • Thesis statement identification ◦ 本文中から主張を識別するタスク
◦ 4つのシステムで実験 ▪ First Major Claim • 本文と主張が合致する最初の主張を Thesis Statementとする ▪ Keyword similarity • promptに登場する重要な単語が最も登場する k文をThesis Statementとする ▪ SVM • n-gramsを素性として、各文がThesis Statementか否か分類 ▪ Neural Network • promptと文に対してbi-LSTMで、各文がThesis Statementか否か分類
Thesis statement identification • SVMが他のシステムと比較して優れているが、25%程度なので難しいタスクと言え る
Thesis strength scoring • 実際にThesis Strengthスコアの予測をするタスク • 3つの設定でSVMとNNを使って実験 ◦ Gold
thesis statements without attributes ▪ Thesis Statementを与え、予測する ◦ Gold thesis statements with predicted attributes ▪ パイプラインモデルであり、以下の 2ステップからなる • 10つの項目の点数を別々に予測する • 予測された10つの点数を使って最終的なスコアを予測する ◦ Entire essay without attributes ▪ エッセイの全文のみを入力し、予測する
Thesis strength scoring • 最高でも相関係数0.4未満、MAE0.92以上なのであまり良い結果ではない • 1、2行目は中間に10つの点数を挟むことによるノイズの影響を示唆している • 3行目はThesis Statementの識別が重要であることを示唆している
Conclusion • Automated Essay Scoringにおいて、注釈付きコーパスが不足しているため、 Thesis Strength(主張の強さ)についての注釈コーパスと規定を作成 • エッセイのデータとして、以前にも複数項目についての注釈コーパスとして使用され たICLEのエッセイを選択した
• これらの注釈付きコーパスは公開され、使用することができる