Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ACL読み会 Give Me More Feedback II: Annotating The...
Search
Reo
November 18, 2019
Technology
0
160
ACL読み会 Give Me More Feedback II: Annotating Thesis Strength and Related Attributes in Student Essays
2019/11/18(月)に首都大学東京小町研究室で発表したACL読み会の資料です。
Reo
November 18, 2019
Tweet
Share
More Decks by Reo
See All by Reo
論文紹介 Taking Notes on the Fly Helps Language Pre-Trainig
reo11
0
36
論文紹介 Reformer: The Efficient Transformer
reo11
0
210
EMNLP論文紹介 The Myth of Double-Blind Review Revisited: ACL vs. EMNLP
reo11
0
140
論文読み会 How Large Are Lions? Inducing Distributions over Quantitative Attributes
reo11
1
200
NAACL読み会 Attention is not Explanation
reo11
0
74
Other Decks in Technology
See All in Technology
(機械学習システムでも) SLO から始める信頼性構築 - ゆる SRE#9 2025/02/21
daigo0927
0
190
分解して理解する Aspire
nenonaninu
2
460
Amazon S3 Tablesと外部分析基盤連携について / Amazon S3 Tables and External Data Analytics Platform
nttcom
0
140
OpenID BizDay#17 KYC WG活動報告(法人) / 20250219-BizDay17-KYC-legalidentity
oidfj
0
280
Developers Summit 2025 浅野卓也(13-B-7 LegalOn Technologies)
legalontechnologies
PRO
1
1.2k
ローカルLLMを活用したコード生成と、ローコード開発ツールへの応用
kazuhitoyokoi
0
130
PHPで印刷所に入稿できる名札データを作る / Generating Print-Ready Name Tag Data with PHP
tomzoh
0
140
ビジネスモデリング道場 目的と背景
masuda220
PRO
9
650
短縮URLをお手軽に導入しよう
nakasho
0
100
Classmethod AI Talks(CATs) #17 司会進行スライド(2025.02.19) / classmethod-ai-talks-aka-cats_moderator-slides_vol17_2025-02-19
shinyaa31
0
150
Cloud Spanner 導入で実現した快適な開発と運用について
colopl
1
860
PHPカンファレンス名古屋-テックリードの経験から学んだ設計の教訓
hayatokudou
2
480
Featured
See All Featured
KATA
mclloyd
29
14k
Large-scale JavaScript Application Architecture
addyosmani
511
110k
Making the Leap to Tech Lead
cromwellryan
133
9.1k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
133
33k
Side Projects
sachag
452
42k
Embracing the Ebb and Flow
colly
84
4.6k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.7k
Optimizing for Happiness
mojombo
376
70k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
27
1.9k
Transcript
Give Me More Feedback II: Annotating Thesis Strength and Related
Attributes in Student Essays Related Attributes in Student Essays Zixuan Ke, Hrishikesh Inamdar, Hui Lin, Vincent Ng University of Texas at Dallas ACL 2019 紹介者:平尾 礼央(TMU, B4, 小町研究室) 18 November, 2019 @ACL読み会
選んだ理由 • 現在の研究内容である、Automated Essay Scoring(AES) についての論文 • どのようなリソース作成系の論文がACLに通るのか興味があった • 共著者の中にAESのサーベイ中によく名前を見る人がいた
Introduction • 既存の自動採点システムは全体の点数につけているものが多い ◦ 近年は、複数の項目における点数についての研究がされている ◦ 問題点:注釈付きコーパスの不足 • 新たな採点項目として、Thesis Strengthを提案
◦ Thesis Statement(主張)の強さ ◦ 関係する10個の評価項目も提案(後述) ◦ Internal Corpus of Learner Englishより約1000エッセイ ◦ 注釈付きコーパスと採点する際のルーブリックを公開
Related Work • Holistic scoring ◦ Kaggle ASAPコンペティションの学生の小論文データ(約 10,000 essays)
◦ CLC-FCE(1244 essays)、スウェーデンコーパス(1702 essays) • Dimension-specific scoring ◦ 「説得力」に関するデータは2018年にCalrlie et al. によって作成 ◦ ICLEデータセットはこれまでに以下の項目についてアノテートされてきた ▪ organization (Persing et al., 2010) ▪ thesis clarity (Persing and Ng, 2013) ▪ prompt adherence (Persing and Ng, 2014) ▪ argument persuasiveness (Persing and Ng, 2015)
Corpus • Internal Corpus of Learner English (ICLE)コーパス ◦ 450万単語、6000エッセイで構成
◦ エッセイは16カ国の大学生によって書かれている • 採点したデータ ◦ 同じエッセイに複数の評価がある方が良いので、既存のデータセットと重複するよう にした ◦ 前述のPersingとNgのデータ重複する1021エッセイについてアノテート
Annotation Scheme • Thesis Statement が存在するか確認(793 / 1021 essays) •
Thesis Strength の採点(1~6点) • 各種項目の採点(1~3点) ◦ 要約文を必要とするため、要約文が存在する約 800エッセイが対象 ◦ 1点:無し、2点:部分的に有り、3点:有り ◦ 評価項目は以下 ▪ Arguability(議論性) ▪ Specificity(特異性) ▪ Clarity(明確さ) ▪ Relevance to prompt(関連性) ▪ Conciseness(簡潔さ) ▪ Eloquence(雄弁さ) ▪ Confidence(自信) ▪ Direction of Development(方向性の提示) ▪ Justification of Opinion(意見の正当性) ▪ Justification of Importance/Interest(重要性の正当性)
Rubrics • Thesis Strengthの規定例 ◦ 1点:全く読み取れない ◦ ~ ◦ 6点:改良できる点はほとんどない
Rubrics • 各種項目の規定例 ◦ 議論性 ▪ 1点:議論がなく、出来事と事実について記載してあるだけ ▪ 2点:相反する意見を提示しているが、著者は自分の立場を示していない ▪
3点:著者の立場と意見が示されている
Distribution of scores and Inter-Annotator Agreement • 各項目の採点されたデータの個数 • クリッペンドルフのα係数でアノテータ間の一致率
◦ あいまいな点数(1~3の2点)が少ないほどαの値が高くなっている
Correlation between Thesis Strength and the attributes • p<0.01において、全ての項目にThesis Strengthと正の相関がある
◦ 特に以下の二つは相関が高い ▪ お題との関連性(Relevance to Prompt) ▪ 意見の正当性(Justification of Opinion)
Attribute importance • 10個の項目からThesis Strengthを予測する時に使用した SVM の重み ◦ 比較的重みが高い項目 ▪
Relevance to Prompt ▪ Justification of Opinion ▪ Justification of Importance/Interest ◦ 上記の3つはThesis Strengthと相関が高く、データの分布もばらけている
Correlation with other scoring dimensions • 前述の論文で同じデータセットにアノテートされた点数との相関 ◦ 明確ではない論文の主張は強くならないと考えられるので、相関が高い ◦
説得力は主張に基づいているので、こちらの相関が高い ◦ 残りの2項目はエッセイ全体に基づいて採点していると考えれば相関は低くなる
Additional Experiments • 実際に採点をする時の難易度を測定するための実験 • Thesis statement identification ◦ 本文中から主張を識別するタスク
◦ 4つのシステムで実験 ▪ First Major Claim • 本文と主張が合致する最初の主張を Thesis Statementとする ▪ Keyword similarity • promptに登場する重要な単語が最も登場する k文をThesis Statementとする ▪ SVM • n-gramsを素性として、各文がThesis Statementか否か分類 ▪ Neural Network • promptと文に対してbi-LSTMで、各文がThesis Statementか否か分類
Thesis statement identification • SVMが他のシステムと比較して優れているが、25%程度なので難しいタスクと言え る
Thesis strength scoring • 実際にThesis Strengthスコアの予測をするタスク • 3つの設定でSVMとNNを使って実験 ◦ Gold
thesis statements without attributes ▪ Thesis Statementを与え、予測する ◦ Gold thesis statements with predicted attributes ▪ パイプラインモデルであり、以下の 2ステップからなる • 10つの項目の点数を別々に予測する • 予測された10つの点数を使って最終的なスコアを予測する ◦ Entire essay without attributes ▪ エッセイの全文のみを入力し、予測する
Thesis strength scoring • 最高でも相関係数0.4未満、MAE0.92以上なのであまり良い結果ではない • 1、2行目は中間に10つの点数を挟むことによるノイズの影響を示唆している • 3行目はThesis Statementの識別が重要であることを示唆している
Conclusion • Automated Essay Scoringにおいて、注釈付きコーパスが不足しているため、 Thesis Strength(主張の強さ)についての注釈コーパスと規定を作成 • エッセイのデータとして、以前にも複数項目についての注釈コーパスとして使用され たICLEのエッセイを選択した
• これらの注釈付きコーパスは公開され、使用することができる