Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ACL読み会 Give Me More Feedback II: Annotating The...
Search
Reo
November 18, 2019
Technology
0
170
ACL読み会 Give Me More Feedback II: Annotating Thesis Strength and Related Attributes in Student Essays
2019/11/18(月)に首都大学東京小町研究室で発表したACL読み会の資料です。
Reo
November 18, 2019
Tweet
Share
More Decks by Reo
See All by Reo
論文紹介 Taking Notes on the Fly Helps Language Pre-Trainig
reo11
0
40
論文紹介 Reformer: The Efficient Transformer
reo11
0
240
EMNLP論文紹介 The Myth of Double-Blind Review Revisited: ACL vs. EMNLP
reo11
0
150
論文読み会 How Large Are Lions? Inducing Distributions over Quantitative Attributes
reo11
1
240
NAACL読み会 Attention is not Explanation
reo11
0
120
Other Decks in Technology
See All in Technology
プロポーザルのコツ ~ Kaigi on Rails 2025 初参加で3名の登壇を実現 ~
naro143
1
210
セキュアな認可付きリモートMCPサーバーをAWSマネージドサービスでつくろう! / Let's build an OAuth protected remote MCP server based on AWS managed services
kaminashi
3
290
CoRL 2025 Survey
harukiabe
0
110
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
11
79k
カンファレンスに託児サポートがあるということ / Having Childcare Support at Conferences
nobu09
1
530
ユーザーの声とAI検証で進める、プロダクトディスカバリー
sansantech
PRO
1
130
Shirankedo NOCで見えてきたeduroam/OpenRoaming運用ノウハウと課題 - BAKUCHIKU BANBAN #2
marokiki
0
180
速習AGENTS.md:5分で精度を上げる "3ブロック" テンプレ
ismk
4
690
Developer Advocate / Community Managerなるには?
tsho
0
130
【Kaigi on Rails 事後勉強会LT】MeはどうしてGirlsに? 私とRubyを繋いだRail(s)
joyfrommasara
0
230
AWS 잘하는 개발자 되기 - AWS 시작하기: 클라우드 개념부터 IAM까지
kimjaewook
0
130
英語は話せません!それでも海外チームと信頼関係を作るため、対話を重ねた2ヶ月間のまなび
niioka_97
0
130
Featured
See All Featured
YesSQL, Process and Tooling at Scale
rocio
173
14k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Making Projects Easy
brettharned
119
6.4k
Producing Creativity
orderedlist
PRO
347
40k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
Context Engineering - Making Every Token Count
addyosmani
5
230
[RailsConf 2023] Rails as a piece of cake
palkan
57
5.9k
Site-Speed That Sticks
csswizardry
11
900
Unsuck your backbone
ammeep
671
58k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.2k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
Transcript
Give Me More Feedback II: Annotating Thesis Strength and Related
Attributes in Student Essays Related Attributes in Student Essays Zixuan Ke, Hrishikesh Inamdar, Hui Lin, Vincent Ng University of Texas at Dallas ACL 2019 紹介者:平尾 礼央(TMU, B4, 小町研究室) 18 November, 2019 @ACL読み会
選んだ理由 • 現在の研究内容である、Automated Essay Scoring(AES) についての論文 • どのようなリソース作成系の論文がACLに通るのか興味があった • 共著者の中にAESのサーベイ中によく名前を見る人がいた
Introduction • 既存の自動採点システムは全体の点数につけているものが多い ◦ 近年は、複数の項目における点数についての研究がされている ◦ 問題点:注釈付きコーパスの不足 • 新たな採点項目として、Thesis Strengthを提案
◦ Thesis Statement(主張)の強さ ◦ 関係する10個の評価項目も提案(後述) ◦ Internal Corpus of Learner Englishより約1000エッセイ ◦ 注釈付きコーパスと採点する際のルーブリックを公開
Related Work • Holistic scoring ◦ Kaggle ASAPコンペティションの学生の小論文データ(約 10,000 essays)
◦ CLC-FCE(1244 essays)、スウェーデンコーパス(1702 essays) • Dimension-specific scoring ◦ 「説得力」に関するデータは2018年にCalrlie et al. によって作成 ◦ ICLEデータセットはこれまでに以下の項目についてアノテートされてきた ▪ organization (Persing et al., 2010) ▪ thesis clarity (Persing and Ng, 2013) ▪ prompt adherence (Persing and Ng, 2014) ▪ argument persuasiveness (Persing and Ng, 2015)
Corpus • Internal Corpus of Learner English (ICLE)コーパス ◦ 450万単語、6000エッセイで構成
◦ エッセイは16カ国の大学生によって書かれている • 採点したデータ ◦ 同じエッセイに複数の評価がある方が良いので、既存のデータセットと重複するよう にした ◦ 前述のPersingとNgのデータ重複する1021エッセイについてアノテート
Annotation Scheme • Thesis Statement が存在するか確認(793 / 1021 essays) •
Thesis Strength の採点(1~6点) • 各種項目の採点(1~3点) ◦ 要約文を必要とするため、要約文が存在する約 800エッセイが対象 ◦ 1点:無し、2点:部分的に有り、3点:有り ◦ 評価項目は以下 ▪ Arguability(議論性) ▪ Specificity(特異性) ▪ Clarity(明確さ) ▪ Relevance to prompt(関連性) ▪ Conciseness(簡潔さ) ▪ Eloquence(雄弁さ) ▪ Confidence(自信) ▪ Direction of Development(方向性の提示) ▪ Justification of Opinion(意見の正当性) ▪ Justification of Importance/Interest(重要性の正当性)
Rubrics • Thesis Strengthの規定例 ◦ 1点:全く読み取れない ◦ ~ ◦ 6点:改良できる点はほとんどない
Rubrics • 各種項目の規定例 ◦ 議論性 ▪ 1点:議論がなく、出来事と事実について記載してあるだけ ▪ 2点:相反する意見を提示しているが、著者は自分の立場を示していない ▪
3点:著者の立場と意見が示されている
Distribution of scores and Inter-Annotator Agreement • 各項目の採点されたデータの個数 • クリッペンドルフのα係数でアノテータ間の一致率
◦ あいまいな点数(1~3の2点)が少ないほどαの値が高くなっている
Correlation between Thesis Strength and the attributes • p<0.01において、全ての項目にThesis Strengthと正の相関がある
◦ 特に以下の二つは相関が高い ▪ お題との関連性(Relevance to Prompt) ▪ 意見の正当性(Justification of Opinion)
Attribute importance • 10個の項目からThesis Strengthを予測する時に使用した SVM の重み ◦ 比較的重みが高い項目 ▪
Relevance to Prompt ▪ Justification of Opinion ▪ Justification of Importance/Interest ◦ 上記の3つはThesis Strengthと相関が高く、データの分布もばらけている
Correlation with other scoring dimensions • 前述の論文で同じデータセットにアノテートされた点数との相関 ◦ 明確ではない論文の主張は強くならないと考えられるので、相関が高い ◦
説得力は主張に基づいているので、こちらの相関が高い ◦ 残りの2項目はエッセイ全体に基づいて採点していると考えれば相関は低くなる
Additional Experiments • 実際に採点をする時の難易度を測定するための実験 • Thesis statement identification ◦ 本文中から主張を識別するタスク
◦ 4つのシステムで実験 ▪ First Major Claim • 本文と主張が合致する最初の主張を Thesis Statementとする ▪ Keyword similarity • promptに登場する重要な単語が最も登場する k文をThesis Statementとする ▪ SVM • n-gramsを素性として、各文がThesis Statementか否か分類 ▪ Neural Network • promptと文に対してbi-LSTMで、各文がThesis Statementか否か分類
Thesis statement identification • SVMが他のシステムと比較して優れているが、25%程度なので難しいタスクと言え る
Thesis strength scoring • 実際にThesis Strengthスコアの予測をするタスク • 3つの設定でSVMとNNを使って実験 ◦ Gold
thesis statements without attributes ▪ Thesis Statementを与え、予測する ◦ Gold thesis statements with predicted attributes ▪ パイプラインモデルであり、以下の 2ステップからなる • 10つの項目の点数を別々に予測する • 予測された10つの点数を使って最終的なスコアを予測する ◦ Entire essay without attributes ▪ エッセイの全文のみを入力し、予測する
Thesis strength scoring • 最高でも相関係数0.4未満、MAE0.92以上なのであまり良い結果ではない • 1、2行目は中間に10つの点数を挟むことによるノイズの影響を示唆している • 3行目はThesis Statementの識別が重要であることを示唆している
Conclusion • Automated Essay Scoringにおいて、注釈付きコーパスが不足しているため、 Thesis Strength(主張の強さ)についての注釈コーパスと規定を作成 • エッセイのデータとして、以前にも複数項目についての注釈コーパスとして使用され たICLEのエッセイを選択した
• これらの注釈付きコーパスは公開され、使用することができる