Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ACL読み会 Give Me More Feedback II: Annotating The...
Search
Reo
November 18, 2019
Technology
0
180
ACL読み会 Give Me More Feedback II: Annotating Thesis Strength and Related Attributes in Student Essays
2019/11/18(月)に首都大学東京小町研究室で発表したACL読み会の資料です。
Reo
November 18, 2019
Tweet
Share
More Decks by Reo
See All by Reo
論文紹介 Taking Notes on the Fly Helps Language Pre-Trainig
reo11
0
42
論文紹介 Reformer: The Efficient Transformer
reo11
0
250
EMNLP論文紹介 The Myth of Double-Blind Review Revisited: ACL vs. EMNLP
reo11
0
170
論文読み会 How Large Are Lions? Inducing Distributions over Quantitative Attributes
reo11
1
250
NAACL読み会 Attention is not Explanation
reo11
0
150
Other Decks in Technology
See All in Technology
Redshift認可、アップデートでどう変わった?
handy
1
110
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
9.9k
Strands Agents × インタリーブ思考 で変わるAIエージェント設計 / Strands Agents x Interleaved Thinking AI Agents
takanorig
6
2.4k
Keynoteから見るAWSの頭の中
nrinetcom
PRO
1
140
M&Aで拡大し続けるGENDAのデータ活用を促すためのDatabricks権限管理 / AEON TECH HUB #22
genda
0
290
AWSの新機能をフル活用した「re:Inventエージェント」開発秘話
minorun365
2
510
ペアーズにおけるAIエージェント 基盤とText to SQLツールの紹介
hisamouna
2
1.9k
Microsoft Agent Frameworkの可観測性
tomokusaba
1
120
2025年のデザインシステムとAI 活用を振り返る
leveragestech
0
540
AIエージェントを5分で一気におさらい!AIエージェント「構築」元年に備えよう
yakumo
1
120
Cloud WAN MCP Serverから考える新しいネットワーク運用 / 20251228 Masaki Okuda
shift_evolve
PRO
0
130
通勤手当申請チェックエージェント開発のリアル
whisaiyo
3
620
Featured
See All Featured
Claude Code のすすめ
schroneko
67
210k
Ethics towards AI in product and experience design
skipperchong
1
150
Making Projects Easy
brettharned
120
6.5k
SEO for Brand Visibility & Recognition
aleyda
0
4.1k
Design in an AI World
tapps
0
100
The Art of Programming - Codeland 2020
erikaheidi
56
14k
Skip the Path - Find Your Career Trail
mkilby
0
28
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
79
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
140
We Have a Design System, Now What?
morganepeng
54
8k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
286
14k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Transcript
Give Me More Feedback II: Annotating Thesis Strength and Related
Attributes in Student Essays Related Attributes in Student Essays Zixuan Ke, Hrishikesh Inamdar, Hui Lin, Vincent Ng University of Texas at Dallas ACL 2019 紹介者:平尾 礼央(TMU, B4, 小町研究室) 18 November, 2019 @ACL読み会
選んだ理由 • 現在の研究内容である、Automated Essay Scoring(AES) についての論文 • どのようなリソース作成系の論文がACLに通るのか興味があった • 共著者の中にAESのサーベイ中によく名前を見る人がいた
Introduction • 既存の自動採点システムは全体の点数につけているものが多い ◦ 近年は、複数の項目における点数についての研究がされている ◦ 問題点:注釈付きコーパスの不足 • 新たな採点項目として、Thesis Strengthを提案
◦ Thesis Statement(主張)の強さ ◦ 関係する10個の評価項目も提案(後述) ◦ Internal Corpus of Learner Englishより約1000エッセイ ◦ 注釈付きコーパスと採点する際のルーブリックを公開
Related Work • Holistic scoring ◦ Kaggle ASAPコンペティションの学生の小論文データ(約 10,000 essays)
◦ CLC-FCE(1244 essays)、スウェーデンコーパス(1702 essays) • Dimension-specific scoring ◦ 「説得力」に関するデータは2018年にCalrlie et al. によって作成 ◦ ICLEデータセットはこれまでに以下の項目についてアノテートされてきた ▪ organization (Persing et al., 2010) ▪ thesis clarity (Persing and Ng, 2013) ▪ prompt adherence (Persing and Ng, 2014) ▪ argument persuasiveness (Persing and Ng, 2015)
Corpus • Internal Corpus of Learner English (ICLE)コーパス ◦ 450万単語、6000エッセイで構成
◦ エッセイは16カ国の大学生によって書かれている • 採点したデータ ◦ 同じエッセイに複数の評価がある方が良いので、既存のデータセットと重複するよう にした ◦ 前述のPersingとNgのデータ重複する1021エッセイについてアノテート
Annotation Scheme • Thesis Statement が存在するか確認(793 / 1021 essays) •
Thesis Strength の採点(1~6点) • 各種項目の採点(1~3点) ◦ 要約文を必要とするため、要約文が存在する約 800エッセイが対象 ◦ 1点:無し、2点:部分的に有り、3点:有り ◦ 評価項目は以下 ▪ Arguability(議論性) ▪ Specificity(特異性) ▪ Clarity(明確さ) ▪ Relevance to prompt(関連性) ▪ Conciseness(簡潔さ) ▪ Eloquence(雄弁さ) ▪ Confidence(自信) ▪ Direction of Development(方向性の提示) ▪ Justification of Opinion(意見の正当性) ▪ Justification of Importance/Interest(重要性の正当性)
Rubrics • Thesis Strengthの規定例 ◦ 1点:全く読み取れない ◦ ~ ◦ 6点:改良できる点はほとんどない
Rubrics • 各種項目の規定例 ◦ 議論性 ▪ 1点:議論がなく、出来事と事実について記載してあるだけ ▪ 2点:相反する意見を提示しているが、著者は自分の立場を示していない ▪
3点:著者の立場と意見が示されている
Distribution of scores and Inter-Annotator Agreement • 各項目の採点されたデータの個数 • クリッペンドルフのα係数でアノテータ間の一致率
◦ あいまいな点数(1~3の2点)が少ないほどαの値が高くなっている
Correlation between Thesis Strength and the attributes • p<0.01において、全ての項目にThesis Strengthと正の相関がある
◦ 特に以下の二つは相関が高い ▪ お題との関連性(Relevance to Prompt) ▪ 意見の正当性(Justification of Opinion)
Attribute importance • 10個の項目からThesis Strengthを予測する時に使用した SVM の重み ◦ 比較的重みが高い項目 ▪
Relevance to Prompt ▪ Justification of Opinion ▪ Justification of Importance/Interest ◦ 上記の3つはThesis Strengthと相関が高く、データの分布もばらけている
Correlation with other scoring dimensions • 前述の論文で同じデータセットにアノテートされた点数との相関 ◦ 明確ではない論文の主張は強くならないと考えられるので、相関が高い ◦
説得力は主張に基づいているので、こちらの相関が高い ◦ 残りの2項目はエッセイ全体に基づいて採点していると考えれば相関は低くなる
Additional Experiments • 実際に採点をする時の難易度を測定するための実験 • Thesis statement identification ◦ 本文中から主張を識別するタスク
◦ 4つのシステムで実験 ▪ First Major Claim • 本文と主張が合致する最初の主張を Thesis Statementとする ▪ Keyword similarity • promptに登場する重要な単語が最も登場する k文をThesis Statementとする ▪ SVM • n-gramsを素性として、各文がThesis Statementか否か分類 ▪ Neural Network • promptと文に対してbi-LSTMで、各文がThesis Statementか否か分類
Thesis statement identification • SVMが他のシステムと比較して優れているが、25%程度なので難しいタスクと言え る
Thesis strength scoring • 実際にThesis Strengthスコアの予測をするタスク • 3つの設定でSVMとNNを使って実験 ◦ Gold
thesis statements without attributes ▪ Thesis Statementを与え、予測する ◦ Gold thesis statements with predicted attributes ▪ パイプラインモデルであり、以下の 2ステップからなる • 10つの項目の点数を別々に予測する • 予測された10つの点数を使って最終的なスコアを予測する ◦ Entire essay without attributes ▪ エッセイの全文のみを入力し、予測する
Thesis strength scoring • 最高でも相関係数0.4未満、MAE0.92以上なのであまり良い結果ではない • 1、2行目は中間に10つの点数を挟むことによるノイズの影響を示唆している • 3行目はThesis Statementの識別が重要であることを示唆している
Conclusion • Automated Essay Scoringにおいて、注釈付きコーパスが不足しているため、 Thesis Strength(主張の強さ)についての注釈コーパスと規定を作成 • エッセイのデータとして、以前にも複数項目についての注釈コーパスとして使用され たICLEのエッセイを選択した
• これらの注釈付きコーパスは公開され、使用することができる