Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介 / A Probabilistic Annotation Model for Cro...
Search
Atom
February 03, 2020
0
59
文献紹介 / A Probabilistic Annotation Model for Crowdsourcing Coreference
Atom
February 03, 2020
Tweet
Share
More Decks by Atom
See All by Atom
文献紹介 / Structure-based Knowledge Tracing: An Influence Propagation View
roraidolaurent
0
77
文献紹介 / Knowledge Tracing with GNN
roraidolaurent
0
80
文献紹介 / Non-Intrusive Parametric Reduced Order Models withHigh-Dimensional Inputs via Gradient-Free Active Subspace
roraidolaurent
0
47
ニューラルネットワークのベイズ推論 / Bayesian inference of neural networks
roraidolaurent
1
2.7k
Graph Convolutional Networks
roraidolaurent
0
210
文献紹介Deep Temporal-Recurrent-Replicated-Softmax for Topical Trends over Time
roraidolaurent
0
90
文献紹介/ Bayesian Learning for Neural Dependency Parsing
roraidolaurent
0
100
ポッキー数列の加法定理 / Pocky number additon theorem
roraidolaurent
0
190
Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling
roraidolaurent
1
120
Featured
See All Featured
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
114
51k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
How GitHub (no longer) Works
holman
314
140k
Navigating Team Friction
lara
183
15k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
46
2.4k
For a Future-Friendly Web
brad_frost
176
9.6k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.3k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
Rebuilding a faster, lazier Slack
samanthasiow
80
8.9k
How to Ace a Technical Interview
jacobian
276
23k
Transcript
A Probabilistic Annotation Model for Crowdsourcing Coreference 文献紹介 2020/2/3 長岡技術科学大学
自然言語処理研究室 吉澤 亜斗武
Abstract ・クラウドソーシングで注釈がつけられた共参照の データセットのためのモデルを提案 ・質の異なるアノテーターをシュミレーションして データを生成 ・提案モデルはアノテーターの質を考慮し、 従来のモデルのF1値を上回った。 2
1. Introduction ・共参照の問題は談話エンティティなどで非常に重要 ・現在、ONTONOTESを基とした中規模データセット CONLL2012-dataset を使うのがほとんど ・しかし適用できない言語やドメインが多くあり、アノテート されたデータセットが求められるが、専門家だけでは データサイズに限界がある 3
1. Introduction ・そこでクラウドソーシングが求められるが、照応の集約が 上手く行かないことが多い。 ・従来は単純な多数決がとられてきたが、近年になって効率的な 集約方法への研究が行われつつある。 ・クラウドソースの照応注釈を集約する言及ペアベースの 確率モデルを提案 4
2. A Mention-Pair Model of Annotation 5
2.1 Parameter Estimation 6 ELBO最大化:Coordinate AscentVariational Inference (CAVI)
3.1.1 Crowdsourced Data 7 Phrase Detectives 1.0 ・クラウドソーシングでアノテーション ・談話の新・旧(先行詞)など5つのマーク ・45文書、6000マーク
→トレーニングに向かかない → CONLL-2012 dataset からデータを作る
3.1.2 Synthetic Data 8 アノテーターをシミュレーションとして訓練データを生成 精度が0.2から0.9のアノテーターが混在するようにする ・Uniform:一様に誤りを生じさせる。 ・Sparse:局所的に誤りを生じさせる。
3.1.2 Synthetic Data 9 ・Synthetic profiles 5つの精度が異なるプロファイル(ラベル)をつける 専門家と一般の人が混ざっている状況を再現 ・Phrase Detectives
inspired profiles Phrase Detectiveの中で信頼度が一定以上のプロファイルを 適用。
3.2 Evaluation 1: Mention Pair Accuracy 10
3.3 Evaluation 2: Silver Chain Quality 11
6 Conclusion 12 ・クラウドソーシングされた照応注釈を集約するための 確率モデルベースを導入し、推定ペア、 相互参照チェーンの品質について実験をおこなった。 ・多数決で決める従来のモデルよりも優れていることを 示した。