Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介 / A Probabilistic Annotation Model for Cro...
Search
Atom
February 03, 2020
0
56
文献紹介 / A Probabilistic Annotation Model for Crowdsourcing Coreference
Atom
February 03, 2020
Tweet
Share
More Decks by Atom
See All by Atom
文献紹介 / Structure-based Knowledge Tracing: An Influence Propagation View
roraidolaurent
0
76
文献紹介 / Knowledge Tracing with GNN
roraidolaurent
0
77
文献紹介 / Non-Intrusive Parametric Reduced Order Models withHigh-Dimensional Inputs via Gradient-Free Active Subspace
roraidolaurent
0
47
ニューラルネットワークのベイズ推論 / Bayesian inference of neural networks
roraidolaurent
1
2.7k
Graph Convolutional Networks
roraidolaurent
0
210
文献紹介Deep Temporal-Recurrent-Replicated-Softmax for Topical Trends over Time
roraidolaurent
0
87
文献紹介/ Bayesian Learning for Neural Dependency Parsing
roraidolaurent
0
96
ポッキー数列の加法定理 / Pocky number additon theorem
roraidolaurent
0
190
Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling
roraidolaurent
1
120
Featured
See All Featured
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.4k
RailsConf 2023
tenderlove
29
970
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
45
2.3k
How STYLIGHT went responsive
nonsquared
96
5.3k
The Power of CSS Pseudo Elements
geoffreycrofte
74
5.4k
Statistics for Hackers
jakevdp
797
220k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
28
4.5k
BBQ
matthewcrist
85
9.4k
YesSQL, Process and Tooling at Scale
rocio
170
14k
The Language of Interfaces
destraynor
155
24k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Writing Fast Ruby
sferik
628
61k
Transcript
A Probabilistic Annotation Model for Crowdsourcing Coreference 文献紹介 2020/2/3 長岡技術科学大学
自然言語処理研究室 吉澤 亜斗武
Abstract ・クラウドソーシングで注釈がつけられた共参照の データセットのためのモデルを提案 ・質の異なるアノテーターをシュミレーションして データを生成 ・提案モデルはアノテーターの質を考慮し、 従来のモデルのF1値を上回った。 2
1. Introduction ・共参照の問題は談話エンティティなどで非常に重要 ・現在、ONTONOTESを基とした中規模データセット CONLL2012-dataset を使うのがほとんど ・しかし適用できない言語やドメインが多くあり、アノテート されたデータセットが求められるが、専門家だけでは データサイズに限界がある 3
1. Introduction ・そこでクラウドソーシングが求められるが、照応の集約が 上手く行かないことが多い。 ・従来は単純な多数決がとられてきたが、近年になって効率的な 集約方法への研究が行われつつある。 ・クラウドソースの照応注釈を集約する言及ペアベースの 確率モデルを提案 4
2. A Mention-Pair Model of Annotation 5
2.1 Parameter Estimation 6 ELBO最大化:Coordinate AscentVariational Inference (CAVI)
3.1.1 Crowdsourced Data 7 Phrase Detectives 1.0 ・クラウドソーシングでアノテーション ・談話の新・旧(先行詞)など5つのマーク ・45文書、6000マーク
→トレーニングに向かかない → CONLL-2012 dataset からデータを作る
3.1.2 Synthetic Data 8 アノテーターをシミュレーションとして訓練データを生成 精度が0.2から0.9のアノテーターが混在するようにする ・Uniform:一様に誤りを生じさせる。 ・Sparse:局所的に誤りを生じさせる。
3.1.2 Synthetic Data 9 ・Synthetic profiles 5つの精度が異なるプロファイル(ラベル)をつける 専門家と一般の人が混ざっている状況を再現 ・Phrase Detectives
inspired profiles Phrase Detectiveの中で信頼度が一定以上のプロファイルを 適用。
3.2 Evaluation 1: Mention Pair Accuracy 10
3.3 Evaluation 2: Silver Chain Quality 11
6 Conclusion 12 ・クラウドソーシングされた照応注釈を集約するための 確率モデルベースを導入し、推定ペア、 相互参照チェーンの品質について実験をおこなった。 ・多数決で決める従来のモデルよりも優れていることを 示した。