Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
A Probabilistic Annotation Model for Crowdsourcing Coreference 文献紹介 2020/2/3 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武
Slide 2
Slide 2 text
Abstract ・クラウドソーシングで注釈がつけられた共参照の データセットのためのモデルを提案 ・質の異なるアノテーターをシュミレーションして データを生成 ・提案モデルはアノテーターの質を考慮し、 従来のモデルのF1値を上回った。 2
Slide 3
Slide 3 text
1. Introduction ・共参照の問題は談話エンティティなどで非常に重要 ・現在、ONTONOTESを基とした中規模データセット CONLL2012-dataset を使うのがほとんど ・しかし適用できない言語やドメインが多くあり、アノテート されたデータセットが求められるが、専門家だけでは データサイズに限界がある 3
Slide 4
Slide 4 text
1. Introduction ・そこでクラウドソーシングが求められるが、照応の集約が 上手く行かないことが多い。 ・従来は単純な多数決がとられてきたが、近年になって効率的な 集約方法への研究が行われつつある。 ・クラウドソースの照応注釈を集約する言及ペアベースの 確率モデルを提案 4
Slide 5
Slide 5 text
2. A Mention-Pair Model of Annotation 5
Slide 6
Slide 6 text
2.1 Parameter Estimation 6 ELBO最大化:Coordinate AscentVariational Inference (CAVI)
Slide 7
Slide 7 text
3.1.1 Crowdsourced Data 7 Phrase Detectives 1.0 ・クラウドソーシングでアノテーション ・談話の新・旧(先行詞)など5つのマーク ・45文書、6000マーク →トレーニングに向かかない → CONLL-2012 dataset からデータを作る
Slide 8
Slide 8 text
3.1.2 Synthetic Data 8 アノテーターをシミュレーションとして訓練データを生成 精度が0.2から0.9のアノテーターが混在するようにする ・Uniform:一様に誤りを生じさせる。 ・Sparse:局所的に誤りを生じさせる。
Slide 9
Slide 9 text
3.1.2 Synthetic Data 9 ・Synthetic profiles 5つの精度が異なるプロファイル(ラベル)をつける 専門家と一般の人が混ざっている状況を再現 ・Phrase Detectives inspired profiles Phrase Detectiveの中で信頼度が一定以上のプロファイルを 適用。
Slide 10
Slide 10 text
3.2 Evaluation 1: Mention Pair Accuracy 10
Slide 11
Slide 11 text
3.3 Evaluation 2: Silver Chain Quality 11
Slide 12
Slide 12 text
6 Conclusion 12 ・クラウドソーシングされた照応注釈を集約するための 確率モデルベースを導入し、推定ペア、 相互参照チェーンの品質について実験をおこなった。 ・多数決で決める従来のモデルよりも優れていることを 示した。