文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction

- 文献紹介 2019 Jun 5 - Predicting Annotation Difﬁculty to
Improve Task Routing and Model Performance for Biomedical Information Extraction 長岡技術科学大学自然言語処理研究室多田太郎

About the paper 2 Authors： Conference： NAACL 2019

Abstract ・最近のNLPシステムには、高品質の注釈付きデータが必要・専門分野によっては注釈はコストが高い・アノテーション作業の難易度を直接モデル化することでパフォーマンスを向上・インスタンスを適切な注釈者に割り当て可能なことを実証・専門家とクラウドワーカーの注釈による影響について 3

Introduction 4 ・専門家による注釈は高価になりがち・クラウドワーカーの注釈は専門的なコンテンツによってはノイズとなる・医学文献のクラウドワーカーアノテーションを含むコーパスでの実験を報告　（EBM-NLPコーパス）・データへのアノテーションの難易度に注目する

Application Domain 5 ・医療記事のアブストラクトへの注釈について・この分野の実験はEBM-NLPのリリースで容易に(Nye et al., 2018) Population(p), Interventions
(i), and Outcome (o)の要素を記述したクラウドワーカーの注釈付きの4,741医療記事アブストラクト医療専門家によってラベルが付けられたテストセット医療記事アブストラクトが191 3人の医療専門家からの注釈

Application Domain 6

Application Domain 7

Quantifying Task Difficulty 8 ・テストセットには、クラウドワーカーとド専門家の注釈が含まれる専門家の注釈をground truthとして扱う専門家とクラウドワーカー間での一致により文の困難さを定義アノテーションタスク :
t インスタンス : i ワーカー : j ground truth 注釈 : yi ワーカーの数 : n スコアリング関数 f : スピアマンの相関係数

Quantifying Task Difficulty 9 ・トレーニングセットはクラウドワーカーによる注釈のみを使用・LSTM-CRF-Pattern sequence tagge(Patel et al.,
2018) でラベルを予測データを分割しvalidationデータに用いる・予測結果と専門家注釈を利用して難易度スコアを算出ピアソンの相関係： Populationで0.57、Interventionsで0.71, Outcomeで0.68 Interventions and Outcomesへの注釈付けが Populationへの注釈付けよりも困難である

Difficulty is not Worker Agreement 10 困難性の定義は,テストデータに対する専門家とクラウドワーカーの注釈の間の一致とトレーニングデータにおける予測モデルとクラウドワーカー注釈間の一致から導出困難性の定義がアノテータ間の合意と弱くしか相関しない事を検証予測モデルとクラウドワーカー注釈間のピアソンの相関係は　p,
i, o：0.34, 0.3 ,0.31 ワーカー間の一致と提案した難易度スコアがかなり異なることを確認

Predicting Annotation Difficulty 11 ・難易度予測を回帰問題として扱い、ニューラルモデルを提案 Cerら(2018)に従って,注釈困難性を予測するために,universal表現とタスク固有表現を組み合わせるアンサンブルモデルで実験

Experimental Setup and Results 12 ・各ラベルタイプのモデルを個別にトレーニング一般的なクロール・データで訓練された300次元Globe (Pennington et al.,2014)
学習率：0.001 減衰：0.99 バッチサイズ：16 オプティマイザ：Adam

Better IE with Difficulty Prediction 13 ・難易度のさらなる使用を試みる実験 1.困難な文を除去した訓練セット 2.全ての訓練セットを難易度スコアに比例して再加重した場合で訓練

Removing Difficult Examples 14

Re-weighting by Difficulty 15 訓練中の文を,それらの予測された難易度で再重み付け再重み付けは、困難な文をダウンサンプリングすることに等しくなる

Involving Expert Annotators 16 困難な事例に関する専門家による注釈が抽出モデルに与える影響を確認難しいインスタンスを専門家に,より簡単なインスタンスをクラウドワーカーにルーティングする注釈戦略をシミュレート

Expert annotations of Random and Difficult Instances 17 ・最も困難なインスタンスのサブセットとのランダムなインスタンスを専門家が再注釈・五人の医療専門家を採用
・各要約には、1人の専門家によってのみ注釈が付けられる。・再注釈したデータ最も難しいインスタンス：1000件ランダムなインスタンス：1000件

Expert annotations of Random and Difficult Instances 18

Routing To Experts or Crowd 19 ・専門家とクラウドワーカーの注釈データを共に用いた場合を確認

How Many Expert Annotations? 20 ・専門家のデータが少なくても同様の精度が得られるか

Conclusions 21 ・生物医学情報抽出のための注釈難易度を予測するタスクを導入、難易度をスコア化・モデルからの結果は,ほとんどすべての評価でPearsonの相関係数がより高く,この作業の実行可能性を示した・実験では,最も難易度が高いと予測された文の~10%を除去してもモデル性能は低下せず,訓練中の難易度スコアによる再重み付けは予測性能を改善することを示した・難易度により注釈者を選択するシミュレートでは、良いの結果を得ることが出来、データをランダムに選択する手法の精度を超え、クラウドワーカーのアノテータに依存するアプローチを大幅に改善できる

文献紹介_201906_Predicting Annotation Difficulty to...

文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction

T.Tada

More Decks by T.Tada

Other Decks in Technology

Featured

Transcript

- 文献紹介 2019 Jun 5 - Predicting Annotation Difﬁculty to

About the paper 2 Authors： Conference： NAACL 2019

Application Domain 5 ・医療記事のアブストラクトへの注釈について・この分野の実験はEBM-NLPのリリースで容易に(Nye et al., 2018) Population(p), Interventions