Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介_201906_Predicting Annotation Difficulty to...

文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction

Avatar for T.Tada

T.Tada

June 05, 2019
Tweet

More Decks by T.Tada

Other Decks in Technology

Transcript

  1. - 文献紹介 2019 Jun 5 - Predicting Annotation Difficulty to

    Improve Task Routing and Model Performance for Biomedical Information Extraction 長岡技術科学大学 自然言語処理研究室 多田太郎
  2. Application Domain 5 ・医療記事のアブストラクトへの注釈について ・この分野の実験はEBM-NLPのリリースで容易に(Nye et al., 2018) Population(p), Interventions

    (i), and Outcome (o)の要素を記述した クラウドワーカーの注釈付きの4,741医療記事アブストラクト 医療専門家によってラベルが付けられたテストセット 医療記事アブストラクトが191 3人の医療専門家からの注釈
  3. Quantifying Task Difficulty 9 ・トレーニングセットはクラウドワーカーによる注釈のみを使用 ・LSTM-CRF-Pattern sequence tagge(Patel et al.,

    2018) でラベルを予測 データを分割しvalidationデータに用いる ・予測結果と専門家注釈を利用して難易度スコアを算出 ピアソンの相関係: Populationで0.57、Interventionsで0.71, Outcomeで0.68 Interventions and Outcomesへの注釈付けが Populationへの注釈付けよりも困難である
  4. Expert annotations of Random and Difficult Instances 17 ・最も困難なインスタンスのサブセットとのランダムなインスタンスを専門家が再注釈 ・五人の医療専門家を採用

    ・各要約には、1人の専門家によってのみ注釈が付けられる。 ・再注釈したデータ 最も難しいインスタンス:1000件 ランダムなインスタンス:1000件