Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction

文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction

T.Tada

June 05, 2019
Tweet

More Decks by T.Tada

Other Decks in Technology

Transcript

  1. - 文献紹介 2019 Jun 5 -
    Predicting Annotation Difficulty to Improve Task Routing and Model
    Performance for Biomedical Information Extraction
    長岡技術科学大学
    自然言語処理研究室
    多田太郎

    View full-size slide

  2. About the paper
    2
    Authors:
    Conference:
    NAACL 2019

    View full-size slide

  3. Abstract
    ・最近のNLPシステムには、高品質の注釈付きデータが必要
    ・専門分野によっては注釈はコストが高い
    ・アノテーション作業の難易度を直接モデル化することでパフォーマンスを向上
    ・インスタンスを適切な注釈者に割り当て可能なことを実証
    ・専門家とクラウドワーカーの注釈による影響について
    3

    View full-size slide

  4. Introduction
    4
    ・専門家による注釈は高価になりがち
    ・クラウドワーカーの注釈は専門的なコンテンツによってはノイズとなる
    ・医学文献のクラウドワーカーアノテーションを含むコーパスでの実験を報告
     (EBM-NLPコーパス)
    ・データへのアノテーションの難易度に注目する

    View full-size slide

  5. Application Domain
    5
    ・医療記事のアブストラクトへの注釈について
    ・この分野の実験はEBM-NLPのリリースで容易に(Nye et al., 2018)
    Population(p), Interventions (i), and Outcome (o)の要素を記述した
    クラウドワーカーの注釈付きの4,741医療記事アブストラクト
    医療専門家によってラベルが付けられたテストセット
    医療記事アブストラクトが191
    3人の医療専門家からの注釈

    View full-size slide

  6. Application Domain
    6

    View full-size slide

  7. Application Domain
    7

    View full-size slide

  8. Quantifying Task Difficulty
    8
    ・テストセットには、クラウドワーカーとド専門家の注釈が含まれる
    専門家の注釈をground truthとして扱う
    専門家とクラウドワーカー間での一致により文の困難さを定義
    アノテーションタスク : t
    インスタンス : i
    ワーカー : j
    ground truth 注釈 : yi
    ワーカーの数 : n
    スコアリング関数 f :
    スピアマンの相関係数

    View full-size slide

  9. Quantifying Task Difficulty
    9
    ・トレーニングセットはクラウドワーカーによる注釈のみを使用
    ・LSTM-CRF-Pattern sequence tagge(Patel et al., 2018) でラベルを予測
    データを分割しvalidationデータに用いる
    ・予測結果と専門家注釈を利用して難易度スコアを算出
    ピアソンの相関係:
    Populationで0.57、Interventionsで0.71,
    Outcomeで0.68
    Interventions and Outcomesへの注釈付けが
    Populationへの注釈付けよりも困難である

    View full-size slide

  10. Difficulty is not Worker Agreement
    10
    困難性の定義は,テストデータに対する専門家とクラウドワーカーの注釈の間の一致と
    トレーニングデータにおける予測モデルとクラウドワーカー注釈間の一致から導出
    困難性の定義がアノテータ間の合意と弱くしか相関しない事を検証
    予測モデルとクラウドワーカー注釈間のピアソンの相関係は p, i, o:0.34, 0.3 ,0.31
    ワーカー間の一致と提案した難易度スコアがかなり異なることを確認

    View full-size slide

  11. Predicting Annotation Difficulty
    11
    ・難易度予測を回帰問題として扱い、ニューラルモデルを提案
    Cerら(2018)に従って,注釈困難性を予測するために,universal表現と
    タスク固有表現を組み合わせるアンサンブルモデルで実験

    View full-size slide

  12. Experimental Setup and Results
    12
    ・各ラベルタイプのモデルを個別にトレーニング
    一般的なクロール・データで訓練された300次元Globe (Pennington et al.,2014)
    学習率:0.001
    減衰:0.99
    バッチサイズ:16
    オプティマイザ:Adam

    View full-size slide

  13. Better IE with Difficulty Prediction
    13
    ・難易度のさらなる使用を試みる実験
    1.困難な文を除去した訓練セット
    2.全ての訓練セットを難易度スコアに比例して再加重した場合 で訓練

    View full-size slide

  14. Removing Difficult Examples
    14

    View full-size slide

  15. Re-weighting by Difficulty
    15
    訓練中の文を,それらの予測された難易度で再重み付け
    再重み付けは、困難な文をダウンサンプリングすることに等しくなる

    View full-size slide

  16. Involving Expert Annotators
    16
    困難な事例に関する専門家による注釈が抽出モデルに与える影響を確認
    難しいインスタンスを専門家に,より簡単なインスタンスをクラウドワーカーに
    ルーティングする注釈戦略をシミュレート

    View full-size slide

  17. Expert annotations of Random and Difficult Instances
    17
    ・最も困難なインスタンスのサブセットとのランダムなインスタンスを専門家が再注釈
    ・五人の医療専門家を採用
    ・各要約には、1人の専門家によってのみ注釈が付けられる。
    ・再注釈したデータ
    最も難しいインスタンス:1000件
    ランダムなインスタンス:1000件

    View full-size slide

  18. Expert annotations of Random and Difficult Instances
    18

    View full-size slide

  19. Routing To Experts or Crowd
    19
    ・専門家とクラウドワーカーの注釈データを共に用いた場合を確認

    View full-size slide

  20. How Many Expert Annotations?
    20
    ・専門家のデータが少なくても同様の精度が得られるか

    View full-size slide

  21. Conclusions
    21
    ・生物医学情報抽出のための注釈難易度を予測するタスクを導入、難易度をスコア化
    ・モデルからの結果は,ほとんどすべての評価でPearsonの相関係数がより高く,この作
    業の実行可能性を示した
    ・実験では,最も難易度が高いと予測された文の~10%を除去してもモデル性能は低下
    せず,訓練中の難易度スコアによる再重み付けは予測性能を改善することを示した
    ・難易度により注釈者を選択するシミュレートでは、良いの結果を得ることが出来、デー
    タをランダムに選択する手法の精度を超え、クラウドワーカーのアノテータに依存するア
    プローチを大幅に改善できる

    View full-size slide