Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介201902_Effectively Crowdsourcing Radiology Report Annotations

T.Tada
February 19, 2019

文献紹介201902_Effectively Crowdsourcing Radiology Report Annotations

T.Tada

February 19, 2019
Tweet

More Decks by T.Tada

Other Decks in Technology

Transcript

  1. Methods and Data Collection  ・Annotating radiology report reports  ・Data collection

    -Gold standard labels: expert annotations -Crowdsourced annotations -Weighting the workers’ votes  ・Building a classification model 5
  2. Methods and Data Collection  -Annotating radiology report reports- Audiological and

    Genetic Database(AudGenDB)(CHOP,06)  側頭骨の16,000以上の放射線画像  関連するテキストレポート を格納する医学研究データベース  レポートにはラベルが付いていない 13の解剖学的構造(例えば、蝸牛、中耳のあぶみ骨など)のそれぞれに関して、 各報告を正常または異常として分類するモデルを構築することが目的 AudGenDBの放射線医学レポートから抽出された10,880のラベルなしの文章を使用 6
  3. Methods and Data Collection  ・Annotating radiology report reports  ・Data collection

    -Gold standard labels: expert annotations -Crowdsourced annotations -Weighting the workers’ votes  ・Building a classification model 7
  4. Methods and Data Collection -Data collection- Gold standard labels: expert annotations

       ・2人の専門家が、ランダムに選んだ340文に注釈を付与   -専門家らの注釈は、ほぼ一致    0.848(Fleiss Kappa / Krippendorffs Alpha)  ・ゴールドスタンダードのデータセット   -ラベルに一致した323文   -正常:165文(51.1%),異常:158(48.9%) 8
  5. Methods and Data Collection -Data collection-  Crowdsourced annotations- ・医療や放射線学の専門知識についてワーカーのスクリーニングを行わない ・以下の2点を各文に対して付与  -文が正常な観察か異常な観察か

     -選択においての自信(非常に自信がある、多少自信がある、自信がない) ・各文少なくとも2人の作業者を設定  -文章ラベルが一致しなかった場合は、75%の一致率に達するまで注釈を収集し続けた  -56人のユニークなワーカーにより717文を追加で収集 9
  6. Results  ・Labeling performance and analysis  ・Votes of confidence  ・Using annotations

    to train a classifier -Experts vs The Crowd -Increasing training instances -Incorporating confidence thresholds 13
  7. Results -Using annotations to train a classifier- Experts vs The

    Crowd  ・2つの方法で分類モデルをトレーニング。   -ゴールドスタンダードラベルのみを使用   -クラウドソーシングラベルのみを使用    各分類器は同数のトレーニングインスタンスを使用  ・ゴールドスタンダードデータセットを用いて5-fold cross validationで実験   -各検証に対して、等しいサイズのクラウドソースデータからトレーニングセットをランダム    にサブサンプリング(約260)し、ゴールドスタンダードデータの検証部分に対して評価 17
  8. Results -Using annotations to train a classifier- Increasing training instances

     ・クラウドワーカーの注釈の数を増やすことで分類モデルの精度を向上できるか  ・各サイズごとに、トレーニングセットをランダムにサブサンプリング  ・ゴールドスタンダードデータセット全体に対して評価 19
  9. Results -Using annotations to train a classifier- Incorporating confidence thresholds  

     ・注釈の確信度のしきい値を変化させたトレーニングセットでモデルをトレーニング  ・ゴールドスタンダードテストセット全体に対して評価 21