Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介201902_Effectively Crowdsourcing Radiology ...
Search
T.Tada
February 19, 2019
Technology
0
99
文献紹介201902_Effectively Crowdsourcing Radiology Report Annotations
T.Tada
February 19, 2019
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
62
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
160
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
160
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
210
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
100
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
150
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
63
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
95
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
95
Other Decks in Technology
See All in Technology
職種の壁を溶かして開発サイクルを高速に回す~情報透明性と職種越境から考えるAIフレンドリーな職種間連携~
daitasu
0
160
AWSで始める実践Dagster入門
kitagawaz
1
610
機械学習を扱うプラットフォーム開発と運用事例
lycorptech_jp
PRO
0
230
なぜSaaSがMCPサーバーをサービス提供するのか?
sansantech
PRO
8
2.8k
自作JSエンジンに推しプロポーザルを実装したい!
sajikix
1
170
会社紹介資料 / Sansan Company Profile
sansan33
PRO
6
380k
ChatGPTとPlantUML/Mermaidによるソフトウェア設計
gowhich501
1
130
Practical Agentic AI in Software Engineering
uzyn
0
110
Agile PBL at New Grads Trainings
kawaguti
PRO
1
420
AIのグローバルトレンド2025 #scrummikawa / global ai trend
kyonmm
PRO
1
280
エラーとアクセシビリティ
schktjm
1
1.2k
テストを軸にした生き残り術
kworkdev
PRO
0
200
Featured
See All Featured
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
Become a Pro
speakerdeck
PRO
29
5.5k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Documentation Writing (for coders)
carmenintech
74
5k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
The Cost Of JavaScript in 2023
addyosmani
53
8.9k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
30
9.7k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Thoughts on Productivity
jonyablonski
70
4.8k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.9k
Facilitating Awesome Meetings
lara
55
6.5k
Transcript
- 文献紹介 2019/2/19 - Effectively Crowdsourcing Radiology Report Annotations 長岡技術科学大学
自然言語処理研究室 多田太郎
About the paper 2 Authors: Conference:
Abstract ・ラベリング作業に医療分野の知識が必要な場合、クラウドソーシングは有用か ・エキスパート注釈とクラウドソーシング注釈で訓練された同じモデルで比較 ・両手法で作成されたデータセットは同じくらい効果的であることがわかった ・クラウドソーシングによるラベルの一部を除外することで、モデルの精度が向上 3
Introduction ・多くのテキスト分類手法は、大量のラベル付きトレーニングデータが必要 →質の高いトレーニングデータを大量に収集することは、時間と費用がかかる ・アノテーションにドメイン知識を必要とする場合、クラウドソーシングはどれほど有用か ・放射線科レポートを正常または異常として分類するためのモデルに対する有用性 ・専門家とクラウドソーシングされたデータセットで分類モデルのパフォーマンスを比較 4
Methods and Data Collection ・Annotating radiology report reports ・Data collection
-Gold standard labels: expert annotations -Crowdsourced annotations -Weighting the workers’ votes ・Building a classification model 5
Methods and Data Collection -Annotating radiology report reports- Audiological and
Genetic Database(AudGenDB)(CHOP,06) 側頭骨の16,000以上の放射線画像 関連するテキストレポート を格納する医学研究データベース レポートにはラベルが付いていない 13の解剖学的構造(例えば、蝸牛、中耳のあぶみ骨など)のそれぞれに関して、 各報告を正常または異常として分類するモデルを構築することが目的 AudGenDBの放射線医学レポートから抽出された10,880のラベルなしの文章を使用 6
Methods and Data Collection ・Annotating radiology report reports ・Data collection
-Gold standard labels: expert annotations -Crowdsourced annotations -Weighting the workers’ votes ・Building a classification model 7
Methods and Data Collection -Data collection- Gold standard labels: expert annotations
・2人の専門家が、ランダムに選んだ340文に注釈を付与 -専門家らの注釈は、ほぼ一致 0.848(Fleiss Kappa / Krippendorffs Alpha) ・ゴールドスタンダードのデータセット -ラベルに一致した323文 -正常:165文(51.1%),異常:158(48.9%) 8
Methods and Data Collection -Data collection- Crowdsourced annotations- ・医療や放射線学の専門知識についてワーカーのスクリーニングを行わない ・以下の2点を各文に対して付与 -文が正常な観察か異常な観察か
-選択においての自信(非常に自信がある、多少自信がある、自信がない) ・各文少なくとも2人の作業者を設定 -文章ラベルが一致しなかった場合は、75%の一致率に達するまで注釈を収集し続けた -56人のユニークなワーカーにより717文を追加で収集 9
Methods and Data Collection ・以下2点をワーカーに提供 -「強調表示された文章を耳の特定の構成要素の正常または異常な観察を説明するもの として分類する」という簡単な指示 -正常および異常な文の例(ゴールドスタンダードの少なくとも1つの文を使用) 10 Methods
and Data Collection -Data collection- Crowdsourced annotations-
Methods and Data Collection ・ワーカーの個々の注釈を各センテンスの単一のクラウドソーシングラベルに統合 -各センテンスの注釈をワーカーの注釈の加重平均とする:Snowら(2008)を参考 ・ワーカーにより注釈へ重みを付け: -より正確なワーカーの注釈を高く評価 -より多くの文を分類したワーカーの注釈を評価 11
Methods and Data Collection -Data collection- Weighting the workers’ votes
Methods and Data Collection ・クラウドソースデータが同様に文分類モデルを訓練するのに有用であるか -bag-of-ngram を使用して簡単な文分類モデルを構築 ・各文を901次元の特徴ベクトルとする -900次元: データセットでの頻度が上位500のunigram、上位300のbigram、上位100のtrigram
-901次元目:センテンストークンの数。 文章が正常か異常かを予測するためにL2正規化ロジスティック回帰を使用 12 Methods and Data Collection -Data collection- Building a classification model
Results ・Labeling performance and analysis ・Votes of confidence ・Using annotations
to train a classifier -Experts vs The Crowd -Increasing training instances -Incorporating confidence thresholds 13
Results -Labeling performance and analysis- ・56人のユニークなワーカーはそれぞれ平均99.9文を分類(3〜462文) 平均的な分類の正確さは93.49%であり、これはワーカー間でも比較的一貫 平均を大幅に下回ったのは3人のみ ・2つの方法でクラウドソーシングされた注釈について調査 -Krippendorffs
Alpha→0.743 -カッパスコアを確認 →0.758 (文ごとに2つのラベルをランダムに100回サンプリングした平均) 専門家注釈者間の一致よりは低いが実質的に一致を示している(Landis and Koch、1977) 14
Results 15 Results -Votes of confidence- 注釈の確信度の分布 非常に自信がある:68% やや自信がある:27% 自信がない:5%
Results -Votes of confidence- 16
Results -Using annotations to train a classifier- Experts vs The
Crowd ・2つの方法で分類モデルをトレーニング。 -ゴールドスタンダードラベルのみを使用 -クラウドソーシングラベルのみを使用 各分類器は同数のトレーニングインスタンスを使用 ・ゴールドスタンダードデータセットを用いて5-fold cross validationで実験 -各検証に対して、等しいサイズのクラウドソースデータからトレーニングセットをランダム にサブサンプリング(約260)し、ゴールドスタンダードデータの検証部分に対して評価 17
Results 18 Results -Using annotations to train a classifier- Experts
vs The Crowd
Results -Using annotations to train a classifier- Increasing training instances
・クラウドワーカーの注釈の数を増やすことで分類モデルの精度を向上できるか ・各サイズごとに、トレーニングセットをランダムにサブサンプリング ・ゴールドスタンダードデータセット全体に対して評価 19
Results 20 Results -Using annotations to train a classifier- Increasing
training instances
Results -Using annotations to train a classifier- Incorporating confidence thresholds
・注釈の確信度のしきい値を変化させたトレーニングセットでモデルをトレーニング ・ゴールドスタンダードテストセット全体に対して評価 21
Discussion / Conclusion ・クラウドソーシングを使用して特定の分野の知識を必要とするタスクの文ラベルを生成する ことが可能であることを示した ・クラウドソーシングの注釈に重みをつけてラベルを適用することによって、文分類子を訓練 する際に専門家のアノテーターによって生成されたものと同じくらい効果的である訓練データ セットを生成することができた ・個々のワーカーの確信度を取り入れることによって、データを追加収集することなく分類器 の精度をさらに向上させることができた
22