Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介201902_Effectively Crowdsourcing Radiology ...
Search
T.Tada
February 19, 2019
Technology
0
100
文献紹介201902_Effectively Crowdsourcing Radiology Report Annotations
T.Tada
February 19, 2019
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
63
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
170
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
170
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
220
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
100
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
160
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
65
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
100
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
97
Other Decks in Technology
See All in Technology
なぜ あなたはそんなに re:Invent に行くのか?
miu_crescent
PRO
0
250
ルネサンス開発者を育てる 1on1支援AIエージェント
yusukeshimizu
0
130
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
10k
AI時代のアジャイルチームを目指して ー スクラムというコンフォートゾーンからの脱却 ー / Toward Agile Teams in the Age of AI
takaking22
3
850
人工知能のための哲学塾 ニューロフィロソフィ篇 第零夜 「ニューロフィロソフィとは何か?」
miyayou
0
280
Oracle Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
2
650
RALGO AIを組織に組み込む方法 -アルゴリズム中心組織設計- #RSGT2026 / RALGO: How to Integrate AI into an Organization – Algorithm-Centric Organizational Design
kyonmm
PRO
2
290
テストセンター受験、オンライン受験、どっちなんだい?
yama3133
0
200
Everything As Code
yosuke_ai
0
470
Autonomous Database - Dedicated 技術詳細 / adb-d_technical_detail_jp
oracle4engineer
PRO
5
12k
業務の煩悩を祓うAI活用術108選 / AI 108 Usages
smartbank
9
19k
Bedrock AgentCore Evaluationsで学ぶLLM as a judge入門
shichijoyuhi
2
310
Featured
See All Featured
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.4k
Design in an AI World
tapps
0
110
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Evolving SEO for Evolving Search Engines
ryanjones
0
89
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
1
100
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
58
41k
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
7.9k
Transcript
- 文献紹介 2019/2/19 - Effectively Crowdsourcing Radiology Report Annotations 長岡技術科学大学
自然言語処理研究室 多田太郎
About the paper 2 Authors: Conference:
Abstract ・ラベリング作業に医療分野の知識が必要な場合、クラウドソーシングは有用か ・エキスパート注釈とクラウドソーシング注釈で訓練された同じモデルで比較 ・両手法で作成されたデータセットは同じくらい効果的であることがわかった ・クラウドソーシングによるラベルの一部を除外することで、モデルの精度が向上 3
Introduction ・多くのテキスト分類手法は、大量のラベル付きトレーニングデータが必要 →質の高いトレーニングデータを大量に収集することは、時間と費用がかかる ・アノテーションにドメイン知識を必要とする場合、クラウドソーシングはどれほど有用か ・放射線科レポートを正常または異常として分類するためのモデルに対する有用性 ・専門家とクラウドソーシングされたデータセットで分類モデルのパフォーマンスを比較 4
Methods and Data Collection ・Annotating radiology report reports ・Data collection
-Gold standard labels: expert annotations -Crowdsourced annotations -Weighting the workers’ votes ・Building a classification model 5
Methods and Data Collection -Annotating radiology report reports- Audiological and
Genetic Database(AudGenDB)(CHOP,06) 側頭骨の16,000以上の放射線画像 関連するテキストレポート を格納する医学研究データベース レポートにはラベルが付いていない 13の解剖学的構造(例えば、蝸牛、中耳のあぶみ骨など)のそれぞれに関して、 各報告を正常または異常として分類するモデルを構築することが目的 AudGenDBの放射線医学レポートから抽出された10,880のラベルなしの文章を使用 6
Methods and Data Collection ・Annotating radiology report reports ・Data collection
-Gold standard labels: expert annotations -Crowdsourced annotations -Weighting the workers’ votes ・Building a classification model 7
Methods and Data Collection -Data collection- Gold standard labels: expert annotations
・2人の専門家が、ランダムに選んだ340文に注釈を付与 -専門家らの注釈は、ほぼ一致 0.848(Fleiss Kappa / Krippendorffs Alpha) ・ゴールドスタンダードのデータセット -ラベルに一致した323文 -正常:165文(51.1%),異常:158(48.9%) 8
Methods and Data Collection -Data collection- Crowdsourced annotations- ・医療や放射線学の専門知識についてワーカーのスクリーニングを行わない ・以下の2点を各文に対して付与 -文が正常な観察か異常な観察か
-選択においての自信(非常に自信がある、多少自信がある、自信がない) ・各文少なくとも2人の作業者を設定 -文章ラベルが一致しなかった場合は、75%の一致率に達するまで注釈を収集し続けた -56人のユニークなワーカーにより717文を追加で収集 9
Methods and Data Collection ・以下2点をワーカーに提供 -「強調表示された文章を耳の特定の構成要素の正常または異常な観察を説明するもの として分類する」という簡単な指示 -正常および異常な文の例(ゴールドスタンダードの少なくとも1つの文を使用) 10 Methods
and Data Collection -Data collection- Crowdsourced annotations-
Methods and Data Collection ・ワーカーの個々の注釈を各センテンスの単一のクラウドソーシングラベルに統合 -各センテンスの注釈をワーカーの注釈の加重平均とする:Snowら(2008)を参考 ・ワーカーにより注釈へ重みを付け: -より正確なワーカーの注釈を高く評価 -より多くの文を分類したワーカーの注釈を評価 11
Methods and Data Collection -Data collection- Weighting the workers’ votes
Methods and Data Collection ・クラウドソースデータが同様に文分類モデルを訓練するのに有用であるか -bag-of-ngram を使用して簡単な文分類モデルを構築 ・各文を901次元の特徴ベクトルとする -900次元: データセットでの頻度が上位500のunigram、上位300のbigram、上位100のtrigram
-901次元目:センテンストークンの数。 文章が正常か異常かを予測するためにL2正規化ロジスティック回帰を使用 12 Methods and Data Collection -Data collection- Building a classification model
Results ・Labeling performance and analysis ・Votes of confidence ・Using annotations
to train a classifier -Experts vs The Crowd -Increasing training instances -Incorporating confidence thresholds 13
Results -Labeling performance and analysis- ・56人のユニークなワーカーはそれぞれ平均99.9文を分類(3〜462文) 平均的な分類の正確さは93.49%であり、これはワーカー間でも比較的一貫 平均を大幅に下回ったのは3人のみ ・2つの方法でクラウドソーシングされた注釈について調査 -Krippendorffs
Alpha→0.743 -カッパスコアを確認 →0.758 (文ごとに2つのラベルをランダムに100回サンプリングした平均) 専門家注釈者間の一致よりは低いが実質的に一致を示している(Landis and Koch、1977) 14
Results 15 Results -Votes of confidence- 注釈の確信度の分布 非常に自信がある:68% やや自信がある:27% 自信がない:5%
Results -Votes of confidence- 16
Results -Using annotations to train a classifier- Experts vs The
Crowd ・2つの方法で分類モデルをトレーニング。 -ゴールドスタンダードラベルのみを使用 -クラウドソーシングラベルのみを使用 各分類器は同数のトレーニングインスタンスを使用 ・ゴールドスタンダードデータセットを用いて5-fold cross validationで実験 -各検証に対して、等しいサイズのクラウドソースデータからトレーニングセットをランダム にサブサンプリング(約260)し、ゴールドスタンダードデータの検証部分に対して評価 17
Results 18 Results -Using annotations to train a classifier- Experts
vs The Crowd
Results -Using annotations to train a classifier- Increasing training instances
・クラウドワーカーの注釈の数を増やすことで分類モデルの精度を向上できるか ・各サイズごとに、トレーニングセットをランダムにサブサンプリング ・ゴールドスタンダードデータセット全体に対して評価 19
Results 20 Results -Using annotations to train a classifier- Increasing
training instances
Results -Using annotations to train a classifier- Incorporating confidence thresholds
・注釈の確信度のしきい値を変化させたトレーニングセットでモデルをトレーニング ・ゴールドスタンダードテストセット全体に対して評価 21
Discussion / Conclusion ・クラウドソーシングを使用して特定の分野の知識を必要とするタスクの文ラベルを生成する ことが可能であることを示した ・クラウドソーシングの注釈に重みをつけてラベルを適用することによって、文分類子を訓練 する際に専門家のアノテーターによって生成されたものと同じくらい効果的である訓練データ セットを生成することができた ・個々のワーカーの確信度を取り入れることによって、データを追加収集することなく分類器 の精度をさらに向上させることができた
22