Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_201912_Publicly Available Clinical BERT Embeddings
Search
T.Tada
December 16, 2019
Technology
0
140
文献紹介_201912_Publicly Available Clinical BERT Embeddings
T.Tada
December 16, 2019
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
54
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
120
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
160
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
90
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
120
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
54
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
77
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
79
文献紹介201905_Context-Aware Cross-Lingual Mapping
tad
0
81
Other Decks in Technology
See All in Technology
戦略的DDDを実践するための跳躍力 / OOC 2024
pictiny
6
3.8k
私のRSpecの書き方 / How I write RSpec
tmtms
4
820
10分でわかるfreeeのQA
freee
0
220
LLMプロダクト事業の立ち上げにおける挑戦
layerx
PRO
7
1.4k
期待しすぎずに取り組む両面 TypeScript
shozawa
2
290
「XX試験の環境作ってよ」と言われた時によく使うAWSのソリューションについて
bun913
0
120
生成AIの不確実性と向き合うためのオブジェクト指向設計
tkikuchi1002
2
650
なんで私に登壇依頼が?! ~頼られるエンジニアになるためには~ /
mixi_engineers
PRO
2
200
サービス成長と共に肥大化するモノレポ、長くなるCI時間 / As services grow, monorepos get bigger and CI time gets longer
kohbis
5
2k
技術広報経験0のEMがエンジニアブランディングをはじめてみた
coconala_engineer
1
130
AWS アーキテクチャクイズ
yuu26
2
700
Oracle Database で機械学習を始めよう! Oracle Machine Learning
oracle4engineer
PRO
1
140
Featured
See All Featured
Fireside Chat
paigeccino
19
2.6k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
185
15k
Web development in the modern age
philhawksworth
201
10k
How To Stay Up To Date on Web Technology
chriscoyier
781
250k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
14
1.3k
4 Signs Your Business is Dying
shpigford
174
21k
The Invisible Customer
myddelton
114
12k
What's new in Ruby 2.0
geeforr
335
31k
Clear Off the Table
cherdarchuk
82
310k
Designing Experiences People Love
moore
135
23k
Automating Front-end Workflow
addyosmani
1353
200k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
6
950
Transcript
- 文献紹介 2019 Dec. 16 - Publicly Available Clinical BERT
Embeddings 長岡技術科学大学 自然言語処理研究室 多田太郎
About the paper 2 Authors: Conference:
・文脈を考慮した単語埋め込みモデル(ELMoやBERTなど)は、特定分野では 限定的にしか検討されていない ・臨床テキスト用のBERTモデルを調査および公開 一般的な臨床テキスト向けと退院サマリー向け ・提案モデルは、3つの臨床分野NLPタスクで精度高 3 Abstract
・ELMoやBERTなどの文脈を考慮した埋め込み表現はNLPで成功 ・臨床テキストは、一般テキストや非臨床的な生物医学テキストと異なる 臨床分野のBERTモデルの必要性 ・しかし、計算コストが膨大 学習済みモデルを構築し、公開 4 Introduction
BioBERT (Lee et al., 2019) 5 Introduction
・Data: MIMIC-III v1.4データベースの約200万件の臨床テキスト ・Train: 2種 ・全てのノートタイプのテキストを使用 ・ダウンストリームタスクを考慮、退院サマリーのみを使用 ・Model: 2種 1)Clinical BERT: BERTBaseを初期化し学習 2)Clinical BioBERT: BioBERTから初期化し学習
・計算コスト: GeForce GTX TITAN X 12 GB で約18日 6 Method
・5つのタスクで評価 MedNLI: 自然言語推論タスク 4つのi2b2のNERタスク 2006: 1B 匿名化タスク 2010: 概念抽出タスク 2012: エンティティ抽出チャレンジ 2014: 7A 匿名化チャレンジ ・最近傍の単語を確認 7 Tasks
8 Tasks
9 Results & Discussions
10 Results & Discussions 3つのタスクで精度向上
11 Results & Discussions 匿名化タスクでは改善なし
BioBERTおよびClinical BERTの3つのカテゴリからの3つの最近傍単語 12 Results & Discussions
BioBERTおよびClinical BERTの3つのカテゴリからの3つの最近傍単語 13 Results & Discussions BioBERT: 臨床テキストに関連するのは1つのみ Clinical BERT:
3つ全ての単語が臨床の文脈
・埋め込みの上にこれ以上の高度なモデルアーキテクチャを試していない 精度向上の余地がある ・MIMICには単一医療機関(BIDMC)の集中治療室のメモのみが含まれる 施設間で診療慣行の違いがある 複数の施設のメモを使用することで精度向上の可能性 ・調査したいずれの匿名化タスクも改善されていない 匿名化タスク用に適したコーパスを使用することで解決する可能性 14 Limitations &
Future Work
・臨床テキストでBERTモデルを学習し調査 ・Clinical BERTは匿名化以外の3つのタスクで精度向上 ・臨床分野テキストでの学習済BERTモデルを公開 臨床分野では他にない 訓練に必要な膨大な計算コストを回避可能 15 Conclusion
Appendix 16