Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_201912_Publicly Available Clinical BERT Em...
Search
T.Tada
December 16, 2019
Technology
0
160
文献紹介_201912_Publicly Available Clinical BERT Embeddings
T.Tada
December 16, 2019
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
62
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
160
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
210
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
100
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
150
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
63
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
95
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
95
文献紹介201905_Context-Aware Cross-Lingual Mapping
tad
0
96
Other Decks in Technology
See All in Technology
Function Body Macros で、SwiftUI の View に Accessibility Identifier を自動付与する/Function Body Macros: Autogenerate accessibility identifiers for SwiftUI Views
miichan
2
180
下手な強制、ダメ!絶対! 「ガードレール」を「檻」にさせない"ガバナンス"の取り方とは?
tsukaman
2
440
企業の生成AIガバナンスにおけるエージェントとセキュリティ
lycorptech_jp
PRO
2
160
オブザーバビリティが広げる AIOps の世界 / The World of AIOps Expanded by Observability
aoto
PRO
0
370
サラリーマンの小遣いで作るtoCサービス - Cloudflare Workersでスケールする開発戦略
shinaps
2
440
S3アクセス制御の設計ポイント
tommy0124
3
200
今!ソフトウェアエンジニアがハードウェアに手を出すには
mackee
12
4.7k
20250903_1つのAWSアカウントに複数システムがある環境におけるアクセス制御をABACで実現.pdf
yhana
3
550
La gouvernance territoriale des données grâce à la plateforme Terreze
bluehats
0
170
スマートファクトリーの第一歩 〜AWSマネージドサービスで 実現する予知保全と生成AI活用まで
ganota
2
210
EncryptedSharedPreferences が deprecated になっちゃった!どうしよう! / Oh no! EncryptedSharedPreferences has been deprecated! What should I do?
yanzm
0
270
Terraformで構築する セルフサービス型データプラットフォーム / terraform-self-service-data-platform
pei0804
1
170
Featured
See All Featured
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
We Have a Design System, Now What?
morganepeng
53
7.8k
Imperfection Machines: The Place of Print at Facebook
scottboms
268
13k
Balancing Empowerment & Direction
lara
3
620
Building Adaptive Systems
keathley
43
2.7k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.4k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
18
1.1k
The Pragmatic Product Professional
lauravandoore
36
6.9k
Fireside Chat
paigeccino
39
3.6k
Intergalactic Javascript Robots from Outer Space
tanoku
272
27k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
358
30k
How to train your dragon (web standard)
notwaldorf
96
6.2k
Transcript
- 文献紹介 2019 Dec. 16 - Publicly Available Clinical BERT
Embeddings 長岡技術科学大学 自然言語処理研究室 多田太郎
About the paper 2 Authors: Conference:
・文脈を考慮した単語埋め込みモデル(ELMoやBERTなど)は、特定分野では 限定的にしか検討されていない ・臨床テキスト用のBERTモデルを調査および公開 一般的な臨床テキスト向けと退院サマリー向け ・提案モデルは、3つの臨床分野NLPタスクで精度高 3 Abstract
・ELMoやBERTなどの文脈を考慮した埋め込み表現はNLPで成功 ・臨床テキストは、一般テキストや非臨床的な生物医学テキストと異なる 臨床分野のBERTモデルの必要性 ・しかし、計算コストが膨大 学習済みモデルを構築し、公開 4 Introduction
BioBERT (Lee et al., 2019) 5 Introduction
・Data: MIMIC-III v1.4データベースの約200万件の臨床テキスト ・Train: 2種 ・全てのノートタイプのテキストを使用 ・ダウンストリームタスクを考慮、退院サマリーのみを使用 ・Model: 2種 1)Clinical BERT: BERTBaseを初期化し学習 2)Clinical BioBERT: BioBERTから初期化し学習
・計算コスト: GeForce GTX TITAN X 12 GB で約18日 6 Method
・5つのタスクで評価 MedNLI: 自然言語推論タスク 4つのi2b2のNERタスク 2006: 1B 匿名化タスク 2010: 概念抽出タスク 2012: エンティティ抽出チャレンジ 2014: 7A 匿名化チャレンジ ・最近傍の単語を確認 7 Tasks
8 Tasks
9 Results & Discussions
10 Results & Discussions 3つのタスクで精度向上
11 Results & Discussions 匿名化タスクでは改善なし
BioBERTおよびClinical BERTの3つのカテゴリからの3つの最近傍単語 12 Results & Discussions
BioBERTおよびClinical BERTの3つのカテゴリからの3つの最近傍単語 13 Results & Discussions BioBERT: 臨床テキストに関連するのは1つのみ Clinical BERT:
3つ全ての単語が臨床の文脈
・埋め込みの上にこれ以上の高度なモデルアーキテクチャを試していない 精度向上の余地がある ・MIMICには単一医療機関(BIDMC)の集中治療室のメモのみが含まれる 施設間で診療慣行の違いがある 複数の施設のメモを使用することで精度向上の可能性 ・調査したいずれの匿名化タスクも改善されていない 匿名化タスク用に適したコーパスを使用することで解決する可能性 14 Limitations &
Future Work
・臨床テキストでBERTモデルを学習し調査 ・Clinical BERTは匿名化以外の3つのタスクで精度向上 ・臨床分野テキストでの学習済BERTモデルを公開 臨床分野では他にない 訓練に必要な膨大な計算コストを回避可能 15 Conclusion
Appendix 16