Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_201912_Publicly Available Clinical BERT Em...
Search
T.Tada
December 16, 2019
Technology
0
160
文献紹介_201912_Publicly Available Clinical BERT Embeddings
T.Tada
December 16, 2019
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
62
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
160
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
210
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
100
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
150
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
63
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
95
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
95
文献紹介201905_Context-Aware Cross-Lingual Mapping
tad
0
96
Other Decks in Technology
See All in Technology
自作JSエンジンに推しプロポーザルを実装したい!
sajikix
1
170
なぜSaaSがMCPサーバーをサービス提供するのか?
sansantech
PRO
8
2.8k
「何となくテストする」を卒業するためにプロダクトが動く仕組みを理解しよう
kawabeaver
0
390
La gouvernance territoriale des données grâce à la plateforme Terreze
bluehats
0
170
AIエージェント開発用SDKとローカルLLMをLINE Botと組み合わせてみた / LINEを使ったLT大会 #14
you
PRO
0
110
RSCの時代にReactとフレームワークの境界を探る
uhyo
10
3.4k
Django's GeneratedField by example - DjangoCon US 2025
pauloxnet
0
150
バイブスに「型」を!Kent Beckに学ぶ、AI時代のテスト駆動開発
amixedcolor
2
540
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
8.7k
BPaaSにおける人と協働する前提のAIエージェント-AWS登壇資料
kentarofujii
0
140
要件定義・デザインフェーズでもAIを活用して、コミュニケーションの密度を高める
kazukihayase
0
110
複数サービスを支えるマルチテナント型Batch MLプラットフォーム
lycorptech_jp
PRO
0
330
Featured
See All Featured
Testing 201, or: Great Expectations
jmmastey
45
7.7k
Done Done
chrislema
185
16k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
61k
GitHub's CSS Performance
jonrohan
1032
460k
The Cult of Friendly URLs
andyhume
79
6.6k
A Tale of Four Properties
chriscoyier
160
23k
Practical Orchestrator
shlominoach
190
11k
Imperfection Machines: The Place of Print at Facebook
scottboms
268
13k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.1k
Side Projects
sachag
455
43k
RailsConf 2023
tenderlove
30
1.2k
Transcript
- 文献紹介 2019 Dec. 16 - Publicly Available Clinical BERT
Embeddings 長岡技術科学大学 自然言語処理研究室 多田太郎
About the paper 2 Authors: Conference:
・文脈を考慮した単語埋め込みモデル(ELMoやBERTなど)は、特定分野では 限定的にしか検討されていない ・臨床テキスト用のBERTモデルを調査および公開 一般的な臨床テキスト向けと退院サマリー向け ・提案モデルは、3つの臨床分野NLPタスクで精度高 3 Abstract
・ELMoやBERTなどの文脈を考慮した埋め込み表現はNLPで成功 ・臨床テキストは、一般テキストや非臨床的な生物医学テキストと異なる 臨床分野のBERTモデルの必要性 ・しかし、計算コストが膨大 学習済みモデルを構築し、公開 4 Introduction
BioBERT (Lee et al., 2019) 5 Introduction
・Data: MIMIC-III v1.4データベースの約200万件の臨床テキスト ・Train: 2種 ・全てのノートタイプのテキストを使用 ・ダウンストリームタスクを考慮、退院サマリーのみを使用 ・Model: 2種 1)Clinical BERT: BERTBaseを初期化し学習 2)Clinical BioBERT: BioBERTから初期化し学習
・計算コスト: GeForce GTX TITAN X 12 GB で約18日 6 Method
・5つのタスクで評価 MedNLI: 自然言語推論タスク 4つのi2b2のNERタスク 2006: 1B 匿名化タスク 2010: 概念抽出タスク 2012: エンティティ抽出チャレンジ 2014: 7A 匿名化チャレンジ ・最近傍の単語を確認 7 Tasks
8 Tasks
9 Results & Discussions
10 Results & Discussions 3つのタスクで精度向上
11 Results & Discussions 匿名化タスクでは改善なし
BioBERTおよびClinical BERTの3つのカテゴリからの3つの最近傍単語 12 Results & Discussions
BioBERTおよびClinical BERTの3つのカテゴリからの3つの最近傍単語 13 Results & Discussions BioBERT: 臨床テキストに関連するのは1つのみ Clinical BERT:
3つ全ての単語が臨床の文脈
・埋め込みの上にこれ以上の高度なモデルアーキテクチャを試していない 精度向上の余地がある ・MIMICには単一医療機関(BIDMC)の集中治療室のメモのみが含まれる 施設間で診療慣行の違いがある 複数の施設のメモを使用することで精度向上の可能性 ・調査したいずれの匿名化タスクも改善されていない 匿名化タスク用に適したコーパスを使用することで解決する可能性 14 Limitations &
Future Work
・臨床テキストでBERTモデルを学習し調査 ・Clinical BERTは匿名化以外の3つのタスクで精度向上 ・臨床分野テキストでの学習済BERTモデルを公開 臨床分野では他にない 訓練に必要な膨大な計算コストを回避可能 15 Conclusion
Appendix 16