文献紹介_201912_Publicly Available Clinical BERT Embeddings

- 文献紹介 2019 Dec. 16 - Publicly Available Clinical BERT
Embeddings 長岡技術科学大学  自然言語処理研究室  多田太郎 

About the paper 2 Authors： Conference：　

・文脈を考慮した単語埋め込みモデル(ELMoやBERTなど)は、特定分野では限定的にしか検討されていない・臨床テキスト用のBERTモデルを調査および公開　一般的な臨床テキスト向けと退院サマリー向け・提案モデルは、3つの臨床分野NLPタスクで精度高 3 Abstract

・ELMoやBERTなどの文脈を考慮した埋め込み表現はNLPで成功・臨床テキストは、一般テキストや非臨床的な生物医学テキストと異なる　臨床分野のBERTモデルの必要性・しかし、計算コストが膨大　学習済みモデルを構築し、公開 4 Introduction

BioBERT (Lee et al., 2019) 5 Introduction

・Data：　MIMIC-III v1.4データベースの約200万件の臨床テキスト・Train：　2種　・全てのノートタイプのテキストを使用　・ダウンストリームタスクを考慮、退院サマリーのみを使用・Model：　2種　1）Clinical BERT：　BERTBaseを初期化し学習　2）Clinical BioBERT：　BioBERTから初期化し学習
・計算コスト：　GeForce GTX TITAN X 12 GB　で約18日 6 Method

・５つのタスクで評価　　MedNLI：　自然言語推論タスク　　4つのi2b2のNERタスク　　　2006：　1B　匿名化タスク　　　2010：　概念抽出タスク　　　2012：　エンティティ抽出チャレンジ　　　2014：　7A　匿名化チャレンジ・最近傍の単語を確認 7 Tasks

8 Tasks

9 Results & Discussions

10 Results & Discussions ３つのタスクで精度向上

11 Results & Discussions 匿名化タスクでは改善なし

BioBERTおよびClinical BERTの3つのカテゴリからの3つの最近傍単語 12 Results & Discussions

BioBERTおよびClinical BERTの3つのカテゴリからの3つの最近傍単語 13 Results & Discussions BioBERT：　臨床テキストに関連するのは1つのみ Clinical BERT：
　３つ全ての単語が臨床の文脈

・埋め込みの上にこれ以上の高度なモデルアーキテクチャを試していない　精度向上の余地がある・MIMICには単一医療機関（BIDMC）の集中治療室のメモのみが含まれる　施設間で診療慣行の違いがある　複数の施設のメモを使用することで精度向上の可能性・調査したいずれの匿名化タスクも改善されていない　匿名化タスク用に適したコーパスを使用することで解決する可能性 14 Limitations &
Future Work

・臨床テキストでBERTモデルを学習し調査・Clinical BERTは匿名化以外の3つのタスクで精度向上・臨床分野テキストでの学習済BERTモデルを公開　臨床分野では他にない　訓練に必要な膨大な計算コストを回避可能 15 Conclusion

Appendix 16

文献紹介_201912_Publicly Available Clinical BERT Em...

文献紹介_201912_Publicly Available Clinical BERT Embeddings

T.Tada

More Decks by T.Tada

Other Decks in Technology

Featured

Transcript

- 文献紹介 2019 Dec. 16 - Publicly Available Clinical BERT