$30 off During Our Annual Pro Sale. View Details »

文献紹介_201912_Publicly Available Clinical BERT Embeddings

T.Tada
December 16, 2019

文献紹介_201912_Publicly Available Clinical BERT Embeddings

T.Tada

December 16, 2019
Tweet

More Decks by T.Tada

Other Decks in Technology

Transcript

  1. - 文献紹介 2019 Dec. 16 - Publicly Available Clinical BERT

    Embeddings 長岡技術科学大学
 自然言語処理研究室
 多田太郎

  2. About the paper 2 Authors: Conference:  

  3. ・文脈を考慮した単語埋め込みモデル(ELMoやBERTなど)は、特定分野では 限定的にしか検討されていない ・臨床テキスト用のBERTモデルを調査および公開  一般的な臨床テキスト向けと退院サマリー向け ・提案モデルは、3つの臨床分野NLPタスクで精度高 3 Abstract

  4. ・ELMoやBERTなどの文脈を考慮した埋め込み表現はNLPで成功 ・臨床テキストは、一般テキストや非臨床的な生物医学テキストと異なる  臨床分野のBERTモデルの必要性 ・しかし、計算コストが膨大  学習済みモデルを構築し、公開 4 Introduction

  5. BioBERT (Lee et al., 2019) 5 Introduction

  6. ・Data: MIMIC-III v1.4データベースの約200万件の臨床テキスト ・Train: 2種  ・全てのノートタイプのテキストを使用  ・ダウンストリームタスクを考慮、退院サマリーのみを使用 ・Model: 2種  1)Clinical BERT: BERTBaseを初期化し学習  2)Clinical BioBERT: BioBERTから初期化し学習

    ・計算コスト: GeForce GTX TITAN X 12 GB で約18日 6 Method
  7. ・5つのタスクで評価   MedNLI: 自然言語推論タスク   4つのi2b2のNERタスク    2006: 1B 匿名化タスク    2010: 概念抽出タスク    2012: エンティティ抽出チャレンジ    2014: 7A 匿名化チャレンジ ・最近傍の単語を確認 7 Tasks

  8. 8 Tasks

  9. 9 Results & Discussions

  10. 10 Results & Discussions 3つのタスクで精度向上

  11. 11 Results & Discussions 匿名化タスクでは改善なし

  12. BioBERTおよびClinical BERTの3つのカテゴリからの3つの最近傍単語 12 Results & Discussions

  13. BioBERTおよびClinical BERTの3つのカテゴリからの3つの最近傍単語 13 Results & Discussions BioBERT:  臨床テキストに関連するのは1つのみ Clinical BERT:

     3つ全ての単語が臨床の文脈
  14. ・埋め込みの上にこれ以上の高度なモデルアーキテクチャを試していない  精度向上の余地がある ・MIMICには単一医療機関(BIDMC)の集中治療室のメモのみが含まれる  施設間で診療慣行の違いがある  複数の施設のメモを使用することで精度向上の可能性 ・調査したいずれの匿名化タスクも改善されていない  匿名化タスク用に適したコーパスを使用することで解決する可能性 14 Limitations &

    Future Work
  15. ・臨床テキストでBERTモデルを学習し調査 ・Clinical BERTは匿名化以外の3つのタスクで精度向上 ・臨床分野テキストでの学習済BERTモデルを公開  臨床分野では他にない  訓練に必要な膨大な計算コストを回避可能 15 Conclusion

  16. Appendix 16