Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介_201912_Publicly Available Clinical BERT Embeddings

T.Tada
December 16, 2019

文献紹介_201912_Publicly Available Clinical BERT Embeddings

T.Tada

December 16, 2019
Tweet

More Decks by T.Tada

Other Decks in Technology

Transcript

  1. - 文献紹介 2019 Dec. 16 -
    Publicly Available Clinical BERT Embeddings
    長岡技術科学大学

    自然言語処理研究室

    多田太郎


    View full-size slide

  2. About the paper
    2
    Authors:
    Conference:
     

    View full-size slide

  3. ・文脈を考慮した単語埋め込みモデル(ELMoやBERTなど)は、特定分野では
    限定的にしか検討されていない
    ・臨床テキスト用のBERTモデルを調査および公開
     一般的な臨床テキスト向けと退院サマリー向け
    ・提案モデルは、3つの臨床分野NLPタスクで精度高
    3
    Abstract

    View full-size slide

  4. ・ELMoやBERTなどの文脈を考慮した埋め込み表現はNLPで成功
    ・臨床テキストは、一般テキストや非臨床的な生物医学テキストと異なる
     臨床分野のBERTモデルの必要性
    ・しかし、計算コストが膨大
     学習済みモデルを構築し、公開
    4
    Introduction

    View full-size slide

  5. BioBERT (Lee et al., 2019)
    5
    Introduction

    View full-size slide

  6. ・Data: MIMIC-III v1.4データベースの約200万件の臨床テキスト
    ・Train: 2種
     ・全てのノートタイプのテキストを使用
     ・ダウンストリームタスクを考慮、退院サマリーのみを使用
    ・Model: 2種
     1)Clinical BERT: BERTBaseを初期化し学習
     2)Clinical BioBERT: BioBERTから初期化し学習
    ・計算コスト: GeForce GTX TITAN X 12 GB で約18日
    6
    Method

    View full-size slide

  7. ・5つのタスクで評価
      MedNLI: 自然言語推論タスク
      4つのi2b2のNERタスク
       2006: 1B 匿名化タスク
       2010: 概念抽出タスク
       2012: エンティティ抽出チャレンジ
       2014: 7A 匿名化チャレンジ
    ・最近傍の単語を確認
    7
    Tasks

    View full-size slide

  8. 9
    Results & Discussions

    View full-size slide

  9. 10
    Results & Discussions
    3つのタスクで精度向上

    View full-size slide

  10. 11
    Results & Discussions
    匿名化タスクでは改善なし

    View full-size slide

  11. BioBERTおよびClinical BERTの3つのカテゴリからの3つの最近傍単語
    12
    Results & Discussions

    View full-size slide

  12. BioBERTおよびClinical BERTの3つのカテゴリからの3つの最近傍単語
    13
    Results & Discussions
    BioBERT:
     臨床テキストに関連するのは1つのみ
    Clinical BERT:
     3つ全ての単語が臨床の文脈

    View full-size slide

  13. ・埋め込みの上にこれ以上の高度なモデルアーキテクチャを試していない
     精度向上の余地がある
    ・MIMICには単一医療機関(BIDMC)の集中治療室のメモのみが含まれる
     施設間で診療慣行の違いがある
     複数の施設のメモを使用することで精度向上の可能性
    ・調査したいずれの匿名化タスクも改善されていない
     匿名化タスク用に適したコーパスを使用することで解決する可能性
    14
    Limitations & Future Work

    View full-size slide

  14. ・臨床テキストでBERTモデルを学習し調査
    ・Clinical BERTは匿名化以外の3つのタスクで精度向上
    ・臨床分野テキストでの学習済BERTモデルを公開
     臨床分野では他にない
     訓練に必要な膨大な計算コストを回避可能
    15
    Conclusion

    View full-size slide