$30 off During Our Annual Pro Sale. View Details »

文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation

T.Tada
August 28, 2019

文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation

T.Tada

August 28, 2019
Tweet

More Decks by T.Tada

Other Decks in Technology

Transcript

  1. - 文献紹介 2019 Aug 28 -
    Medical Word Embeddings for Spanish: Development and Evaluation
    長岡技術科学大学
    自然言語処理研究室
    多田太郎

    View Slide

  2. About the paper
    2
    Authors:
    Conference:
    Proceedings of the 2nd Clinical Natural Language Processing
    Workshop
    (NAACLのワークショップ)

    View Slide

  3. Abstract
    ・医療および臨床NLPでは、単語分散表現がNERや分類など有効なリソース
    ・スペイン語での医療ドメインの単語埋め込みについて学習・評価
    ・生物医学ドメインのスペイン語での単語埋め込みの作成と評価にほとんど注意が払わ
    れていない
    ・英語のデータ・セットをスペイン語で活用
    3

    View Slide

  4. Material and Methods
    4
    ・分散表現手法:FastText
    ・学習コーパス:
    1. SciELOデータベース(論文の本文とアブストラクト、スペイン語の地域は不問)
    2. Wikipedia(健康、薬理学、薬局、医学、生物学のカテゴリー)

    View Slide

  5. Evaluation -Intrinsic-
    5
    ・生物医学分野で利用できる標準的なスペイン語のデータセットはない
    ・学習した埋め込みの評価のため、英語のデータ・セットをスペイン語に適用
    使用するデータ・セット:
    UMNSRSの類似性(UMNSRS-sim)および関連性(UMNSRS-rel)タスク
    統合医学言語システム(UMLS)のコンセプトペアで構成されるデータセット(英語)
    類似性と関連性について人手で注釈が付けられている
    UMNSRSsim:566ペア、UMNSRS-rel:587ペアのコンセプト
    MayoSRS:
    類似性評価に使用
    101個のUMLSペアとそれぞれの人手でつけたスコアで構成

    View Slide

  6. Evaluation
    6
    1.Google翻訳でスペイン語に翻訳
    多義性と翻訳のエラーをチェック
    2.UMLSの既に使用可能な翻訳を参照し、
    翻訳された用語を正規化。(人手)
    最終的な用語のペア
    UMNSRS-rel:384、オリジナルの65.41%
    UMNSRS-sim:380、オリジナルの67.14%
    (国や地域に依存する薬品は除いた)

    View Slide

  7. Evaluation
    7
    Baseline Word Embedding:
    チリ大学NLPグループ(DCC Uchile)から入手可能な埋め込みを使用
    学習データ:SBWC(Spanish Billion Word Corpus)
    コーパスサイズ: 約1.4 億語
    一般ドメイン
    学習方法は本論文の学習モデルと同様

    View Slide

  8. Experiments and Results -Intrinsic-
    8
    ・翻訳された各ペアが学習したモデルの語彙に存在するかチェック
    →公平な比較のため
    ・複数単語による用語については、個々の単語ベクトルの平均を使用
    ・各翻訳済みデータセットの比較ペアの最終数:
      UMNSRS-sim(322)、UMNSRSrel(252)、MayoSRS(101)
    ・各ペアのコサイン距離を計算、人手のアノテーションとのピアソン相関係数(ρ)

    View Slide

  9. 9
    Experiments and Results -Intrinsic-

    View Slide

  10. Evaluation -Extrinsic-
    10
    Data:
    スペインの臨床症例コーパス(SPACCC)
    ・スペインのオープンアクセスの医学出版物の臨床症例セクション
    ・1000の臨床症例のコレクション、16504の文、396,988語
    ・生物医学文献と医学文献、および臨床記録がある
    ・臨床症例は腫瘍学、泌尿器科、循環器学、感染症など医学分野が限定されない
    ・Shered Task に使用されている
    Software:
    NeuroNERを使用
    ・NERシステム
    ・LSTM

    View Slide

  11. Experiments and Results -Extrinsic-
    11
    ・コーパスには4つのエンティティラベルが付与:
    タンパク質、正規化可能な化学物質、正規化できない化学物質、不明な言及
    ・正規化できない化学物質についての言及の数 →非常に少ない
    評価には含めない

    View Slide

  12. 12
    ・大規模な一般ドメインのモデルよりも
    高精度を達成
    Experiments and Results
    -Extrinsic-

    View Slide

  13. Experiments and Results -Visual Evaluation-
    13

    View Slide

  14. Experiments and Results -Visual Evaluation-
    14

    View Slide

  15. Discussion and Conclusion
    15
    ・スペイン語の生物医学ドメインの単語埋め込みについて学習・評価
    ・本論文の埋め込みは、一般ドメインの大規模コーパスよりも優れた性能を達成
    ・ドメイン内コーパスでトレーニングされたものがより明確に単語のマッピングできる
    ・スペイン語の医療ドメインの学習済みモデルを公開
    ・英語のデータ・セットをスペイン語で活用

    View Slide