- 文献紹介 2019 Aug 28 -Medical Word Embeddings for Spanish: Development and Evaluation長岡技術科学大学自然言語処理研究室多田太郎
View Slide
About the paper2Authors:Conference:Proceedings of the 2nd Clinical Natural Language ProcessingWorkshop(NAACLのワークショップ)
Abstract・医療および臨床NLPでは、単語分散表現がNERや分類など有効なリソース・スペイン語での医療ドメインの単語埋め込みについて学習・評価・生物医学ドメインのスペイン語での単語埋め込みの作成と評価にほとんど注意が払われていない・英語のデータ・セットをスペイン語で活用3
Material and Methods4・分散表現手法:FastText・学習コーパス:1. SciELOデータベース(論文の本文とアブストラクト、スペイン語の地域は不問)2. Wikipedia(健康、薬理学、薬局、医学、生物学のカテゴリー)
Evaluation -Intrinsic-5・生物医学分野で利用できる標準的なスペイン語のデータセットはない・学習した埋め込みの評価のため、英語のデータ・セットをスペイン語に適用使用するデータ・セット:UMNSRSの類似性(UMNSRS-sim)および関連性(UMNSRS-rel)タスク統合医学言語システム(UMLS)のコンセプトペアで構成されるデータセット(英語)類似性と関連性について人手で注釈が付けられているUMNSRSsim:566ペア、UMNSRS-rel:587ペアのコンセプトMayoSRS:類似性評価に使用101個のUMLSペアとそれぞれの人手でつけたスコアで構成
Evaluation61.Google翻訳でスペイン語に翻訳多義性と翻訳のエラーをチェック2.UMLSの既に使用可能な翻訳を参照し、翻訳された用語を正規化。(人手)最終的な用語のペアUMNSRS-rel:384、オリジナルの65.41%UMNSRS-sim:380、オリジナルの67.14%(国や地域に依存する薬品は除いた)
Evaluation7Baseline Word Embedding:チリ大学NLPグループ(DCC Uchile)から入手可能な埋め込みを使用学習データ:SBWC(Spanish Billion Word Corpus)コーパスサイズ: 約1.4 億語一般ドメイン学習方法は本論文の学習モデルと同様
Experiments and Results -Intrinsic-8・翻訳された各ペアが学習したモデルの語彙に存在するかチェック→公平な比較のため・複数単語による用語については、個々の単語ベクトルの平均を使用・各翻訳済みデータセットの比較ペアの最終数: UMNSRS-sim(322)、UMNSRSrel(252)、MayoSRS(101)・各ペアのコサイン距離を計算、人手のアノテーションとのピアソン相関係数(ρ)
9Experiments and Results -Intrinsic-
Evaluation -Extrinsic-10Data:スペインの臨床症例コーパス(SPACCC)・スペインのオープンアクセスの医学出版物の臨床症例セクション・1000の臨床症例のコレクション、16504の文、396,988語・生物医学文献と医学文献、および臨床記録がある・臨床症例は腫瘍学、泌尿器科、循環器学、感染症など医学分野が限定されない・Shered Task に使用されているSoftware:NeuroNERを使用・NERシステム・LSTM
Experiments and Results -Extrinsic-11・コーパスには4つのエンティティラベルが付与:タンパク質、正規化可能な化学物質、正規化できない化学物質、不明な言及・正規化できない化学物質についての言及の数 →非常に少ない評価には含めない
12・大規模な一般ドメインのモデルよりも高精度を達成Experiments and Results-Extrinsic-
Experiments and Results -Visual Evaluation-13
Experiments and Results -Visual Evaluation-14
Discussion and Conclusion15・スペイン語の生物医学ドメインの単語埋め込みについて学習・評価・本論文の埋め込みは、一般ドメインの大規模コーパスよりも優れた性能を達成・ドメイン内コーパスでトレーニングされたものがより明確に単語のマッピングできる・スペイン語の医療ドメインの学習済みモデルを公開・英語のデータ・セットをスペイン語で活用