文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation

- 文献紹介 2019 Aug 28 - Medical Word Embeddings for
Spanish: Development and Evaluation 長岡技術科学大学自然言語処理研究室多田太郎

About the paper 2 Authors： Conference： Proceedings of the 2nd
Clinical Natural Language Processing Workshop （NAACLのワークショップ）

Abstract ・医療および臨床NLPでは、単語分散表現がNERや分類など有効なリソース・スペイン語での医療ドメインの単語埋め込みについて学習・評価・生物医学ドメインのスペイン語での単語埋め込みの作成と評価にほとんど注意が払われていない・英語のデータ・セットをスペイン語で活用 3

Material and Methods 4 ・分散表現手法：FastText ・学習コーパス： 1. SciELOデータベース（論文の本文とアブストラクト、スペイン語の地域は不問） 2. Wikipedia（健康、薬理学、薬局、医学、生物学のカテゴリー）

Evaluation -Intrinsic- 5 ・生物医学分野で利用できる標準的なスペイン語のデータセットはない・学習した埋め込みの評価のため、英語のデータ・セットをスペイン語に適用使用するデータ・セット： UMNSRSの類似性（UMNSRS-sim）および関連性（UMNSRS-rel）タスク統合医学言語システム（UMLS）のコンセプトペアで構成されるデータセット（英語）類似性と関連性について人手で注釈が付けられている UMNSRSsim：566ペア、UMNSRS-rel：587ペアのコンセプト
MayoSRS：類似性評価に使用 101個のUMLSペアとそれぞれの人手でつけたスコアで構成

Evaluation 6 1.Google翻訳でスペイン語に翻訳多義性と翻訳のエラーをチェック 2.UMLSの既に使用可能な翻訳を参照し、翻訳された用語を正規化。（人手）最終的な用語のペア UMNSRS-rel：384、オリジナルの65.41％ UMNSRS-sim：380、オリジナルの67.14％（国や地域に依存する薬品は除いた）

Evaluation 7 Baseline Word Embedding：チリ大学NLPグループ（DCC Uchile）から入手可能な埋め込みを使用学習データ：SBWC（Spanish Billion Word
Corpus）コーパスサイズ: 約1.4 億語一般ドメイン学習方法は本論文の学習モデルと同様

Experiments and Results -Intrinsic- 8 ・翻訳された各ペアが学習したモデルの語彙に存在するかチェック →公平な比較のため・複数単語による用語については、個々の単語ベクトルの平均を使用・各翻訳済みデータセットの比較ペアの最終数：　
UMNSRS-sim（322）、UMNSRSrel（252）、MayoSRS（101）・各ペアのコサイン距離を計算、人手のアノテーションとのピアソン相関係数（ρ）

9 Experiments and Results -Intrinsic-

Evaluation -Extrinsic- 10 Data：スペインの臨床症例コーパス（SPACCC）・スペインのオープンアクセスの医学出版物の臨床症例セクション・1000の臨床症例のコレクション、16504の文、396,988語・生物医学文献と医学文献、および臨床記録がある・臨床症例は腫瘍学、泌尿器科、循環器学、感染症など医学分野が限定されない・Shered
Task に使用されている Software： NeuroNERを使用・NERシステム・LSTM

Experiments and Results -Extrinsic- 11 ・コーパスには4つのエンティティラベルが付与：タンパク質、正規化可能な化学物質、正規化できない化学物質、不明な言及・正規化できない化学物質についての言及の数　→非常に少ない評価には含めない

12 ・大規模な一般ドメインのモデルよりも高精度を達成 Experiments and Results -Extrinsic-

Experiments and Results -Visual Evaluation- 13

Experiments and Results -Visual Evaluation- 14

Discussion and Conclusion 15 ・スペイン語の生物医学ドメインの単語埋め込みについて学習・評価・本論文の埋め込みは、一般ドメインの大規模コーパスよりも優れた性能を達成・ドメイン内コーパスでトレーニングされたものがより明確に単語のマッピングできる・スペイン語の医療ドメインの学習済みモデルを公開・英語のデータ・セットをスペイン語で活用

文献紹介_201908_Medical Word Embeddings for Spanish...

文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation

T.Tada

More Decks by T.Tada

Other Decks in Technology

Featured

Transcript

- 文献紹介 2019 Aug 28 - Medical Word Embeddings for

About the paper 2 Authors： Conference： Proceedings of the 2nd

Material and Methods 4 ・分散表現手法：FastText ・学習コーパス： 1. SciELOデータベース（論文の本文とアブストラクト、スペイン語の地域は不問） 2. Wikipedia（健康、薬理学、薬局、医学、生物学のカテゴリー）

Evaluation 7 Baseline Word Embedding：チリ大学NLPグループ（DCC Uchile）から入手可能な埋め込みを使用学習データ：SBWC（Spanish Billion Word

9 Experiments and Results -Intrinsic-

12 ・大規模な一般ドメインのモデルよりも高精度を達成 Experiments and Results -Extrinsic-

Experiments and Results -Visual Evaluation- 13

Experiments and Results -Visual Evaluation- 14