Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_201908_Medical Word Embeddings for Spanish...
Search
T.Tada
August 28, 2019
Technology
0
65
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
T.Tada
August 28, 2019
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
63
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
170
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
170
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
220
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
100
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
150
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
100
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
97
文献紹介201905_Context-Aware Cross-Lingual Mapping
tad
0
97
Other Decks in Technology
See All in Technology
エンジニアとPMのドメイン知識の溝をなくす、 AIネイティブな開発プロセス
applism118
4
1.2k
非CUDAの悲哀 〜Claude Code と挑んだ image to 3D “Hunyuan3D”を EVO-X2(Ryzen AI Max+395)で動作させるチャレンジ〜
hawkymisc
1
170
AWSを使う上で最低限知っておきたいセキュリティ研修を社内で実施した話 ~みんなでやるセキュリティ~
maimyyym
2
330
AWS Trainium3 をちょっと身近に感じたい
bigmuramura
1
140
打 造 A I 驅 動 的 G i t H u b ⾃ 動 化 ⼯ 作 流 程
appleboy
0
290
Lambdaの常識はどう変わる?!re:Invent 2025 before after
iwatatomoya
1
470
CARTAのAI CoE が挑む「事業を進化させる AI エンジニアリング」 / carta ai coe evolution business ai engineering
carta_engineering
0
600
Power of Kiro : あなたの㌔はパワステ搭載ですか?
r3_yamauchi
PRO
0
100
Databricks向けJupyter Kernelでデータサイエンティストの開発環境をAI-Readyにする / Data+AI World Tour Tokyo After Party
genda
1
100
年間40件以上の登壇を続けて見えた「本当の発信力」/ 20251213 Masaki Okuda
shift_evolve
PRO
1
120
[CMU-DB-2025FALL] Apache Fluss - A Streaming Storage for Real-Time Lakehouse
jark
0
120
学習データって増やせばいいんですか?
ftakahashi
2
320
Featured
See All Featured
It's Worth the Effort
3n
187
29k
GitHub's CSS Performance
jonrohan
1032
470k
Art, The Web, and Tiny UX
lynnandtonic
303
21k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.5k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
720
Balancing Empowerment & Direction
lara
5
800
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
KATA
mclloyd
PRO
32
15k
Speed Design
sergeychernyshev
33
1.4k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.8k
Being A Developer After 40
akosma
91
590k
Transcript
- 文献紹介 2019 Aug 28 - Medical Word Embeddings for
Spanish: Development and Evaluation 長岡技術科学大学 自然言語処理研究室 多田太郎
About the paper 2 Authors: Conference: Proceedings of the 2nd
Clinical Natural Language Processing Workshop (NAACLのワークショップ)
Abstract ・医療および臨床NLPでは、単語分散表現がNERや分類など有効なリソース ・スペイン語での医療ドメインの単語埋め込みについて学習・評価 ・生物医学ドメインのスペイン語での単語埋め込みの作成と評価にほとんど注意が払わ れていない ・英語のデータ・セットをスペイン語で活用 3
Material and Methods 4 ・分散表現手法:FastText ・学習コーパス: 1. SciELOデータベース(論文の本文とアブストラクト、スペイン語の地域は不問) 2. Wikipedia(健康、薬理学、薬局、医学、生物学のカテゴリー)
Evaluation -Intrinsic- 5 ・生物医学分野で利用できる標準的なスペイン語のデータセットはない ・学習した埋め込みの評価のため、英語のデータ・セットをスペイン語に適用 使用するデータ・セット: UMNSRSの類似性(UMNSRS-sim)および関連性(UMNSRS-rel)タスク 統合医学言語システム(UMLS)のコンセプトペアで構成されるデータセット(英語) 類似性と関連性について人手で注釈が付けられている UMNSRSsim:566ペア、UMNSRS-rel:587ペアのコンセプト
MayoSRS: 類似性評価に使用 101個のUMLSペアとそれぞれの人手でつけたスコアで構成
Evaluation 6 1.Google翻訳でスペイン語に翻訳 多義性と翻訳のエラーをチェック 2.UMLSの既に使用可能な翻訳を参照し、 翻訳された用語を正規化。(人手) 最終的な用語のペア UMNSRS-rel:384、オリジナルの65.41% UMNSRS-sim:380、オリジナルの67.14% (国や地域に依存する薬品は除いた)
Evaluation 7 Baseline Word Embedding: チリ大学NLPグループ(DCC Uchile)から入手可能な埋め込みを使用 学習データ:SBWC(Spanish Billion Word
Corpus) コーパスサイズ: 約1.4 億語 一般ドメイン 学習方法は本論文の学習モデルと同様
Experiments and Results -Intrinsic- 8 ・翻訳された各ペアが学習したモデルの語彙に存在するかチェック →公平な比較のため ・複数単語による用語については、個々の単語ベクトルの平均を使用 ・各翻訳済みデータセットの比較ペアの最終数:
UMNSRS-sim(322)、UMNSRSrel(252)、MayoSRS(101) ・各ペアのコサイン距離を計算、人手のアノテーションとのピアソン相関係数(ρ)
9 Experiments and Results -Intrinsic-
Evaluation -Extrinsic- 10 Data: スペインの臨床症例コーパス(SPACCC) ・スペインのオープンアクセスの医学出版物の臨床症例セクション ・1000の臨床症例のコレクション、16504の文、396,988語 ・生物医学文献と医学文献、および臨床記録がある ・臨床症例は腫瘍学、泌尿器科、循環器学、感染症など医学分野が限定されない ・Shered
Task に使用されている Software: NeuroNERを使用 ・NERシステム ・LSTM
Experiments and Results -Extrinsic- 11 ・コーパスには4つのエンティティラベルが付与: タンパク質、正規化可能な化学物質、正規化できない化学物質、不明な言及 ・正規化できない化学物質についての言及の数 →非常に少ない 評価には含めない
12 ・大規模な一般ドメインのモデルよりも 高精度を達成 Experiments and Results -Extrinsic-
Experiments and Results -Visual Evaluation- 13
Experiments and Results -Visual Evaluation- 14
Discussion and Conclusion 15 ・スペイン語の生物医学ドメインの単語埋め込みについて学習・評価 ・本論文の埋め込みは、一般ドメインの大規模コーパスよりも優れた性能を達成 ・ドメイン内コーパスでトレーニングされたものがより明確に単語のマッピングできる ・スペイン語の医療ドメインの学習済みモデルを公開 ・英語のデータ・セットをスペイン語で活用