Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介20181211_On Learning Better Word Embeddings...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
T.Tada
December 11, 2018
Technology
110
0
Share
文献紹介20181211_On Learning Better Word Embeddings from Chinese Clinical Records: Study on Combining In-Domain and Out-Domain Data
T.Tada
December 11, 2018
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
67
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
180
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
170
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
220
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
110
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
160
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
70
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
110
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
100
Other Decks in Technology
See All in Technology
Proxmox超入門
devops_vtj
0
160
AIドリブン開発の実践知 ― AI-DLC Unicorn Gym実施から見えた可能性と課題
mixi_engineers
PRO
0
120
生成AI時代のエンジニア育成 変わる時代と変わらないコト
starfish719
0
470
AI前提とはどういうことか
daisuketakeda
0
170
NgRx SignalStore: The Power of Extensibility
rainerhahnekamp
0
180
システムは「動く」だけでは 足りない - 非機能要件・分散システム・トレードオフの基礎
nwiizo
25
7.8k
Cortex Code君、今日から内製化支援担当ね。
coco_se
0
320
Strands Agents × Amazon Bedrock AgentCoreで パーソナルAIエージェントを作ろう
yokomachi
2
260
デシリアライゼーションを理解する / Inside Deserialization
tomzoh
0
230
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
2.2k
今年60歳のおっさんCBになる
kentapapa
1
360
DevOpsDays2026 Tokyo Cross-border practices to connect "safety" and "DX" in healthcare
hokkai7go
0
110
Featured
See All Featured
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
9.9k
WENDY [Excerpt]
tessaabrams
9
37k
The Invisible Side of Design
smashingmag
302
51k
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
430
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
670
The Spectacular Lies of Maps
axbom
PRO
1
680
Amusing Abliteration
ianozsvald
1
150
Writing Fast Ruby
sferik
630
63k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.4k
Skip the Path - Find Your Career Trail
mkilby
1
100
Transcript
- 文献紹介 2018/12/11 - On Learning Better Word Embeddings from
Chinese Clinical Records: Study on Combining In-Domain and Out-Domain Data 長岡技術科学大学 自然言語処理研究室 多田太郎
About the thesis 2
Introduction ・単語エンベディングはバイオメディカル分野において多くの有望な結果を得ている. ・中国の臨床記録を用いた分野においては大きく遅れがある. ・中国の臨床記録から埋め込みを学習することに焦点を当てる. 3
Introduction 貢献: ・より良い学習をするためのドメイン内およびドメイン外のデータ結合方法の提案 ・追加の標準的な医学用語データセットを用いて単語エンベディングを評価する方法を提案 ・良い訓練サンプルの選択,適切な量の外部ドメインデータを収集することで質の向上を確 認 Skip-gramを用いて学習していく 4
Introduction 5
Skip-Gram Model for Learning Embeddings from Chinese Clinical Records -
Observation - ・中国の臨床記録の内容は通常簡潔であり,症状と病気は一定の相関関係を持つ. ・一般的なドメインの単語に,医学語と類似または同一の文脈語がある →単語埋め込みを作成することの障害に ・主な課題は,医学的単語と一般的なドメインの単語とをより明確に区別すること. 6
Skip-Gram Model for Learning Embeddings from Chinese Clinical Records -
Usage of Out-Domain Data - ・2つのターゲットワード間の明確な区別は,差異を示すコンテキストワードを要とする. ・ドメイン内データ(中国の臨床記録)に,ドメイン外データ(一般ドメイン中国語テキスト)を 追加することにより,中国の臨床記録からの単語エンベディングの学習を容易にすると仮 定. ・組み合わせることで,一般的なドメイン単語の文脈語の多様性を向上 →医学用語の文脈を損なう副作用はなく,より優れた埋め込みを学ぶことができる. 7
Skip-Gram Model for Learning Embeddings from Chinese Clinical Records -Learning
Process and Embedding Quality Evaluation Method - 前処理 Stanford CoreNLP tool1の最新バージョン 単語分割,句読点削除 学習 DeepLearning4J2のスキップグラムモデル 階層的SoftMax,window size 5,次元数 200 ・ドメイン外データには医学用語がないと仮定 ・中国医学概念類似性尺度(CMCSM)を用いて評価 8
Learning Process and Embedding Quality Evaluation Method 9
Experimental Data 10
Experimental Data ・スキップグラムモデルを適用してCCRDを学習し,CMCSMで評価. ・異なるサイズのデータセットの効果を評価. CCRDから5つのサブデータセットをサンプリング(80%,60%,40%,20%,10%) ・ドメイン内のデータのみを使用する場合,以下の必要がある. 可能な限り多くのトレーニングデータを収集 有益なサンプルを選択する 11
Experimental Data - result - 12
Experimental Data - result - 13 ODDをCCRDに組み込むことによって,単語エンベディングの品質が改善.
Discussion / Conclusions ・良好な単語ベクトルを学習する方法に関する既存の研究の大部分は,同じ領域内のデータ に基づいている(Chiu et al. 2016, Lai et
al. 2016) →さらなる探求は多くの面で継続される必要がある. ・ドメイン外データを用いて,中国の臨床記録からのより良い単語ベクトルを学習方法を提示. ・ 適切な量のドメイン外データを収集し,良好なトレーニングサンプルを選択することで単語ベ クトルの質の向上を確認. 14