Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介20181211_On Learning Better Word Embeddings...
Search
T.Tada
December 11, 2018
Technology
0
110
文献紹介20181211_On Learning Better Word Embeddings from Chinese Clinical Records: Study on Combining In-Domain and Out-Domain Data
T.Tada
December 11, 2018
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
63
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
170
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
170
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
220
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
100
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
160
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
65
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
100
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
97
Other Decks in Technology
See All in Technology
AIBuildersDay_track_A_iidaxs
iidaxs
4
1.7k
AWSに革命を起こすかもしれない新サービス・アップデートについてのお話
yama3133
0
540
AI との良い付き合い方を僕らは誰も知らない
asei
1
320
戰略轉變:從建構 AI 代理人到發展可擴展的技能生態系統
appleboy
0
170
「駆動」って言葉、なんかカッコイイ_Mitz
comucal
PRO
0
130
コールドスタンバイ構成でCDは可能か
hiramax
0
130
Claude Codeを使った情報整理術
knishioka
15
11k
Oracle Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
2
590
AWSの新機能をフル活用した「re:Inventエージェント」開発秘話
minorun365
2
530
2025年の医用画像AI/AI×medical_imaging_in_2025_generated_by_AI
tdys13
0
260
AI時代のアジャイルチームを目指して ー スクラムというコンフォートゾーンからの脱却 ー / Toward Agile Teams in the Age of AI
takaking22
0
260
自己管理型チームと個人のセルフマネジメント 〜モチベーション編〜
kakehashi
PRO
2
350
Featured
See All Featured
YesSQL, Process and Tooling at Scale
rocio
174
15k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Facilitating Awesome Meetings
lara
57
6.7k
sira's awesome portfolio website redesign presentation
elsirapls
0
99
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
Speed Design
sergeychernyshev
33
1.5k
Navigating Weather and Climate Data
rabernat
0
60
Are puppies a ranking factor?
jonoalderson
0
2.6k
[SF Ruby Conf 2025] Rails X
palkan
0
660
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.7k
The Curse of the Amulet
leimatthew05
0
6.5k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
730
Transcript
- 文献紹介 2018/12/11 - On Learning Better Word Embeddings from
Chinese Clinical Records: Study on Combining In-Domain and Out-Domain Data 長岡技術科学大学 自然言語処理研究室 多田太郎
About the thesis 2
Introduction ・単語エンベディングはバイオメディカル分野において多くの有望な結果を得ている. ・中国の臨床記録を用いた分野においては大きく遅れがある. ・中国の臨床記録から埋め込みを学習することに焦点を当てる. 3
Introduction 貢献: ・より良い学習をするためのドメイン内およびドメイン外のデータ結合方法の提案 ・追加の標準的な医学用語データセットを用いて単語エンベディングを評価する方法を提案 ・良い訓練サンプルの選択,適切な量の外部ドメインデータを収集することで質の向上を確 認 Skip-gramを用いて学習していく 4
Introduction 5
Skip-Gram Model for Learning Embeddings from Chinese Clinical Records -
Observation - ・中国の臨床記録の内容は通常簡潔であり,症状と病気は一定の相関関係を持つ. ・一般的なドメインの単語に,医学語と類似または同一の文脈語がある →単語埋め込みを作成することの障害に ・主な課題は,医学的単語と一般的なドメインの単語とをより明確に区別すること. 6
Skip-Gram Model for Learning Embeddings from Chinese Clinical Records -
Usage of Out-Domain Data - ・2つのターゲットワード間の明確な区別は,差異を示すコンテキストワードを要とする. ・ドメイン内データ(中国の臨床記録)に,ドメイン外データ(一般ドメイン中国語テキスト)を 追加することにより,中国の臨床記録からの単語エンベディングの学習を容易にすると仮 定. ・組み合わせることで,一般的なドメイン単語の文脈語の多様性を向上 →医学用語の文脈を損なう副作用はなく,より優れた埋め込みを学ぶことができる. 7
Skip-Gram Model for Learning Embeddings from Chinese Clinical Records -Learning
Process and Embedding Quality Evaluation Method - 前処理 Stanford CoreNLP tool1の最新バージョン 単語分割,句読点削除 学習 DeepLearning4J2のスキップグラムモデル 階層的SoftMax,window size 5,次元数 200 ・ドメイン外データには医学用語がないと仮定 ・中国医学概念類似性尺度(CMCSM)を用いて評価 8
Learning Process and Embedding Quality Evaluation Method 9
Experimental Data 10
Experimental Data ・スキップグラムモデルを適用してCCRDを学習し,CMCSMで評価. ・異なるサイズのデータセットの効果を評価. CCRDから5つのサブデータセットをサンプリング(80%,60%,40%,20%,10%) ・ドメイン内のデータのみを使用する場合,以下の必要がある. 可能な限り多くのトレーニングデータを収集 有益なサンプルを選択する 11
Experimental Data - result - 12
Experimental Data - result - 13 ODDをCCRDに組み込むことによって,単語エンベディングの品質が改善.
Discussion / Conclusions ・良好な単語ベクトルを学習する方法に関する既存の研究の大部分は,同じ領域内のデータ に基づいている(Chiu et al. 2016, Lai et
al. 2016) →さらなる探求は多くの面で継続される必要がある. ・ドメイン外データを用いて,中国の臨床記録からのより良い単語ベクトルを学習方法を提示. ・ 適切な量のドメイン外データを収集し,良好なトレーニングサンプルを選択することで単語ベ クトルの質の向上を確認. 14