Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介20181211_On Learning Better Word Embeddings...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
T.Tada
December 11, 2018
Technology
110
0
Share
文献紹介20181211_On Learning Better Word Embeddings from Chinese Clinical Records: Study on Combining In-Domain and Out-Domain Data
T.Tada
December 11, 2018
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
72
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
190
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
180
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
230
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
110
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
170
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
73
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
110
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
110
Other Decks in Technology
See All in Technology
サイバーセキュリティ概論 / Introduction to Cybersecurity
ks91
PRO
0
140
最低限これだけ押さえれ大丈夫_Claude Enterprise/Team企業展開ガバナンス入門
tkikuchi
1
770
Platform engineering for developers, architects & the rest of us (AI agents)
danielbryantuk
0
180
「気づいたら仕事が終わっている」バクラクAIエージェント本番運用の裏側 / layerx-bakuraku-aie2026
yuya4
18
9.8k
【Gen-AX】20260530開催_JJUG CCC 2026 Spring
genax
0
410
AI活用を推進するために ファインディが下した、一つの小さな決断
starfish719
0
240
美味しいスイスチーズを作ろう🧀🐭
taigamikami
1
230
先取りMaven4 ~16年ぶりのメジャーアップデート、その進化とは?~
ogiwarat
0
140
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
50k
価格.comをAI駆動で全面刷新する ー 30年分の技術的負債を返し、次の30年の土台をつくる ー / AI Engineering Summit Tokyo 2026
tkyowa
46
51k
Spring AI × MCP 入門〜AIエージェントへのツール公開、境界設計から始める最小構成 〜
yuyamiyamoto
0
210
ChatworkとBPaaS 異なる特性で学んだAI機能開発の ベストプラクティス
kubell_hr
2
2.6k
Featured
See All Featured
Building the Perfect Custom Keyboard
takai
2
780
Evolving SEO for Evolving Search Engines
ryanjones
0
210
RailsConf 2023
tenderlove
30
1.5k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
150
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
410
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.3k
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
Ethics towards AI in product and experience design
skipperchong
2
300
Optimizing for Happiness
mojombo
378
71k
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
2
1.5k
Transcript
- 文献紹介 2018/12/11 - On Learning Better Word Embeddings from
Chinese Clinical Records: Study on Combining In-Domain and Out-Domain Data 長岡技術科学大学 自然言語処理研究室 多田太郎
About the thesis 2
Introduction ・単語エンベディングはバイオメディカル分野において多くの有望な結果を得ている. ・中国の臨床記録を用いた分野においては大きく遅れがある. ・中国の臨床記録から埋め込みを学習することに焦点を当てる. 3
Introduction 貢献: ・より良い学習をするためのドメイン内およびドメイン外のデータ結合方法の提案 ・追加の標準的な医学用語データセットを用いて単語エンベディングを評価する方法を提案 ・良い訓練サンプルの選択,適切な量の外部ドメインデータを収集することで質の向上を確 認 Skip-gramを用いて学習していく 4
Introduction 5
Skip-Gram Model for Learning Embeddings from Chinese Clinical Records -
Observation - ・中国の臨床記録の内容は通常簡潔であり,症状と病気は一定の相関関係を持つ. ・一般的なドメインの単語に,医学語と類似または同一の文脈語がある →単語埋め込みを作成することの障害に ・主な課題は,医学的単語と一般的なドメインの単語とをより明確に区別すること. 6
Skip-Gram Model for Learning Embeddings from Chinese Clinical Records -
Usage of Out-Domain Data - ・2つのターゲットワード間の明確な区別は,差異を示すコンテキストワードを要とする. ・ドメイン内データ(中国の臨床記録)に,ドメイン外データ(一般ドメイン中国語テキスト)を 追加することにより,中国の臨床記録からの単語エンベディングの学習を容易にすると仮 定. ・組み合わせることで,一般的なドメイン単語の文脈語の多様性を向上 →医学用語の文脈を損なう副作用はなく,より優れた埋め込みを学ぶことができる. 7
Skip-Gram Model for Learning Embeddings from Chinese Clinical Records -Learning
Process and Embedding Quality Evaluation Method - 前処理 Stanford CoreNLP tool1の最新バージョン 単語分割,句読点削除 学習 DeepLearning4J2のスキップグラムモデル 階層的SoftMax,window size 5,次元数 200 ・ドメイン外データには医学用語がないと仮定 ・中国医学概念類似性尺度(CMCSM)を用いて評価 8
Learning Process and Embedding Quality Evaluation Method 9
Experimental Data 10
Experimental Data ・スキップグラムモデルを適用してCCRDを学習し,CMCSMで評価. ・異なるサイズのデータセットの効果を評価. CCRDから5つのサブデータセットをサンプリング(80%,60%,40%,20%,10%) ・ドメイン内のデータのみを使用する場合,以下の必要がある. 可能な限り多くのトレーニングデータを収集 有益なサンプルを選択する 11
Experimental Data - result - 12
Experimental Data - result - 13 ODDをCCRDに組み込むことによって,単語エンベディングの品質が改善.
Discussion / Conclusions ・良好な単語ベクトルを学習する方法に関する既存の研究の大部分は,同じ領域内のデータ に基づいている(Chiu et al. 2016, Lai et
al. 2016) →さらなる探求は多くの面で継続される必要がある. ・ドメイン外データを用いて,中国の臨床記録からのより良い単語ベクトルを学習方法を提示. ・ 適切な量のドメイン外データを収集し,良好なトレーニングサンプルを選択することで単語ベ クトルの質の向上を確認. 14