文献紹介20181211_On Learning Better Word Embeddings from Chinese Clinical Records: Study on Combining In-Domain and Out-Domain Data

- 文献紹介 2018/12/11 - On Learning Better Word Embeddings from
Chinese Clinical Records: Study on Combining In-Domain and Out-Domain Data 長岡技術科学大学自然言語処理研究室多田太郎

About the thesis 2

Introduction ・単語エンベディングはバイオメディカル分野において多くの有望な結果を得ている．・中国の臨床記録を用いた分野においては大きく遅れがある．・中国の臨床記録から埋め込みを学習することに焦点を当てる． 3

Introduction 貢献：・より良い学習をするためのドメイン内およびドメイン外のデータ結合方法の提案・追加の標準的な医学用語データセットを用いて単語エンベディングを評価する方法を提案・良い訓練サンプルの選択，適切な量の外部ドメインデータを収集することで質の向上を確認 Skip-gramを用いて学習していく 4

Introduction 5

Skip-Gram Model for Learning Embeddings from Chinese Clinical Records -
Observation - ・中国の臨床記録の内容は通常簡潔であり，症状と病気は一定の相関関係を持つ．・一般的なドメインの単語に，医学語と類似または同一の文脈語がある　　→単語埋め込みを作成することの障害に・主な課題は，医学的単語と一般的なドメインの単語とをより明確に区別すること． 6

Skip-Gram Model for Learning Embeddings from Chinese Clinical Records -
Usage of Out-Domain Data - ・2つのターゲットワード間の明確な区別は，差異を示すコンテキストワードを要とする．・ドメイン内データ（中国の臨床記録）に，ドメイン外データ（一般ドメイン中国語テキスト）を　追加することにより，中国の臨床記録からの単語エンベディングの学習を容易にすると仮定．・組み合わせることで，一般的なドメイン単語の文脈語の多様性を向上　→医学用語の文脈を損なう副作用はなく，より優れた埋め込みを学ぶことができる． 7

Skip-Gram Model for Learning Embeddings from Chinese Clinical Records -Learning
Process and Embedding Quality Evaluation Method - 前処理 Stanford CoreNLP tool1の最新バージョン単語分割，句読点削除学習 DeepLearning4J2のスキップグラムモデル階層的SoftMax，window size 5，次元数 200 ・ドメイン外データには医学用語がないと仮定・中国医学概念類似性尺度（CMCSM）を用いて評価 8

Learning Process and Embedding Quality Evaluation Method 9

Experimental Data 10

Experimental Data ・スキップグラムモデルを適用してCCRDを学習し，CMCSMで評価．・異なるサイズのデータセットの効果を評価．　CCRDから5つのサブデータセットをサンプリング（80％，60％，40％，20％，10％）・ドメイン内のデータのみを使用する場合，以下の必要がある．可能な限り多くのトレーニングデータを収集有益なサンプルを選択する 11

Experimental Data - result - 12

Experimental Data - result - 13 ODDをCCRDに組み込むことによって，単語エンベディングの品質が改善．

Discussion / Conclusions ・良好な単語ベクトルを学習する方法に関する既存の研究の大部分は，同じ領域内のデータに基づいている（Chiu et al. 2016, Lai et
al. 2016） →さらなる探求は多くの面で継続される必要がある．・ドメイン外データを用いて，中国の臨床記録からのより良い単語ベクトルを学習方法を提示．・適切な量のドメイン外データを収集し，良好なトレーニングサンプルを選択することで単語ベクトルの質の向上を確認． 14

文献紹介20181211_On Learning Better Word Embeddings...

文献紹介20181211_On Learning Better Word Embeddings from Chinese Clinical Records: Study on Combining In-Domain and Out-Domain Data

T.Tada

More Decks by T.Tada

Other Decks in Technology

Featured

Transcript