Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介20181211_On Learning Better Word Embeddings from Chinese Clinical Records: Study on Combining In-Domain and Out-Domain Data

T.Tada
December 11, 2018

文献紹介20181211_On Learning Better Word Embeddings from Chinese Clinical Records: Study on Combining In-Domain and Out-Domain Data

T.Tada

December 11, 2018
Tweet

More Decks by T.Tada

Other Decks in Technology

Transcript

  1. - 文献紹介 2018/12/11 -
    On Learning Better Word Embeddings from Chinese Clinical Records:
    Study on Combining In-Domain and Out-Domain Data
    長岡技術科学大学
    自然言語処理研究室
    多田太郎

    View full-size slide

  2. About the thesis
    2

    View full-size slide

  3. Introduction
    ・単語エンベディングはバイオメディカル分野において多くの有望な結果を得ている.
    ・中国の臨床記録を用いた分野においては大きく遅れがある.
    ・中国の臨床記録から埋め込みを学習することに焦点を当てる.
    3

    View full-size slide

  4. Introduction
    貢献:
    ・より良い学習をするためのドメイン内およびドメイン外のデータ結合方法の提案
    ・追加の標準的な医学用語データセットを用いて単語エンベディングを評価する方法を提案
    ・良い訓練サンプルの選択,適切な量の外部ドメインデータを収集することで質の向上を確

    Skip-gramを用いて学習していく
    4

    View full-size slide

  5. Introduction
    5

    View full-size slide

  6. Skip-Gram Model for Learning Embeddings from Chinese
    Clinical Records - Observation -
    ・中国の臨床記録の内容は通常簡潔であり,症状と病気は一定の相関関係を持つ.
    ・一般的なドメインの単語に,医学語と類似または同一の文脈語がある
      →単語埋め込みを作成することの障害に
    ・主な課題は,医学的単語と一般的なドメインの単語とをより明確に区別すること.
    6

    View full-size slide

  7. Skip-Gram Model for Learning Embeddings from Chinese
    Clinical Records - Usage of Out-Domain Data -
    ・2つのターゲットワード間の明確な区別は,差異を示すコンテキストワードを要とする.
    ・ドメイン内データ(中国の臨床記録)に,ドメイン外データ(一般ドメイン中国語テキスト)を
     追加することにより,中国の臨床記録からの単語エンベディングの学習を容易にすると仮
    定.
    ・組み合わせることで,一般的なドメイン単語の文脈語の多様性を向上
     →医学用語の文脈を損なう副作用はなく,より優れた埋め込みを学ぶことができる.
    7

    View full-size slide

  8. Skip-Gram Model for Learning Embeddings from Chinese
    Clinical Records -Learning Process and Embedding
    Quality Evaluation Method -
    前処理
    Stanford CoreNLP tool1の最新バージョン
    単語分割,句読点削除
    学習
    DeepLearning4J2のスキップグラムモデル
    階層的SoftMax,window size 5,次元数 200
    ・ドメイン外データには医学用語がないと仮定
    ・中国医学概念類似性尺度(CMCSM)を用いて評価
    8

    View full-size slide

  9. Learning Process and Embedding Quality Evaluation
    Method
    9

    View full-size slide

  10. Experimental Data
    10

    View full-size slide

  11. Experimental Data
    ・スキップグラムモデルを適用してCCRDを学習し,CMCSMで評価.
    ・異なるサイズのデータセットの効果を評価.
     CCRDから5つのサブデータセットをサンプリング(80%,60%,40%,20%,10%)
    ・ドメイン内のデータのみを使用する場合,以下の必要がある.
    可能な限り多くのトレーニングデータを収集
    有益なサンプルを選択する
    11

    View full-size slide

  12. Experimental Data - result -
    12

    View full-size slide

  13. Experimental Data - result -
    13
    ODDをCCRDに組み込むことによって,単語エンベディングの品質が改善.

    View full-size slide

  14. Discussion / Conclusions
    ・良好な単語ベクトルを学習する方法に関する既存の研究の大部分は,同じ領域内のデータ
    に基づいている(Chiu et al. 2016, Lai et al. 2016)
    →さらなる探求は多くの面で継続される必要がある.
    ・ドメイン外データを用いて,中国の臨床記録からのより良い単語ベクトルを学習方法を提示.
    ・ 適切な量のドメイン外データを収集し,良好なトレーニングサンプルを選択することで単語ベ
    クトルの質の向上を確認.
    14

    View full-size slide