$30 off During Our Annual Pro Sale. View Details »

文献紹介 : How to Train good Word Embeddings for Biomedical NLP

T.Tada
September 26, 2018

文献紹介 : How to Train good Word Embeddings for Biomedical NLP

T.Tada

September 26, 2018
Tweet

More Decks by T.Tada

Other Decks in Technology

Transcript

  1. 文献紹介: 2018年9月26日 How to Train Good Word Embeddings for Biomedical

    NLP 長岡技術科学大学 自然言語処理研究室 多田太郎
  2. About the thesis 著者: Billy Chiu,Gamal Crichton,Anna Korhonen, Sampo Pyysalo

    Language Technology Lab DTAL, University of Cambridge 会議: Proceedings of the 15th Workshop on Biomedical Natural Language Processing, pages 166–174,2016 Association for Computational Linguistics
  3. Abstract • 単語分散表現の質は入力コーパス、モデルのアーキテクチャ、 ハイパーパラメータの設定に依存する • バイオメディカルのドメインで良いベクトルを作成するための学習を行う • 作成した分散表現について内部評価、外部評価を行う

  4. Introduction • 分散表現の研究の多くは、一般的なドメインテキストと評価データ セットのみで行われる • その結果は必ずしもBiomedical NLPタスクには適用されない • Biomedicalドメインでのハイパーパラメータのチューニングなどによ るパフォーマンスに焦点を当て、学習方法を検証

  5. Data set 3通りのコーパスから学習を行う 内部評価 単語の類似性と関連性を別々に測定 UMNSRS-Sim : 566 word pairs

    UMNSRS-Rel : 587 word pairs (Pakhomov et al.,2010) 外部評価 the BioCreative II Gene Mention task corpus (BC2) (Smith et al.,2008) the JNLPBA corpus (PBA) (Kim et al.,2004) Biomedical 固有名に手作業でアノテーションしたPubMedからの約2万文
  6. Tested Hyper-prameters values word2vecを使用し、以下のパラメータで精度を検証する (太字はword2vecのデフォルト値)

  7. Negative Sampling

  8. Vector dimension

  9. Learning Rate

  10. Sub-sampling

  11. window-size

  12. Min-count

  13. Comparative evaluation 実験に基づき設定し学習

  14. Comparative Evaluation 結果

  15. Conclusion • 分散表現生成のためのモデル学習において様々設定を変更し, 内部評価と外部評価の実験を行った • コーパスでは、文章をシャッフルしたPubMedテキスト単体での 学習が最高のパフォーマンスを発揮 • 異なるハイパーパラメータのパフォーマンスへの影響は混在 し、時には直観に反する。これは、一般的なドメインでも起こる。

  16. Discussion PubMedテキスト単体での学習が精度が高かった点について 学習に使用したもうひとつのPMCテキストの非プロストテキストの割 合が高かったため、学習に影響を及ぼした可能性がある。 word2vecの実装では、コーパスのサイズが一定のしきい値を超え た場合に希少単語の削除をトリガーする「reduce-vocab」関数があ るかもしれません。コーパスのサイズが大きいほどトリミングが積 極的です。