文献紹介 : How to Train good Word Embeddings for Biomedical NLP

文献紹介: 2018年9月26日 How to Train Good Word Embeddings for Biomedical
NLP 長岡技術科学大学　自然言語処理研究室多田太郎

About the thesis 著者: Billy Chiu,Gamal Crichton,Anna Korhonen, Sampo Pyysalo
Language Technology Lab DTAL, University of Cambridge 会議: Proceedings of the 15th Workshop on Biomedical Natural Language Processing, pages 166–174,2016 Association for Computational Linguistics

Abstract • 単語分散表現の質は入力コーパス、モデルのアーキテクチャ、ハイパーパラメータの設定に依存する • バイオメディカルのドメインで良いベクトルを作成するための学習を行う • 作成した分散表現について内部評価、外部評価を行う

Introduction • 分散表現の研究の多くは、一般的なドメインテキストと評価データセットのみで行われる • その結果は必ずしもBiomedical NLPタスクには適用されない • Biomedicalドメインでのハイパーパラメータのチューニングなどによるパフォーマンスに焦点を当て、学習方法を検証

Data set ３通りのコーパスから学習を行う内部評価単語の類似性と関連性を別々に測定 UMNSRS-Sim : 566 word pairs
UMNSRS-Rel : 587 word pairs （Pakhomov et al.,2010）外部評価 the BioCreative II Gene Mention task corpus (BC2) (Smith et al.,2008) the JNLPBA corpus (PBA) (Kim et al.,2004) Biomedical 固有名に手作業でアノテーションしたPubMedからの約2万文

Tested Hyper-prameters values word2vecを使用し、以下のパラメータで精度を検証する（太字はword2vecのデフォルト値）

Negative Sampling

Vector dimension

Learning Rate

Sub-sampling

window-size

Min-count

Comparative evaluation 実験に基づき設定し学習

Comparative Evaluation 結果

Conclusion • 分散表現生成のためのモデル学習において様々設定を変更し, 内部評価と外部評価の実験を行った • コーパスでは、文章をシャッフルしたPubMedテキスト単体での学習が最高のパフォーマンスを発揮 • 異なるハイパーパラメータのパフォーマンスへの影響は混在し、時には直観に反する。これは、一般的なドメインでも起こる。

Discussion PubMedテキスト単体での学習が精度が高かった点について学習に使用したもうひとつのPMCテキストの非プロストテキストの割合が高かったため、学習に影響を及ぼした可能性がある。 word2vecの実装では、コーパスのサイズが一定のしきい値を超えた場合に希少単語の削除をトリガーする「reduce-vocab」関数があるかもしれません。コーパスのサイズが大きいほどトリミングが積極的です。

文献紹介 : How to Train good Word Embeddings for Bi...

文献紹介 : How to Train good Word Embeddings for Biomedical NLP

T.Tada

More Decks by T.Tada

Other Decks in Technology

Featured

Transcript

文献紹介: 2018年9月26日 How to Train Good Word Embeddings for Biomedical

About the thesis 著者: Billy Chiu,Gamal Crichton,Anna Korhonen, Sampo Pyysalo

Data set ３通りのコーパスから学習を行う内部評価単語の類似性と関連性を別々に測定 UMNSRS-Sim : 566 word pairs