Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_20181024_An Empirical Evaluation of doc2vec with Practical Insights into Document Embedding Generation
Search
T.Tada
October 24, 2018
Technology
0
110
文献紹介_20181024_An Empirical Evaluation of doc2vec with Practical Insights into Document Embedding Generation
T.Tada
October 24, 2018
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
54
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
120
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
140
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
160
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
90
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
120
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
54
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
77
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
79
Other Decks in Technology
See All in Technology
社内共通ルールを値オブジェクトにして社内ライブラリとして運用してみた話
leveragestech
2
1.2k
戦略的DDDを実践するための跳躍力 / OOC 2024
pictiny
6
4.1k
ハイパフォーマンスな組織をつくるための開発生産性の考え方 / developer-productivity-high-performer-link-and-motivation
lmi
3
260
技術イベントはなんとかひねり出す 日経の技術広報の取り組み/techpr3
nishiuma
0
230
中学生でもわかる深層学習
e869120
7
1.2k
オブジェクトのおしゃべり大失敗 メッセージングアンチパターン集 / messaging anti-pattern collection
ytake
0
330
初心者が行く!サーバレスWebアプリ開発の道
nagaharutogawa
0
440
Vos logs méritent mieux que la config par défaut
lyrixx
2
350
AMLD 2024 - Build Your Own GPT
donlelef
1
260
匠MethodとRDRAとICONIXとDDDで実現する一気通貫オブジェクト指向開発
haru860
4
2.1k
バッチ処理のSLOをどう設計するか
rynsuke
7
570
Azureコストは水道代/The_47th_Tokyo_Jazug
aeonpeople
3
370
Featured
See All Featured
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
185
15k
Writing Fast Ruby
sferik
619
59k
How to Ace a Technical Interview
jacobian
272
22k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
124
32k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
39
4.3k
Documentation Writing (for coders)
carmenintech
59
3.8k
Unsuck your backbone
ammeep
661
56k
Thoughts on Productivity
jonyablonski
57
3.8k
The Illustrated Children's Guide to Kubernetes
chrisshort
28
46k
Building Effective Engineering Teams - LeadDev
addyosmani
25
1.8k
Automating Front-end Workflow
addyosmani
1353
200k
VelocityConf: Rendering Performance Case Studies
addyosmani
319
23k
Transcript
- 文献紹介 2018/10/24 - An Empirical Evaluation of doc2vec with
Practical Insights into Document Embedding Generation 長岡技術科学大学 自然言語処理研究室 多田太郎
About the thesis Authors : Jey Han Lau, Timothy Baldwin
IBM Research Conference : Proceedings of the 1st Workshop on Representation Learning for NLP, pages 78–86, 2016 Association for Computational Linguistics 2
Abstract ・doc2vecはオリジナル論文の様な性能を再現するのが難しい ・doc2vecを2つのタスクで実験し評価を行う ・大規模外部コーパスで学習したモデルや事前に学習された単語エンベディングで 高い性能を確認 ・汎用目的でハイパーパラメータの推奨値を提案 3
Introduction これらの疑問に焦点を当て検証を行う (1)異なるタスクでのdoc2vecの有効性? (2)dmpvとdbowとでどちらが優れるか (3)ハイパーパラメータの最適化や事前に訓練された単語エンベディングによって doc2vecを改善することは可能か? 4
Evaluation Tasks 1. Forum Question Duplication 2. Semantic Textual Similarity
small in-document collection で学習 5
Evaluation Tasks 1. Forum Question Duplication StackExchangeから抽出した12のsubforums ペア学習:50Mから1Bの質問ペア テスト:30Mから300Mの質問ペア 2.
Semantic Textual Similarity 6
Evaluation Tasks 1. Forum Question Duplication 7
Evaluation Tasks 1. Forum Question Duplication 2. Semantic Textual Similarity
SEMとSemEvalの一部のshared task 文章のペアの類似性を求めるタスク 5 ドメイン, 各ドメイン 375 から 750のアノテートされたペアがある 8
Evaluation Tasks 2. Semantic Textual Similarity 9
Optimal Hyper-parameter Settings Training with Large External Corpora これまでの実験で結果の良かった dbow
で実験 開発データを使用して以下のパラメータを固定し最適化 ・ initial learning rate : 0.025 ・ minimum learning rate : 0.0001 大規模な外部コーパスでの学習による有効性を検証 ・ English Wikipedia ・ Associated Press English news articles from 2009 to 2015. 10
Optimal Hyper-parameter Settings 11
12
Improving doc2vec with Pre-trained Word Embeddings 13
Conclusion ・2つのタスクで文書分散表現を評価 ・dbow で dmpv よりも良い結果を得た ・汎用目的のアプリケーションのハイパーパラメータの推奨値を提案 ・外部の大規模コーパスでの学習、事前学習したモデルの使用でロバストな性能を発揮 14