Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_20181024_An Empirical Evaluation of doc2ve...
Search
T.Tada
October 24, 2018
Technology
0
130
文献紹介_20181024_An Empirical Evaluation of doc2vec with Practical Insights into Document Embedding Generation
T.Tada
October 24, 2018
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
58
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
150
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
160
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
210
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
100
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
150
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
63
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
94
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
94
Other Decks in Technology
See All in Technology
【PHPカンファレンス 2025】PHPを愛するひとに伝えたい PHPとキャリアの話
tenshoku_draft
0
120
登壇ネタの見つけ方 / How to find talk topics
pinkumohikan
5
530
MySQL5.6から8.4へ 戦いの記録
kyoshidaxx
1
260
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
3
910
250627 関西Ruby会議08 前夜祭 RejectKaigi「DJ on Ruby Ver.0.1」
msykd
PRO
2
330
AIの最新技術&テーマをつまんで紹介&フリートークするシリーズ #1 量子機械学習の入門
tkhresk
0
140
Oracle Cloud Infrastructure:2025年6月度サービス・アップデート
oracle4engineer
PRO
2
260
Kotlin Coroutine Mechanisms: A Surprisingly Deep Rabbithole
amanda_hinchman
2
100
データプラットフォーム技術におけるメダリオンアーキテクチャという考え方/DataPlatformWithMedallionArchitecture
smdmts
5
640
AWS アーキテクチャ作図入門/aws-architecture-diagram-101
ma2shita
30
11k
Tech-Verse 2025 Keynote
lycorptech_jp
PRO
0
300
“社内”だけで完結していた私が、AWS Community Builder になるまで
nagisa53
1
400
Featured
See All Featured
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Reflections from 52 weeks, 52 projects
jeffersonlam
351
20k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
22k
Designing Experiences People Love
moore
142
24k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Code Reviewing Like a Champion
maltzj
524
40k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.8k
Agile that works and the tools we love
rasmusluckow
329
21k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
800
How to train your dragon (web standard)
notwaldorf
94
6.1k
It's Worth the Effort
3n
185
28k
Transcript
- 文献紹介 2018/10/24 - An Empirical Evaluation of doc2vec with
Practical Insights into Document Embedding Generation 長岡技術科学大学 自然言語処理研究室 多田太郎
About the thesis Authors : Jey Han Lau, Timothy Baldwin
IBM Research Conference : Proceedings of the 1st Workshop on Representation Learning for NLP, pages 78–86, 2016 Association for Computational Linguistics 2
Abstract ・doc2vecはオリジナル論文の様な性能を再現するのが難しい ・doc2vecを2つのタスクで実験し評価を行う ・大規模外部コーパスで学習したモデルや事前に学習された単語エンベディングで 高い性能を確認 ・汎用目的でハイパーパラメータの推奨値を提案 3
Introduction これらの疑問に焦点を当て検証を行う (1)異なるタスクでのdoc2vecの有効性? (2)dmpvとdbowとでどちらが優れるか (3)ハイパーパラメータの最適化や事前に訓練された単語エンベディングによって doc2vecを改善することは可能か? 4
Evaluation Tasks 1. Forum Question Duplication 2. Semantic Textual Similarity
small in-document collection で学習 5
Evaluation Tasks 1. Forum Question Duplication StackExchangeから抽出した12のsubforums ペア学習:50Mから1Bの質問ペア テスト:30Mから300Mの質問ペア 2.
Semantic Textual Similarity 6
Evaluation Tasks 1. Forum Question Duplication 7
Evaluation Tasks 1. Forum Question Duplication 2. Semantic Textual Similarity
SEMとSemEvalの一部のshared task 文章のペアの類似性を求めるタスク 5 ドメイン, 各ドメイン 375 から 750のアノテートされたペアがある 8
Evaluation Tasks 2. Semantic Textual Similarity 9
Optimal Hyper-parameter Settings Training with Large External Corpora これまでの実験で結果の良かった dbow
で実験 開発データを使用して以下のパラメータを固定し最適化 ・ initial learning rate : 0.025 ・ minimum learning rate : 0.0001 大規模な外部コーパスでの学習による有効性を検証 ・ English Wikipedia ・ Associated Press English news articles from 2009 to 2015. 10
Optimal Hyper-parameter Settings 11
12
Improving doc2vec with Pre-trained Word Embeddings 13
Conclusion ・2つのタスクで文書分散表現を評価 ・dbow で dmpv よりも良い結果を得た ・汎用目的のアプリケーションのハイパーパラメータの推奨値を提案 ・外部の大規模コーパスでの学習、事前学習したモデルの使用でロバストな性能を発揮 14