Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_20181024_An Empirical Evaluation of doc2ve...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
T.Tada
October 24, 2018
Technology
0
140
文献紹介_20181024_An Empirical Evaluation of doc2vec with Practical Insights into Document Embedding Generation
T.Tada
October 24, 2018
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
64
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
170
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
170
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
220
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
100
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
160
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
68
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
110
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
97
Other Decks in Technology
See All in Technology
ブロックテーマ、WordPress でウェブサイトをつくるということ / 2026.02.07 Gifu WordPress Meetup
torounit
0
200
Context Engineeringが企業で不可欠になる理由
hirosatogamo
PRO
3
680
Bill One急成長の舞台裏 開発組織が直面した失敗と教訓
sansantech
PRO
2
410
インフラエンジニア必見!Kubernetesを用いたクラウドネイティブ設計ポイント大全
daitak
1
390
Cloud Runでコロプラが挑む 生成AI×ゲーム『神魔狩りのツクヨミ』の裏側
colopl
0
140
Ruby版 JSXのRuxが気になる
sansantech
PRO
0
170
ブロックテーマでサイトをリニューアルした話 / 2026-01-31 Kansai WordPress Meetup
torounit
0
480
制約が導く迷わない設計 〜 信頼性と運用性を両立するマイナンバー管理システムの実践 〜
bwkw
3
1.1k
Embedded SREの終わりを設計する 「なんとなく」から計画的な自立支援へ
sansantech
PRO
3
2.6k
顧客の言葉を、そのまま信じない勇気
yamatai1212
1
370
茨城の思い出を振り返る ~CDKのセキュリティを添えて~ / 20260201 Mitsutoshi Matsuo
shift_evolve
PRO
1
420
[CV勉強会@関東 World Model 読み会] Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World Models (Mousakhan+, NeurIPS 2025)
abemii
0
150
Featured
See All Featured
Large-scale JavaScript Application Architecture
addyosmani
515
110k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
1
440
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.2k
Designing for Timeless Needs
cassininazir
0
130
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
58
50k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
760
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
290
Optimising Largest Contentful Paint
csswizardry
37
3.6k
Designing for Performance
lara
610
70k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.6k
Transcript
- 文献紹介 2018/10/24 - An Empirical Evaluation of doc2vec with
Practical Insights into Document Embedding Generation 長岡技術科学大学 自然言語処理研究室 多田太郎
About the thesis Authors : Jey Han Lau, Timothy Baldwin
IBM Research Conference : Proceedings of the 1st Workshop on Representation Learning for NLP, pages 78–86, 2016 Association for Computational Linguistics 2
Abstract ・doc2vecはオリジナル論文の様な性能を再現するのが難しい ・doc2vecを2つのタスクで実験し評価を行う ・大規模外部コーパスで学習したモデルや事前に学習された単語エンベディングで 高い性能を確認 ・汎用目的でハイパーパラメータの推奨値を提案 3
Introduction これらの疑問に焦点を当て検証を行う (1)異なるタスクでのdoc2vecの有効性? (2)dmpvとdbowとでどちらが優れるか (3)ハイパーパラメータの最適化や事前に訓練された単語エンベディングによって doc2vecを改善することは可能か? 4
Evaluation Tasks 1. Forum Question Duplication 2. Semantic Textual Similarity
small in-document collection で学習 5
Evaluation Tasks 1. Forum Question Duplication StackExchangeから抽出した12のsubforums ペア学習:50Mから1Bの質問ペア テスト:30Mから300Mの質問ペア 2.
Semantic Textual Similarity 6
Evaluation Tasks 1. Forum Question Duplication 7
Evaluation Tasks 1. Forum Question Duplication 2. Semantic Textual Similarity
SEMとSemEvalの一部のshared task 文章のペアの類似性を求めるタスク 5 ドメイン, 各ドメイン 375 から 750のアノテートされたペアがある 8
Evaluation Tasks 2. Semantic Textual Similarity 9
Optimal Hyper-parameter Settings Training with Large External Corpora これまでの実験で結果の良かった dbow
で実験 開発データを使用して以下のパラメータを固定し最適化 ・ initial learning rate : 0.025 ・ minimum learning rate : 0.0001 大規模な外部コーパスでの学習による有効性を検証 ・ English Wikipedia ・ Associated Press English news articles from 2009 to 2015. 10
Optimal Hyper-parameter Settings 11
12
Improving doc2vec with Pre-trained Word Embeddings 13
Conclusion ・2つのタスクで文書分散表現を評価 ・dbow で dmpv よりも良い結果を得た ・汎用目的のアプリケーションのハイパーパラメータの推奨値を提案 ・外部の大規模コーパスでの学習、事前学習したモデルの使用でロバストな性能を発揮 14