Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_20181024_An Empirical Evaluation of doc2ve...
Search
T.Tada
October 24, 2018
Technology
0
140
文献紹介_20181024_An Empirical Evaluation of doc2vec with Practical Insights into Document Embedding Generation
T.Tada
October 24, 2018
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
62
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
160
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
160
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
210
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
100
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
150
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
64
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
98
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
97
Other Decks in Technology
See All in Technology
Simplifying Cloud Native app testing across environments with Dapr and Microcks
salaboy
0
140
20251014_Pythonを実務で徹底的に使いこなした話
ippei0923
0
190
CoRL 2025 Survey
harukiabe
0
170
Vibe Coding Year in Review. From Karpathy to Real-World Agents by Niels Rolland, CEO Paatch
vcoisne
0
130
Modern_Data_Stack最新動向クイズ_買収_AI_激動の2025年_.pdf
sagara
0
240
社内報はAIにやらせよう / Let AI handle the company newsletter
saka2jp
8
1.4k
20251007: What happens when multi-agent systems become larger? (CyberAgent, Inc)
ornew
1
240
業務効率化をさらに加速させる、ノーコードツールとStep Functionsのハイブリッド化
smt7174
2
130
Adminaで実現するISMS/SOC2運用の効率化 〜 アカウント管理編 〜
shonansurvivors
4
440
AWS 잘하는 개발자 되기 - AWS 시작하기: 클라우드 개념부터 IAM까지
kimjaewook
0
130
BI ツールはもういらない?Amazon RedShift & MCP Server で試みる新しいデータ分析アプローチ
cdataj
0
110
やる気のない自分との向き合い方/How to Deal with Your Unmotivated Self
sanogemaru
0
490
Featured
See All Featured
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
45
2.5k
Build your cross-platform service in a week with App Engine
jlugia
232
18k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
Building Better People: How to give real-time feedback that sticks.
wjessup
369
20k
YesSQL, Process and Tooling at Scale
rocio
173
14k
Navigating Team Friction
lara
190
15k
Faster Mobile Websites
deanohume
310
31k
Reflections from 52 weeks, 52 projects
jeffersonlam
352
21k
Making Projects Easy
brettharned
119
6.4k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
How to Think Like a Performance Engineer
csswizardry
27
2k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.7k
Transcript
- 文献紹介 2018/10/24 - An Empirical Evaluation of doc2vec with
Practical Insights into Document Embedding Generation 長岡技術科学大学 自然言語処理研究室 多田太郎
About the thesis Authors : Jey Han Lau, Timothy Baldwin
IBM Research Conference : Proceedings of the 1st Workshop on Representation Learning for NLP, pages 78–86, 2016 Association for Computational Linguistics 2
Abstract ・doc2vecはオリジナル論文の様な性能を再現するのが難しい ・doc2vecを2つのタスクで実験し評価を行う ・大規模外部コーパスで学習したモデルや事前に学習された単語エンベディングで 高い性能を確認 ・汎用目的でハイパーパラメータの推奨値を提案 3
Introduction これらの疑問に焦点を当て検証を行う (1)異なるタスクでのdoc2vecの有効性? (2)dmpvとdbowとでどちらが優れるか (3)ハイパーパラメータの最適化や事前に訓練された単語エンベディングによって doc2vecを改善することは可能か? 4
Evaluation Tasks 1. Forum Question Duplication 2. Semantic Textual Similarity
small in-document collection で学習 5
Evaluation Tasks 1. Forum Question Duplication StackExchangeから抽出した12のsubforums ペア学習:50Mから1Bの質問ペア テスト:30Mから300Mの質問ペア 2.
Semantic Textual Similarity 6
Evaluation Tasks 1. Forum Question Duplication 7
Evaluation Tasks 1. Forum Question Duplication 2. Semantic Textual Similarity
SEMとSemEvalの一部のshared task 文章のペアの類似性を求めるタスク 5 ドメイン, 各ドメイン 375 から 750のアノテートされたペアがある 8
Evaluation Tasks 2. Semantic Textual Similarity 9
Optimal Hyper-parameter Settings Training with Large External Corpora これまでの実験で結果の良かった dbow
で実験 開発データを使用して以下のパラメータを固定し最適化 ・ initial learning rate : 0.025 ・ minimum learning rate : 0.0001 大規模な外部コーパスでの学習による有効性を検証 ・ English Wikipedia ・ Associated Press English news articles from 2009 to 2015. 10
Optimal Hyper-parameter Settings 11
12
Improving doc2vec with Pre-trained Word Embeddings 13
Conclusion ・2つのタスクで文書分散表現を評価 ・dbow で dmpv よりも良い結果を得た ・汎用目的のアプリケーションのハイパーパラメータの推奨値を提案 ・外部の大規模コーパスでの学習、事前学習したモデルの使用でロバストな性能を発揮 14