Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_20181024_An Empirical Evaluation of doc2ve...
Search
T.Tada
October 24, 2018
Technology
0
140
文献紹介_20181024_An Empirical Evaluation of doc2vec with Practical Insights into Document Embedding Generation
T.Tada
October 24, 2018
Tweet
Share
More Decks by T.Tada
See All by T.Tada
文献紹介_202002_Is artificial data useful for biomedical Natural Language Processing algorithms?
tad
0
63
文献紹介_202001_A Novel System for Extractive Clinical Note Summarization using EHR Data
tad
0
170
文献紹介_201912_Publicly Available Clinical BERT Embeddings
tad
0
170
文献紹介_201911_EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
tad
0
220
文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings
tad
0
100
文献紹介_201909_Sentence Mover’s Similarity_ Automatic Evaluation for Multi-Sentence Texts
tad
0
150
文献紹介_201908_Medical Word Embeddings for Spanish_ Development and Evaluation
tad
0
65
文献紹介_201907_Is Word Segmentation Necessary for Deep Learning of Chinese Representations
tad
0
100
文献紹介_201906_Predicting Annotation Difficulty to Improve Task Routing and Model Performance for Biomedical Information Extraction
tad
0
97
Other Decks in Technology
See All in Technology
5分で知るMicrosoft Ignite
taiponrock
PRO
0
400
マイクロサービスへの5年間 ぶっちゃけ何をしてどうなったか
joker1007
17
6.7k
Databricks向けJupyter Kernelでデータサイエンティストの開発環境をAI-Readyにする / Data+AI World Tour Tokyo After Party
genda
1
580
re:Invent 2025 ~何をする者であり、どこへいくのか~
tetutetu214
0
230
チーリンについて
hirotomotaguchi
6
2.1k
初めてのDatabricks AI/BI Genie
taka_aki
0
210
Amazon Quick Suite で始める手軽な AI エージェント
shimy
0
600
AI駆動開発の実践とその未来
eltociear
1
280
2025年 開発生産「可能」性向上報告 サイロ解消からチームが能動性を獲得するまで/ 20251216 Naoki Takahashi
shift_evolve
PRO
2
200
Lessons from Migrating to OpenSearch: Shard Design, Log Ingestion, and UI Decisions
sansantech
PRO
1
150
Fashion×AI「似合う」を届けるためのWEARのAI戦略
zozotech
PRO
2
880
Oracle Cloud Infrastructure IaaS 新機能アップデート 2025/09 - 2025/11
oracle4engineer
PRO
0
170
Featured
See All Featured
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
2
2.7k
The SEO Collaboration Effect
kristinabergwall1
0
300
Mobile First: as difficult as doing things right
swwweet
225
10k
GraphQLとの向き合い方2022年版
quramy
50
14k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.3k
Into the Great Unknown - MozCon
thekraken
40
2.2k
GitHub's CSS Performance
jonrohan
1032
470k
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
29
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
0
240
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
61
Game over? The fight for quality and originality in the time of robots
wayneb77
1
59
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandezseo
1
1.3k
Transcript
- 文献紹介 2018/10/24 - An Empirical Evaluation of doc2vec with
Practical Insights into Document Embedding Generation 長岡技術科学大学 自然言語処理研究室 多田太郎
About the thesis Authors : Jey Han Lau, Timothy Baldwin
IBM Research Conference : Proceedings of the 1st Workshop on Representation Learning for NLP, pages 78–86, 2016 Association for Computational Linguistics 2
Abstract ・doc2vecはオリジナル論文の様な性能を再現するのが難しい ・doc2vecを2つのタスクで実験し評価を行う ・大規模外部コーパスで学習したモデルや事前に学習された単語エンベディングで 高い性能を確認 ・汎用目的でハイパーパラメータの推奨値を提案 3
Introduction これらの疑問に焦点を当て検証を行う (1)異なるタスクでのdoc2vecの有効性? (2)dmpvとdbowとでどちらが優れるか (3)ハイパーパラメータの最適化や事前に訓練された単語エンベディングによって doc2vecを改善することは可能か? 4
Evaluation Tasks 1. Forum Question Duplication 2. Semantic Textual Similarity
small in-document collection で学習 5
Evaluation Tasks 1. Forum Question Duplication StackExchangeから抽出した12のsubforums ペア学習:50Mから1Bの質問ペア テスト:30Mから300Mの質問ペア 2.
Semantic Textual Similarity 6
Evaluation Tasks 1. Forum Question Duplication 7
Evaluation Tasks 1. Forum Question Duplication 2. Semantic Textual Similarity
SEMとSemEvalの一部のshared task 文章のペアの類似性を求めるタスク 5 ドメイン, 各ドメイン 375 から 750のアノテートされたペアがある 8
Evaluation Tasks 2. Semantic Textual Similarity 9
Optimal Hyper-parameter Settings Training with Large External Corpora これまでの実験で結果の良かった dbow
で実験 開発データを使用して以下のパラメータを固定し最適化 ・ initial learning rate : 0.025 ・ minimum learning rate : 0.0001 大規模な外部コーパスでの学習による有効性を検証 ・ English Wikipedia ・ Associated Press English news articles from 2009 to 2015. 10
Optimal Hyper-parameter Settings 11
12
Improving doc2vec with Pre-trained Word Embeddings 13
Conclusion ・2つのタスクで文書分散表現を評価 ・dbow で dmpv よりも良い結果を得た ・汎用目的のアプリケーションのハイパーパラメータの推奨値を提案 ・外部の大規模コーパスでの学習、事前学習したモデルの使用でロバストな性能を発揮 14