2019/02/27の文献紹介で発表
A Document Descriptor usingCovariance of Word Vectors文献紹介 2019/02/27長岡技術科学大学 自然言語処理研究室稲岡 夢人
View Slide
Literature2TitleA Document Descriptor using Covariance ofWord VectorsAuthor Marwan TorkiVolumeProceedings of the 56th Annual Meeting ofthe Association for Computational Linguistics(Volume 2: Short Papers), pages 527-532, 2018.
Abstract 単語ベクトルを用いた固定長の文書表現を提案(Document-Covariance Descriptor; DoCoV)→ Supervised, Unsupervisedのアプリケーションで簡単に利用できる 様々なタスクでSoTAに匹敵する性能3
Introduction ベクトルを利用した文書検索には長い歴史がある← Bag-of-Words, Latent Semantic Indexing(LSI) 近年はニューラル言語モデルで単語埋め込みを学習 単語ではなく文, 段落, 文書の分散表現も注目されている4
vs. DoCoV doc2vecやFastSentは単語と共通の空間 共分散は単語の密度の形状を符号化5
vs. DoCoV doc2vecやFastSentは学習に時間がかかる DoCoV(共分散)の計算は並列性が高く高速に行える6
DoCoV Document Observation Matrixd次元の単語埋め込みとn単語の文書において ∈ ×と定義 (行は単語、列は埋め込みの各次元)7
DoCoV Covariance Matrix8
DoCoV Vectorized representation9
Evaluation IMDB movie reviewsの分類性能によって単語ベクトルによる変化を評価 ベクトルを線形SVMで分類 1つのレビューは複数の文で構成される Train/Test/Unlabeled : 25K/25K/50K 事前学習済みのword2vec, GloVeと、TrainとUnlabeledで学習したword2vecで比較10
Result11
Result12
Result13
Result14
Evaluation 文の意味関連性データセットSICK, STS 2014で文書ベクトルを評価 事前学習済みの単語埋め込みを使用 (dim=300) Pearson correlationとSpearman correlationで評価15
Result学習が必要な他手法と匹敵するような結果16
Evaluation Google newsで事前学習済みの単語埋め込みを使用 Movie Reviews(MR), Subjectivity(Subj),Customer Reviews(CR), TREC Question(TREC)をデータセットとして使用17
Result18
Result19
Result20
Result21
Conclusions 文、段落、文書の新たなベクトル表現方法を提案 他手法のような反復の学習を必要としない Supervised, Unsupervisedのタスクにおいてその有用性を確認22