Slide 24
Slide 24 text
Distributed Representations of Words and Phrases and their
Compositionality
Subsampling
頻出語(“in”, “the”, “a”, etc.のストップワード等)は情報が少ないため、確率
(
) = 1 − √
(
)
の確率で語を捨てる処理をコーパスについて行った後にword2vecの学習を行う。こ
このは適当に決める(10−5 前後が典型的)。
mt_caret (kml輪講) word2vec + 2018-05-25 24 / 28