Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文章のベクトル化

Avatar for andmohiko andmohiko
November 29, 2019

 文章のベクトル化

ニュースアプリでは速報時の多くのメディアが似た記事を一気配信する。
するとアプリの画面は同一のニュース埋め尽くされてしまい、ユーザーの体験として悪い。
ここで同一のニュースを事前に判定して不要な記事を配信しないでおきたい。
記事のタイトルをベクトル化することでタイトル同士の類似度を計算することがこの課題

Avatar for andmohiko

andmohiko

November 29, 2019
Tweet

More Decks by andmohiko

Other Decks in Technology

Transcript

  1. 今回は以下の手法を比較しました。
 - ワードカウント
 - doc2vec
 - トピックモデル(LDA)
 - LSTMの中間層を取り出す
 -

    単語ベクトルとIDFを組み合わせる
 それぞれの手法についてと比較する上で重視したものを説明していきます。
 様々な手法の比較検討

  2. ワードカウント
 • 文章に出現する単語を数える。どの単語が何回使われているかによって文章 を表現する
 • 単純に単語の出現数を数えるBag of Wordsやそこに希少性を加味したTFIDF などがある
 •

    計算は速いが、スパースなベクトルになってしまうという欠点がある
 • 当たり前だが、AKB問題を乗り越えられない
 • 今回は上手くいかなかった
 手法