[Gunosy研究会]Semantic Hashing

Slide 1

Slide 1 text

[論文紹介] Seman)c Hashing Ruslan Salakhutdinov, Geoﬀrey Hinton (University of Toronto) SIGIR 2007 Yoshifumi Seki (Gunosy Inc) 2014.11.18 @Gunosy研究会

Slide 2

Slide 2 text

概要 •  目的 –  Deep Learningを用いて文書のトピックをLSAとかよりいい感じに判定したい •  背景 –  TF-‐IDF •  語彙空間で類似度を推定するため，語彙が増えるとその分遅くなる •  語が一致しない場合は類似性を得ることができない –  LSA(SVD) •  語が一致しなくとも類似性を得ることができるようになったが，それも限定的な領域である –  pLSA, LDA •  生成モデルによってより詳細な類似性を得ることができるようになったが，トピックの事後分布は正確に推定することが困難であり遅い手法か、不正確な手法を使わなくてはならない •  LSAに比べて高い改善があったとは言いがたい(実験，データセットにによる)

Slide 3

Slide 3 text

Deep Learningについて •  多層ニューラルネットワーク –  ニューラルネットワークとは一般に隠れ層がひとつのものを指す –  隠れ層を増やしたものがニューラルネットワーク –  逆伝搬によって隠れ層を学習する •  何が難しいか（難しかったか） –  層を増やすと下層まで情報が伝わらない –  過学習がとても起きやすい

Slide 4

Slide 4 text

Pre-‐Training •  各層を切り離して，その中で教師なし学習をやっていい感じの重みにする

Slide 5

Slide 5 text

Restricted Boltzmann Machines 周辺化によってp(v)を求めることができるようになる

Slide 6

Slide 6 text

Fine-‐Tuning •  Pre-‐Trainingでいい感じにしたパラメータを教師あり学習によって微調整する – 最近はこのへんでSVM使ってたりいろいろやってる – この論文が出た当時はBack Propaga)onをやってる

Slide 7

Slide 7 text

Seman)c Hashingの特徴 •  文字のカウントデータからトピックを抽出 – 文書によって文字数が違うという文章特有の構造を正規化によって吸収 – RBMを使ったほうがトピックをよりよくモデル化できるらしい（過去の研究から） •  出力をbinary化することで検索クエリからのマッチングをハッシュアルゴリズムを使って高速化 – TFIDFを使ったLSHより精度が高い

Slide 8

Slide 8 text

Constrained Poisson Model •  (1)が文書の長さを考慮したモデルであり，通常のRBMと異なる． •  それ以外は同一なのでContras)ve Divergenceで最適化する •  2層目以降は入力層がhになるのでそのまま

Slide 9

Slide 9 text

20 Newsgroup 2-‐D topic space(128 bits)

Slide 10

Slide 10 text

•  128LSAよりバイナリ化した提案手法のほうが精度がよい •  LSAをバイナリ化すると精度は下がる •  TF-‐IDFのほうが若干良い •  提案手法から上位100記事を選んでTF-‐IDFのスコアをつけるとTF-‐IDF より精度は高くなる

Slide 11

Slide 11 text

20bitでも高い精度を得ることができる

Slide 12

Slide 12 text

まとめ •  トピック情報をbinaryで得ることで高速な検索を実現 •  Binaryだが表現力が高く既存手法よりも高い精度 •  TF-‐IDFには劣るが，組み合わせることでより高い精度を出すことができる