[Gunosy研究会]Semantic Hashing

[論文紹介] Seman)c Hashing Ruslan Salakhutdinov, Geoﬀrey
Hinton (University of Toronto) SIGIR 2007 Yoshifumi Seki (Gunosy Inc) 2014.11.18 @Gunosy研究会

概要 •  目的 –  Deep Learningを用いて文書のトピックをLSAとかよりいい感じに判定したい • 
背景 –  TF-‐IDF •  語彙空間で類似度を推定するため，語彙が増えるとその分遅くなる •  語が一致しない場合は類似性を得ることができない –  LSA(SVD) •  語が一致しなくとも類似性を得ることができるようになったが，それも限定的な領域である –  pLSA, LDA •  生成モデルによってより詳細な類似性を得ることができるようになったが，トピックの事後分布は正確に推定することが困難であり遅い手法か、不正確な手法を使わなくてはならない •  LSAに比べて高い改善があったとは言いがたい(実験，データセットにによる)

Deep Learningについて •  多層ニューラルネットワーク –  ニューラルネットワークとは一般に隠れ層がひとつのものを指す – 
隠れ層を増やしたものがニューラルネットワーク –  逆伝搬によって隠れ層を学習する •  何が難しいか（難しかったか） –  層を増やすと下層まで情報が伝わらない –  過学習がとても起きやすい

Pre-‐Training •  各層を切り離して，その中で教師なし学習をやっていい感じの重みにする

Restricted Boltzmann Machines 周辺化によってp(v)を求めることができるようになる

Fine-‐Tuning •  Pre-‐Trainingでいい感じにしたパラメータを教師あり学習によって微調整する – 最近はこのへんでSVM使ってたりいろいろやってる – この論文が出た当時はBack Propaga)onをやって
る

Seman)c Hashingの特徴 •  文字のカウントデータからトピックを抽出 – 文書によって文字数が違うという文章特有の構造を正規化によって吸収 – RBMを使ったほうがトピックをよりよくモデル化できるらしい（過去の研究から）
•  出力をbinary化することで検索クエリからのマッチングをハッシュアルゴリズムを使って高速化 – TFIDFを使ったLSHより精度が高い

Constrained Poisson Model •  (1)が文書の長さを考慮したモデルであり，通常のRBMと異なる． •  それ以外は同一なのでContras)ve Divergenceで最適化する
•  2層目以降は入力層がhになるのでそのまま

20 Newsgroup 2-‐D topic space(128 bits)

•  128LSAよりバイナリ化した提案手法のほうが精度がよい •  LSAをバイナリ化すると精度は下がる •  TF-‐IDFのほうが若干良い • 
提案手法から上位100記事を選んでTF-‐IDFのスコアをつけるとTF-‐IDF より精度は高くなる

20bitでも高い精度を得ることができる

まとめ •  トピック情報をbinaryで得ることで高速な検索を実現 •  Binaryだが表現力が高く既存手法よりも高い精度 • 
TF-‐IDFには劣るが，組み合わせることでより高い精度を出すことができる

[Gunosy研究会]Semantic Hashing

[Gunosy研究会]Semantic Hashing

ysekky

More Decks by ysekky

Other Decks in Research

Featured

Transcript

[論文紹介] Seman)c Hashing Ruslan Salakhutdinov, Geoﬀrey

概要 •  目的 –  Deep Learningを用いて文書のトピックをLSAとかよりいい感じに判定したい •

Deep Learningについて •  多層ニューラルネットワーク –  ニューラルネットワークとは一般に隠れ層がひとつのものを指す –

Pre-‐Training •  各層を切り離して，その中で教師なし学習をやっていい感じの重みにする

Restricted Boltzmann Machines 周辺化によってp(v)を求めることができるようになる

Fine-‐Tuning •  Pre-‐Trainingでいい感じにしたパラメータを教師あり学習によって微調整する – 最近はこのへんでSVM使ってたりいろいろやってる – この論文が出た当時はBack Propaga)onをやって

Constrained Poisson Model •  (1)が文書の長さを考慮したモデルであり，通常のRBMと異なる． •  それ以外は同一なのでContras)ve Divergenceで最適化する

20 Newsgroup 2-‐D topic space(128 bits)

•  128LSAよりバイナリ化した提案手法のほうが精度がよい •  LSAをバイナリ化すると精度は下がる •  TF-‐IDFのほうが若干良い •

20bitでも高い精度を得ることができる

まとめ •  トピック情報をbinaryで得ることで高速な検索を実現 •  Binaryだが表現力が高く既存手法よりも高い精度 •