Slide 1

Slide 1 text

[論文紹介]     Seman)c  Hashing     Ruslan  Salakhutdinov,  Geoffrey  Hinton   (University  of  Toronto)   SIGIR  2007 Yoshifumi  Seki  (Gunosy  Inc)   2014.11.18  @Gunosy研究会

Slide 2

Slide 2 text

概要 •  目的   –  Deep  Learningを用いて文書のトピックをLSAとかよりいい感じに判定し たい   •  背景   –  TF-­‐IDF   •  語彙空間で類似度を推定するため,語彙が増えるとその分遅くなる   •  語が一致しない場合は類似性を得ることができない   –  LSA(SVD)   •  語が一致しなくとも類似性を得ることができるようになったが,それも限定的 な領域である   –  pLSA,  LDA   •  生成モデルによってより詳細な類似性を得ることができるようになったが,ト ピックの事後分布は正確に推定することが困難であり遅い手法か、不正確な 手法を使わなくてはならない   •  LSAに比べて高い改善があったとは言いがたい(実験,データセットにによる)  

Slide 3

Slide 3 text

Deep  Learningについて •  多層ニューラルネットワーク   –  ニューラルネットワークとは一般に隠 れ層がひとつのものを指す   –  隠れ層を増やしたものがニューラル ネットワーク   –  逆伝搬によって隠れ層を学習する   •  何が難しいか(難しかったか)   –  層を増やすと下層まで情報が伝わらな い   –  過学習がとても起きやすい

Slide 4

Slide 4 text

Pre-­‐Training •  各層を切り離して,その中で教師なし学習をやっていい感じの重みにする  

Slide 5

Slide 5 text

Restricted  Boltzmann  Machines 周辺化によってp(v)を求めることができるようになる

Slide 6

Slide 6 text

Fine-­‐Tuning •  Pre-­‐Trainingでいい感じにしたパラメータを教 師あり学習によって微調整する   – 最近はこのへんでSVM使ってたりいろいろやって る   – この論文が出た当時はBack  Propaga)onをやって る  

Slide 7

Slide 7 text

Seman)c  Hashingの特徴 •  文字のカウントデータからトピックを抽出   – 文書によって文字数が違うという文章特有の構 造を正規化によって吸収   – RBMを使ったほうがトピックをよりよくモデル化で きるらしい(過去の研究から)   •  出力をbinary化することで検索クエリからの マッチングをハッシュアルゴリズムを使って高 速化   – TFIDFを使ったLSHより精度が高い  

Slide 8

Slide 8 text

Constrained  Poisson  Model •  (1)が文書の長さを考慮したモデルであり,通常のRBMと異な る.   •  それ以外は同一なのでContras)ve  Divergenceで最適化する   •  2層目以降は入力層がhになるのでそのまま  

Slide 9

Slide 9 text

20  Newsgroup  2-­‐D  topic  space(128  bits)

Slide 10

Slide 10 text

•  128LSAよりバイナリ化した提案手法のほうが精度がよい   •  LSAをバイナリ化すると精度は下がる   •  TF-­‐IDFのほうが若干良い   •  提案手法から上位100記事を選んでTF-­‐IDFのスコアをつけるとTF-­‐IDF より精度は高くなる

Slide 11

Slide 11 text

20bitでも高い精度を得ることができる

Slide 12

Slide 12 text

まとめ •  トピック情報をbinaryで得ることで高速な検索 を実現   •  Binaryだが表現力が高く既存手法よりも高い 精度   •  TF-­‐IDFには劣るが,組み合わせることでより 高い精度を出すことができる