Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Gunosy研究会]Semantic Hashing
Search
ysekky
November 19, 2014
Research
370
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[Gunosy研究会]Semantic Hashing
ysekky
November 19, 2014
More Decks by ysekky
See All by ysekky
スタートアップの開発サイクルに学ぶ 研究活動の進め方 / research practices inspired by startup business strategy
ysekky
0
2.4k
[論文紹介] A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets (Recsys2020) / recsys20-reading-gunosy-datapub
ysekky
3
2.9k
JSAI2020 OS-12 広告とAI オープニング / JSAI2020-OS-12-ads-and-ai-opening
ysekky
0
2.2k
JSAI2020インダストリアルセッション - Gunosyにおける研究開発 / jsai2020-gunosy-rd-examples
ysekky
1
830
ウェブサービス事業者における研究開発インターン[株式会社Gunosy] - テキストアナリティクスシンポジウム2019 / research-intern-case-study-at-gunosy
ysekky
0
3k
Gunosyにおけるニュース記事推薦/ news-recommendation-in-gunosy-webdbf2019
ysekky
1
1.6k
DEIM2019技術報告セッション - Gunosyの研究開発 / deim-2019-sponsor-session-gunosy-research
ysekky
0
1.3k
Analysis of Bias in Gathering Information Between User Attributes in News Application (ABCCS 2018)
ysekky
1
2.5k
世代による政治ニュース記事の閲覧傾向の違いの分析 - JSAI2018 / Analysis of differences in viewing behavior of politics news by age
ysekky
0
4.1k
Other Decks in Research
See All in Research
SoftMatcha 2: 1兆語規模コーパスの超高速かつ柔らかい検索
e869120_sub
6
3.5k
Claude Code × autoresearch 実践
mathbullet
0
160
量子コンピュータの紹介
oqtopus
0
330
2026年1月の生成AI領域の重要リリース&トピック解説
kajikent
0
1k
「AIとWhyを深堀る」をAIと深堀る
iflection
0
490
「車1割削減、渋滞半減、公共交通2倍」を 熊本から岡山へ@RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
1
1.2k
COFFEE-Japan PROJECT Impact Report(海ノ向こうコーヒー)
ontheslope
0
1.9k
[BlackHatAsia2026] Hidden Telemetry: Uncovering TraceLogging ETW Providers You're Not Using (Yet)
asuna_jp
1
530
AGI4OPT:自然言語から数理最適化を導くエ ージェントスキル Translating Human Intent into Mathematical Optimization
mickey_kubo
0
140
Fukui Shibiten 39 - AI Art
butchi
0
120
データセンター事業者を取り巻く近年の状況とその中での研究開発動向、テストベッドへの貢献の可能性
kikuzo
1
180
2026 東京科学大 情報通信系 研究室紹介 (すずかけ台)
icttitech
0
3.8k
Featured
See All Featured
Building Flexible Design Systems
yeseniaperezcruz
330
40k
How to train your dragon (web standard)
notwaldorf
97
6.7k
Building Applications with DynamoDB
mza
96
7.1k
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
200
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.6k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
ラッコキーワード サービス紹介資料
rakko
1
3.6M
The Cost Of JavaScript in 2023
addyosmani
55
10k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4.1k
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.8k
So, you think you're a good person
axbom
PRO
2
2.1k
Transcript
[論文紹介] Seman)c Hashing Ruslan Salakhutdinov, Geoffrey
Hinton (University of Toronto) SIGIR 2007 Yoshifumi Seki (Gunosy Inc) 2014.11.18 @Gunosy研究会
概要 • 目的 – Deep Learningを用いて文書のトピックをLSAとかよりいい感じに判定し たい •
背景 – TF-‐IDF • 語彙空間で類似度を推定するため,語彙が増えるとその分遅くなる • 語が一致しない場合は類似性を得ることができない – LSA(SVD) • 語が一致しなくとも類似性を得ることができるようになったが,それも限定的 な領域である – pLSA, LDA • 生成モデルによってより詳細な類似性を得ることができるようになったが,ト ピックの事後分布は正確に推定することが困難であり遅い手法か、不正確な 手法を使わなくてはならない • LSAに比べて高い改善があったとは言いがたい(実験,データセットにによる)
Deep Learningについて • 多層ニューラルネットワーク – ニューラルネットワークとは一般に隠 れ層がひとつのものを指す –
隠れ層を増やしたものがニューラル ネットワーク – 逆伝搬によって隠れ層を学習する • 何が難しいか(難しかったか) – 層を増やすと下層まで情報が伝わらな い – 過学習がとても起きやすい
Pre-‐Training • 各層を切り離して,その中で教師なし学習をやっていい感じの重みにする
Restricted Boltzmann Machines 周辺化によってp(v)を求めることができるようになる
Fine-‐Tuning • Pre-‐Trainingでいい感じにしたパラメータを教 師あり学習によって微調整する – 最近はこのへんでSVM使ってたりいろいろやって る – この論文が出た当時はBack Propaga)onをやって
る
Seman)c Hashingの特徴 • 文字のカウントデータからトピックを抽出 – 文書によって文字数が違うという文章特有の構 造を正規化によって吸収 – RBMを使ったほうがトピックをよりよくモデル化で きるらしい(過去の研究から)
• 出力をbinary化することで検索クエリからの マッチングをハッシュアルゴリズムを使って高 速化 – TFIDFを使ったLSHより精度が高い
Constrained Poisson Model • (1)が文書の長さを考慮したモデルであり,通常のRBMと異な る. • それ以外は同一なのでContras)ve Divergenceで最適化する
• 2層目以降は入力層がhになるのでそのまま
20 Newsgroup 2-‐D topic space(128 bits)
• 128LSAよりバイナリ化した提案手法のほうが精度がよい • LSAをバイナリ化すると精度は下がる • TF-‐IDFのほうが若干良い •
提案手法から上位100記事を選んでTF-‐IDFのスコアをつけるとTF-‐IDF より精度は高くなる
20bitでも高い精度を得ることができる
まとめ • トピック情報をbinaryで得ることで高速な検索 を実現 • Binaryだが表現力が高く既存手法よりも高い 精度 •
TF-‐IDFには劣るが,組み合わせることでより 高い精度を出すことができる