Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】Sparse Embedded k-means Clustering
Search
Shuhei Goda
January 21, 2018
Technology
0
300
【論文紹介】Sparse Embedded k-means Clustering
Shuhei Goda
January 21, 2018
Tweet
Share
More Decks by Shuhei Goda
See All by Shuhei Goda
Turing × atmaCup #18 - 1st Place Solution
hakubishin3
0
810
ジョブマッチングサービスにおける相互推薦システムの応用事例と課題
hakubishin3
3
900
とある事業会社にとっての Kaggler の魅力
hakubishin3
8
2.4k
課題の解像度が荒かったことで意図した改善ができなかった話
hakubishin3
3
980
Wantedly におけるマッチング体験を最大化させるための推薦システム
hakubishin3
4
1.2k
Recommendation Industry Talks #1 Opening
hakubishin3
1
370
会社訪問アプリ「Wantedly Visit」での シゴトに関する興味選択機能と推薦改善
hakubishin3
0
610
論文紹介: Improving Implicit Feedback-Based Recommendation through Multi-Behavior Alignment(Xin Xin et al., 2023)
hakubishin3
0
590
Feedback Prize - English Language Learning における擬似ラベルの品質向上の取り組み
hakubishin3
0
970
Other Decks in Technology
See All in Technology
お問い合わせ対応の改善取り組みとその進め方
masartz
1
370
問題解決に役立つ数理工学
recruitengineers
PRO
7
2.3k
Restarting_SRE_Road_to_SRENext_.pdf
_awache
0
170
Compose MultiplatformにおけるiOSネイティブ実装のベストプラクティス
enomotok
1
210
Riverpod & Riverpod Generatorを利用して状態管理部分の処理を書き換えてみる簡単な事例紹介
fumiyasac0921
0
110
Go製のマイグレーションツールの git-schemalex の紹介と運用方法
shinnosuke_kishida
1
410
Agile TPIを活用した品質改善事例
tomasagi
0
350
Javaの新しめの機能を知ったかぶれるようになる話 #kanjava
irof
3
4.9k
AWS CDK コントリビュート はじめの一歩
yendoooo
1
120
AIエージェントキャッチアップと論文リサーチ
os1ma
6
1.2k
Redefine_Possible
upsider_tech
0
290
チームビルディング「脅威モデリング」ワークショップ
koheiyoshikawa
0
150
Featured
See All Featured
StorybookのUI Testing Handbookを読んだ
zakiyama
28
5.6k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
28
1.6k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.4k
GraphQLの誤解/rethinking-graphql
sonatard
70
10k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Unsuck your backbone
ammeep
670
57k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Documentation Writing (for coders)
carmenintech
69
4.7k
Side Projects
sachag
452
42k
Writing Fast Ruby
sferik
628
61k
Mobile First: as difficult as doing things right
swwweet
223
9.5k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2.1k
Transcript
Sparse Embedded k-Means Clustering 2018/01/21 マジ卍論文読み会
概要 l 背景 ü K-meansクラスタリングは、高次元データに対して計算コストが高い。 ü 先行研究では、Random ProjectionやSVDなどの線形次元削減による 手法を用いて計算コストの改善を行っているが、それでも、 程度 の計算コストが生じている。
l 本論文の手法 ü Random Projectionで用いる写像行列にスパース行列を採用して、 高速な行列演算を実行することで、計算コストを に抑える。 l 結論 ü 本論文の手法は、先行研究の手法に比べて、十分なクラスタリング精度 を達成しつつ、計算時間を大幅に短縮している。 1 ) (nd O )) ( ( X nnz O
k平均法の計算コスト削減を目的とした先行手法 l SVDやRandom Projectionを使用した、データ行列の次元削減 ü state-of-the-artなRPでも、 の計算量と (2+ε)の精度 2
) log( 2 d ndk O
本手法の概要 l Sparse Embedded k-Means Clustering ü RPの写像行列にスパース行列を採用することで、RPの計算量を にする。
ü 埋め込み次元が である場合、信頼度 で、クラスタリングの最適解への近似精度が(1+ε)となる。 3 )) 6 , ) / 1 log( (max( 2 2 k O ) ( 1 O )) ( ( X nnz O
Sparse Embedding Algorithm 4 ランダム直交行列の作成 )) ( ( X
nnz O
ε-Approximation Embedded Matrix 5 k-Means Clusteringの目的は (1)式を満たす計画行列Dを得ること
ε-Approximation Embedded Matrix 6 元データXのクラスタリング精度に対して(1±ε)の誤差を持つような、 埋め込み後のデータ行列X^ を扱う
ε-Approximation Embedded Matrix 7 γとは、埋め込み後の データ行列X^に対する 計画行列D^が、最適解D^*に どの程度近いかを表す指標 D^がX^に対する最適解(γ=1)であるならば、
D^はデータ行列Xに対して精度(1+ε)を保証する
ε-Approximation Embedded Matrix l まとめると ü ε近似解(2)式を満たすような次元削減後のデータ行列X^があり、 ü D^がX^に対する最適解である(γ=1)ならば、 ü
D^はデータ行列Xに対して精度(1+ε)を保証する。 8
Sparse Embedding Matrix ≈ ε-Approximation Embedded Matrix 9 埋め込み次元の大きさに制約をかけることで、
ランダム直交行列R=(QΦ)'を使った埋め込み行列X^=XR'は、 1-O(δ)の確率で(2)式の条件を満たす。(証明は3章)
実験結果 10 ・クラスタリング精度 ・次元削減の計算時間