IQ-MEANS: Web-Scale Image Clustering Revisited

WEB-SCALE IMAGE CLUSTERING REVISITED IQ-MEANS 株式会社ドワンゴコンピュータヴィジョングループ大垣慶介

WEB-SCALE IMAGE CLUSTERING REVISITED •  Yannis Avrithis, Yannis Kalantidis, Evangelos
Anagnostopoulos, Ioannis Z. Emiris , from University of Athens, Yahoo! Labs •  Oral Session 2C - Statistical Methods and Learning •  プロダクト量子化したコードをK-meansする、IQ-Meansを提案

背景

WEB-SCALE K-MEANS Webの強豪企業たちの戦い。 •  2010, WWW: “Web-Scale K-Means Clustering” • 
Google •  ターゲットは特に画像ではない •  Mini batch法。sklearnにも実装されてるのでお世話になっている •  2015, CVPR: “Web Scale Photo Hash Clustering on A Single Machine” •  Facebook AIラボ •  バイナリ特徴を使う •  2015, ICCV: “Web-scale image clustering revisited” •  Yahoo! Labs •  コードブックを用いた、より効率のよいハッシング(IQ)

WEB-SCALE K-MEANS web企業は皆それぞれ、大量の画像をユーザーから投稿されており、大量の画像データ・特徴を実時間で行う問題を抱えているおそらく現在最大の画像データセットは、Flickrの100Mデータセット。 Alexnet最終層を特徴とすると、100M×4096×32bitで1.6TB

WEB-SCALE K-MEANS web企業は皆それぞれ、大量の画像をユーザーから投稿されており、大量の画像データ・特徴を実時間で行う問題を抱えている Google->Picasa おそらく現在最大の画像データセットは、Flickrの100Mデータセット。 Alexnet最終層を特徴とすると、100M×4096×32bitで1.6TB

WEB-SCALE K-MEANS web企業は皆それぞれ、大量の画像をユーザーから投稿されており、大量の画像データ・特徴を実時間で行う問題を抱えている Google->Picasa Facebook->Facebook おそらく現在最大の画像データセットは、Flickrの100Mデータセット。 Alexnet最終層を特徴とすると、100M×4096×32bitで1.6TB

WEB-SCALE K-MEANS web企業は皆それぞれ、大量の画像をユーザーから投稿されており、大量の画像データ・特徴を実時間で行う問題を抱えている Google->Picasa Facebook->Facebook Yahoo!->Flickr おそらく現在最大の画像データセットは、Flickrの100Mデータセット。 Alexnet最終層を特徴とすると、100M×4096×32bitで1.6TB

WEB-SCALE K-MEANS web企業は皆それぞれ、大量の画像をユーザーから投稿されており、大量の画像データ・特徴を実時間で行う問題を抱えている Google->Picasa Facebook->Facebook Yahoo!->Flickr Dwango->ニコニコ静画2M おそらく現在最大の画像データセットは、Flickrの100Mデータセット。 Alexnet最終層を特徴とすると、100M×4096×32bitで1.6TB
400k分データセット公開中!

WEB-SCALE K-MEANS web企業は皆それぞれ、大量の画像をユーザーから投稿されており、大量の画像データ・特徴を実時間で行う問題を抱えている Google->Picasa Facebook->Facebook Yahoo!->Flickr Dwango->ニコニコ静画2M おそらく現在最大の画像データセットは、Flickrの100Mデータセット。 Alexnet最終層を特徴とすると、100M×4096×32bitで1.6TB
https://nico-opendata.jp/ja/demo/similar/ index.html?image_id=4986539 類似画像検索 400k分データセット公開中!

WEB-SCALE K-MEANS web企業は皆それぞれ、大量の画像をユーザーから投稿されており、大量の画像データ・特徴を実時間で行う問題を抱えている Google->Picasa Facebook->Facebook Yahoo!->Flickr Dwango->ニコニコ静画2M ニコニコ動画13M おそらく現在最大の画像データセットは、Flickrの100Mデータセット。
Alexnet最終層を特徴とすると、100M×4096×32bitで1.6TB https://nico-opendata.jp/ja/demo/similar/ index.html?image_id=4986539 類似画像検索 400k分データセット公開中!

より小さな空間でのK-MEANS 1M~1B枚の巨大な画像データセットを扱いたい。そのためにはメモリ・時間を節約したい。1台のマシンのメモリに全部乗るくらいのサイズ(1 枚100Byte以下)で扱いたい。プロダクト量子化やバイナリハッシングといった、元の距離の空間を保つように小さな空間にエンコードする研究がある。ここでの問題は、エンコーディングされた空間の特徴を活かしながらクラスタリングを達成すること。例えば、元空間にデコードしてから距離を計算してクラスタリングしてしまっては、せっかくエンコードした意味が無い。

WEB-SCALE K-MEANS Webの強豪企業たちの戦い。 •  2010, WWW: “Web-Scale K-Means Clustering” • 
Google •  ターゲットは特に画像ではない •  Mini batch法。sklearnにも実装されてるのでお世話になっている •  2015, CVPR: “Web Scale Photo Hash Clustering on A Single Machine” •  Facebook AIラボ •  バイナリ特徴を使う •  2015, ICCV: “Web-scale image clustering revisited” •  Yahoo! Labs •  コードブックを用いた、より効率のよいハッシング(IQ)

BK-MEANS バイナリ特徴のK-means。入力データをバイナリにエンコードして、セントロイドもバイナリとして得る 1.  エンコードは Iterative Quantization •  “Iterative quantization:
A Procrustean approach to learning binary codes for large-scale image retrieval.” •  実数からハッシュに落とす時に、回転行列Rをかけてからハッシュにする。1) ハッシュ割り当て、2)回転の最適化、を交互に繰り返すのでiterative 2.  UpdateStep •  割り当てられたベクトルを全部足して、各次元ごとに正になるか負になるかで更新できる 3.  Assignment Step •  “Fast search in hamming space with multi-index hashing” •  N次元ハッシュで距離N以下だったら必ず1次元は衝突する、という原理に基づき高速探索

PQ空間

SUBSPACE QUANTIZATION 詳しくは、第27回勉強会での @ketsumedo_yarou の資料を参照 http://www.slideshare.net/ketsumedo_yarou/presentation-for-web-44080684?related=1 0.34 0.22 0.68 1.02
0.03 0.71 入力特徴群 2つの部分空間毎にk-means (一部データでも十分な精度) 割り当てられたセントロイドで 2次元にエンコード(全データ) … 4096次元とか

0.03 0.71 入力特徴群 … 2つの部分空間毎にk-means (一部データでも十分な精度) 割り当てられたセントロイドで 2次元にエンコード(全データ) ID:2 0.32 0.27 0.73 ID:501 1.08 0.01 0.78 … … … … … … この結果はコードブックとして、距離の計算などに使い回す Kはこの論文では128~1024 4096次元とか

0.03 0.71 入力特徴群 … 2つの部分空間毎にk-means (一部データでも十分な精度) 割り当てられたセントロイドで 2次元にエンコード(全データ) ID:2 0.32 0.27 0.73 ID:501 1.08 0.01 0.78 … … … … … … 2 501 … この結果はコードブックとして、距離の計算などに使い回す Kはこの論文では128~1024 4096次元とか

問題の整理 1.  全てのデータは2次元(ただし離散) ベクトルになっている。セルの番地で表現できる 2.  ただし、2次元空間での距離は元空間での距離を表さない。 3.  それぞれのセルに対応する元空間
でのベクトルをコードブックに保存してあるので、それを用いてセル同士の距離は計算できる 4.  必須項目ではないが、この手法では、データは2次元セル番地だが、セントロイドは元空間で求める。この条件から、高速・省メモリでk-meansを行う

手法

IQ-MEANSアルゴリズム流れ 2. Assignment Step 2.1 simple 2.2 fast 1. Update
Step 0. エンコード

エンコード “Optimized Product Quantization for Approximate Nearest Neighbor Search”(by MSR)
に従う。先の図のように前半次元と後半次元でやってもいいんだけど、簡単に最適化する方法が有るので。 •  PQかける前の生ベクトルに回転行列RをかけてからPQすることで、より量子化歪みを小さくする •  1. 回転を固定して、量子化歪みを最小化するようにPQのエンコーダを求める。(普通にk-means) •  2. PQのエンコーダを固定して、量子化歪みを最小化するように回転を求める。(直交プロクラステス回転を求める問題であり、閉形式解が求まる) •  1と2を収束するまで繰り返す

UPDATE STEP セントロイドCmに割り当てられるセルについて、そのセルの平均ベクトルの重み付き和が割り当てられる pα: いくつのサンプルがそのセルに割り当てられているか µα: そのセルの(生空間での)平均ベクトル。コードブックから取り出す

ASSIGMENT STEP (1) SIMPLE すべてのセルuについて、元空間でセントロイドとの距離を計測して、最小のものをとる 1024x1024個のセルについて4096次元の距離計算をk回やる。まだ計算時間がツライ

ASSIGNMENT STEP (2) FAST せっかくセルの2次元空間に落としてるんだから、全部のセントロイドと全部のセルを比較する必要はないよね。。すべてのセントロイドについて以下の操作をする 1.  サブ空間U1, U2それぞれの中で距離が近いw個(論文で
は16)のインデックスを取り出す 2.  近い順に並べた新しい2次元 (例b) を作る 3.  最も近いセル(新しい2次元での(0,0))から初めて、距離が近い順に周囲のセルを探索していく。 1.  そのセルの、今までのセントロイドとの最小距離よりも小さければ更新 4.  終了条件に達したら次のセントロイドへ 1.  終了条件は、それまでに訪問したセルに含まれていた累計サンプル数が閾値T(論文中ではT=全サンプル/k)を超えたら。 2.  あるいは、w×wを全部訪問したら

コントリビューション 1. 2次元にPQした空間で効率的に探索する方法を提案 2. Centroid同士の距離を効率的に探索することで、kの推定を効率的にやる方法を提案

コントリビューション 1. 2次元にPQした空間で効率的に探索する方法を提案 2. Centroid同士の距離を効率的に探索することで、kの推定を効率的にやる方法を提案おまけの、ちょっと嬉しい話

Kの推定 1.  適当に大きめのKを決める 2.  全てのセントロイドについて、近傍にあるセントロイドを求めておく 1.  これは、assignmentステップと同時に行えることに注意 3. 
全てのセントロイドを等方正規分布と仮定して分散を求めておく 4.  閾値以上近すぎるセントロイド同士を間引くなお、このアイデア自体は著者らのECCV2012の論文。この論文での主張は、それを追加コスト少なくできるよってこと閾値をきつめにすると、kの初期値に依存せず決まるようになる

手法

他のK-MEANS手法との比較 AKM: kd-treeを用いた高速クラスタリング RR: Ranked retrieval, セントロイドから近いサンプルのみ考慮して割り当てるというのが本手法と同じアイデア。空間は元空間 Distortionは、各セントロイドに割り当てられたサンプルの、セントロイドからの距離の平均。なお、BkmeansはAKMよりちょっと速いだけだったから外しましたとのこと。これは納得が
いってない。ハッシュなのに。。? SIFT1Mデータセット、イテレーション20回後

巨大データセットでの実験 Yahoo flicker 100M dataset •  Flickrに投稿された100M枚のデータセット •  ここから、Alexnetの最終層を特徴として抽出して(4096次元)、PCAで 128次元にしたもの
•  DKM: Apache Spark をもちいた、分散k-means。スケールアウト手法との比較。 CKM: 2次元のセル座標そのものをk-meansした場合。ただのベースライン。そんなに比較する意味は無い precisionは、教師ラベルありデータをクラスタリングした、クラスタ内のラベルの純度(最も多いラベルの割合) •  分散手法よりも全然早い。

WEB企業的に、実用上はたしかに、k-meansを正確にやらなきゃいけないというシーンはあまりない。速度・メモリ・マシン台数を減らすほうが、実用上は大事。 •  安直に金をつぎ込んでsparkで解決するべき問題じゃないという考察は素晴らしい。 •  実用上のクラスタリングの精度、というのは難しい。ユーザーさんが納得できる結果であればいいってことが多い。 • 
クラスタリング自体が主問題なら、コードも公開されているし、IQ- meansを利用する価値はある。 •  https://github.com/iavr/iqm •  ただ、PQに特有の、コードブックを利用しなきゃ距離計算が出来ないデメリットは有るので、元空間の距離を保った次元圧縮を使ったほうが取り回しやすいシーンは多いか。 •  あと、ハイパーパラメータが多いところに不安がある。閾値設定とかミスると論文通りの性能は出ないかと •  たぶんこの論文でBk-meansが遅かったのもそういう事情なんじゃないかな

WE’RE HIRING

IQ-MEANS: Web-Scale Image Clustering Revisited

IQ-MEANS: Web-Scale Image Clustering Revisited

Keisuke OGAKI

More Decks by Keisuke OGAKI

Featured

Transcript

WEB-SCALE IMAGE CLUSTERING REVISITED IQ-MEANS 株式会社ドワンゴコンピュータヴィジョングループ大垣慶介

WEB-SCALE IMAGE CLUSTERING REVISITED •  Yannis Avrithis, Yannis Kalantidis, Evangelos

背景

WEB-SCALE K-MEANS Webの強豪企業たちの戦い。 •  2010, WWW: “Web-Scale K-Means Clustering” •

WEB-SCALE K-MEANS Webの強豪企業たちの戦い。 •  2010, WWW: “Web-Scale K-Means Clustering” •

BK-MEANS バイナリ特徴のK-means。入力データをバイナリにエンコードして、セントロイドもバイナリとして得る 1.  エンコードは Iterative Quantization •  “Iterative quantization:

PQ空間

SUBSPACE QUANTIZATION 詳しくは、第27回勉強会での @ketsumedo_yarou の資料を参照 http://www.slideshare.net/ketsumedo_yarou/presentation-for-web-44080684?related=1 0.34 0.22 0.68 1.02

SUBSPACE QUANTIZATION 詳しくは、第27回勉強会での @ketsumedo_yarou の資料を参照 http://www.slideshare.net/ketsumedo_yarou/presentation-for-web-44080684?related=1 0.34 0.22 0.68 1.02

SUBSPACE QUANTIZATION 詳しくは、第27回勉強会での @ketsumedo_yarou の資料を参照 http://www.slideshare.net/ketsumedo_yarou/presentation-for-web-44080684?related=1 0.34 0.22 0.68 1.02

問題の整理 1.  全てのデータは2次元(ただし離散) ベクトルになっている。セルの番地で表現できる 2.  ただし、2次元空間での距離は元空間での距離を表さない。 3.  それぞれのセルに対応する元空間

手法

IQ-MEANSアルゴリズム流れ 2. Assignment Step 2.1 simple 2.2 fast 1. Update

エンコード “Optimized Product Quantization for Approximate Nearest Neighbor Search”(by MSR)

ASSIGMENT STEP (1) SIMPLE すべてのセルuについて、元空間でセントロイドとの距離を計測して、最小のものをとる 1024x1024個のセルについて4096次元の距離計算をk回やる。まだ計算時間がツライ

コントリビューション 1. 2次元にPQした空間で効率的に探索する方法を提案 2. Centroid同士の距離を効率的に探索することで、kの推定を効率的にやる方法を提案

コントリビューション 1. 2次元にPQした空間で効率的に探索する方法を提案 2. Centroid同士の距離を効率的に探索することで、kの推定を効率的にやる方法を提案おまけの、ちょっと嬉しい話

Kの推定 1.  適当に大きめのKを決める 2.  全てのセントロイドについて、近傍にあるセントロイドを求めておく 1.  これは、assignmentステップと同時に行えることに注意 3.

手法

巨大データセットでの実験 Yahoo flicker 100M dataset •  Flickrに投稿された100M枚のデータセット •  ここから、Alexnetの最終層を特徴として抽出して(4096次元)、PCAで 128次元にしたもの

WE’RE HIRING

WE’RE HIRING