論文紹介：AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification / AnnexML

Slide 1

Slide 1 text

論⽂紹介 AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification Yukihiro Tagami (Yahoo Japan Corporation) KDDʼ17, August 13‒17, 2017, Halifax, NS, Canada Dec. 25th, 2017

Slide 2

Slide 2 text

2 概要 • 「数⼗万の選択肢の中から適切な解を、世界最速かつ⾼精度に予測するAI技術」（Yahoo!広報） • 論⽂へのリンク • GitHubへのリンク

Slide 3

Slide 3 text

論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5. 関連研究 6. 結論 3

Slide 4

Slide 4 text

4 扱う問題 • E9treme .ulti-label $lassification（ラベル数：10#~10%） • 例1：Wikipediaに掲載する新しい記事に、過去のWikipediaのタグ情報に基づき適切なタグを付与する（複数） • 例2：ウェブサイトの訪問者に、過去の⾏動履歴に基づき適切な広告を表⽰する（複数）

Slide 5

Slide 5 text

5 XMCの難しさ • 計算量がクラス数に依存して膨⼤に（学習時＆予測時） https://houxianxu.github.io/2015/04/23/logistic-softmax-regression/ • クラス数： 1. 識別関数( ()を個⽤意 • クラスかそれ以外か 2. ⼀定の閾値を超えたラベルを付与

Slide 6

Slide 6 text

6 XMCのアプローチ 1. FNCFEEJOHCBTFE • SLEEC[K Bhatia, NIPS 2015]など 2. USFFCBTFE • FastXML[MSR, Y Prabhu, KDD 2014]など 3. deep learning • [Jingzhuo Liu, SIGIR 2017]など 4. max-margin method • PD-Sparse[IEH Yen, ICML 2016]などラベルを線型部分空間投影して有効数削減グラフ理論を応⽤して⾼速化（精度に難） CNNなどを活⽤マージン最⼤化で線形識別器を回す

Slide 7

Slide 7 text

7 AnnexMLの⽴ち位置 1. FNCFEEJOHCBTFE • SLEEC[K Bhatia, NIPS 2015]など 2. USFFCBTFE • FastXML[MSR, Y Prabhu, KDD 2014]など 3. deep learning • [Jingzhuo Liu, SIGIR 2017]など 4. max-margin method • PD-Sparse[IEH Yen, ICML 2016]など AnnexML「SLEECの三つの問題点を克服」「予測速度と精度の両⾯でSLEECを超えた」今⽇の説明の流れ ① embedding-based approach ② SLEEC ③ AnnexML

Slide 8

Slide 8 text

8 embedding-based approach • 仮定「ラベルベクトルは低ランク近似できる」 = / 0 ⋮ 2 ( = (/ , (0 , … , (5 = / 0 ⋮ 2 ( = (/ , (0 , … , (8 特徴ベクトルラベルベクトル ( ∈ {0,1} ( = (/ , (0 , … , (8 = = / 0 ⋮ 2 次元削減：圧縮センシング、特異値分解など ( = ) @ = = = B0 学習と予測

Slide 9

Slide 9 text

9 embedding based approachの問題点 • 仮定が現実世界で成⽴しない • 現実世界のデータでは「少数データにしか付与されていないラベル」が多数存在する Table 2 in “AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification” 例：WikiLSHTC-325Kというデータセットでは Frequencyが5以下のラベルが50％を超える

Slide 10

Slide 10 text

10 例：特異値分解での低ランク近似 • 特異値分解 • を⾏列の⾏列としたとき、それぞれ, 次のユニタリ⾏列, が存在して以下のように書ける（( は特異値） ( を⼤きい順に任意の =(< )個取り出すことでを低ランク近似できる → 「少数データにしか付与されていないラベル」が多数存在する場合、すなわち「値の⼩さい特異値が多数存在する」場合、うまく近似できない

Slide 11

Slide 11 text

11 例：特異値分解での低ランク近似 Table 1(a) in SLEEC[K Bhatia, NIPS 2015] • ≔ MBN O P M O P • Q R = ∗ Q R = ∑ ( 8 (V0 • − Q R = ∑ ( 8 (V8 =X0 特異値分解(SVD)での誤差は500次元への近似でも⾮常に⼤きい →Localにすると誤差は⼩さくなる →SLEECは（より細かく分割しているため）誤差がとても⼩さい

Slide 12

Slide 12 text

12 SLEEC (4parse -ocal &mbeddings for &xtreme Multi-label $lassification) 1. 全体を丸ごとembeddingするのではなく、ラベルベクトルに基づいたK近傍のみを⼀つの集合と捉えてembeddingする • 仮定「ラベルベクトルは低ランク近似できる」を実現（計算量は増加） 2. 事前に特徴ベクトルに基づきk-means法で細かい集合に分割することで、⼤規模データセットに適応可能 • ここで「ラベルベクトルは特徴ベクトルにのみ基づいて決まる」と仮定を置いている（この分割だと、通常は同じラベルが同空間に⼊る保証が無い）

Slide 13

Slide 13 text

13 SLEECの概要 ( = (/ , (0 , … , (8 = = / 0 ⋮ Y 0 R ⋮ [ = / 0 ⋮ 2 ( = (/ , (0 , … , (5 = / 0 ⋮ 2 ( = (/ , (0 , … , (8 特徴ベクトルラベルベクトル ( ∈ {0,1} に基づくk-meansクラスタリング = / 0 ⋮ 2 [ ( = (/ , (0 , … , (8 = / 0 ⋮ Y ( = (/ , (0 , … , (8 各( においてに基づくK近傍の抽出 @ = = = B0 学習と予測

Slide 14

Slide 14 text

14 SLEECでの新規データ予測 • 新規データに付与するラベルの予測 1. どの\に属するか特定 2. 所属する\内の全ての( について = B0でを予想 3. 多数決で採⽤されたを付与する

Slide 15

Slide 15 text

15 SLEECの問題点 1. k-mean法でのの分割時の仮定に問題がある • 同じラベルが同空間に⼊る保証が無いので精度が低くなっている 2. 新規データ予測のやり⽅が間接的 • 適切な\に配分されなければならないが、その決め⽅が（ラベルベクトルの情報ではなく）特徴ベクトルの情報に基づいている 3. 予測速度が遅い • k-mean法でを分割すれば速くできるが、1と2の問題点が強調される

Slide 16

Slide 16 text

論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5. 関連研究 6. 結論 16

Slide 17

Slide 17 text

17 AnnexML: "pproximate /earest /eighbor Search for E9treme .ulti--abel Classification • ラベルベクトルに基づくグラフ構造を⽤いた⼿法で、 SLEECの三つの問題点を克服する⼿法 • 諸悪の根源：SLEECにおける仮定「ラベルベクトルは特徴ベクトルにのみ基づいて決まる」 • 特徴ベクトルではなくラベルベクトルでデータセットを関連付ける

Slide 18

Slide 18 text

18 AnnexMLの概要 ( = (/ , (0 , … , (8 = = / 0 ⋮ Y 0 R ⋮ [ = / 0 ⋮ 2 ( = (/ , (0 , … , (5 = / 0 ⋮ 2 ( = (/ , (0 , … , (8 特徴ベクトルラベルベクトル ( ∈ {0,1} に基づきグラフ構造を構築し分割 = / 0 ⋮ 2 [ ( = (/ , (0 , … , (8 @ = = = B0 学習と予測 • グラフ構造を保ちながらembedding • SLEEC同様、似たの集合を⽤いている • グラフ構造を保ちながらembedding • SLEEC同様、似たの集合を⽤いている

Slide 19

Slide 19 text

19 AnnexMLの概要（図解） ಛ௃ۭؒ =次元 ( = < ) 「グラフ理論」を応⽤し、⾼速化に成功 • グラフ構造に基づくグラフの分割 • Ο R をΟ に抑えられる • 新規データにおけるK近傍の探索 • 探索範囲を少数に抑えられる

Slide 20

Slide 20 text

論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5. 関連研究 6. 結論 20

Slide 21

Slide 21 text

21 様々な条件下で精度を⽐較 Table 2 in “AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification” @: k個のラベルを当てるタスクの精度 @ ≔ 1 abca d d (e f [ fV0 ghijh (V0

Slide 22

Slide 22 text

22 予測速度と精度でSLEECを上回る http://www.kdd.org/kdd2017/papers/view/annexml-approximate-nearest-neighbor-search-for-extreme-multi-label-classif 「グラフ理論」活⽤「グラフ理論」⾮活⽤

Slide 23

Slide 23 text

23 tree-based approachの⼿法も精度で上回る http://www.kdd.org/kdd2017/papers/view/annexml-approximate-nearest-neighbor-search-for-extreme-multi-label-classif

Slide 24

Slide 24 text

論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5. 関連研究 6. 結論 24

Slide 25

Slide 25 text

25 結論 • SLEECの三つの問題点を克服 • 予測速度と精度の両⾯でSLEECを超えた今後の展望 • XMCのその他のアプローチでも、AnnexMLの考え⽅を取り⼊れてみたい

Slide 26

Slide 26 text

Appendix

Slide 27

Slide 27 text

27 One-versus-oneの場合（p.5） • ⽤意する識別関数の数がg gB0 R 個になる