Slide 1

Slide 1 text

論⽂紹介 AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification Yukihiro Tagami (Yahoo Japan Corporation) KDDʼ17, August 13‒17, 2017, Halifax, NS, Canada Dec. 25th, 2017

Slide 2

Slide 2 text

2 概要 • 「数⼗万の選択肢の中から適切な解を、世界最速かつ⾼精度に 予測するAI技術」(Yahoo!広報) • 論⽂へのリンク • GitHubへのリンク

Slide 3

Slide 3 text

論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5. 関連研究 6. 結論 3

Slide 4

Slide 4 text

4 扱う問題 • E9treme .ulti-label $lassification(ラベル数:10#~10%) • 例1:Wikipediaに掲載する新しい記事に、過去のWikipediaのタグ情報 に基づき適切なタグを付与する(複数) • 例2:ウェブサイトの訪問者に、過去の⾏動履歴に基づき適切な広告を 表⽰する(複数)

Slide 5

Slide 5 text

5 XMCの難しさ • 計算量がクラス数に依存して膨⼤に(学習時&予測時) https://houxianxu.github.io/2015/04/23/logistic-softmax-regression/ • クラス数: 1. 識別関数( ()を個⽤意 • クラスかそれ以外か 2. ⼀定の閾値を超えたラベルを付与

Slide 6

Slide 6 text

6 XMCのアプローチ 1. FNCFEEJOHCBTFE • SLEEC[K Bhatia, NIPS 2015]など 2. USFFCBTFE • FastXML[MSR, Y Prabhu, KDD 2014]など 3. deep learning • [Jingzhuo Liu, SIGIR 2017]など 4. max-margin method • PD-Sparse[IEH Yen, ICML 2016]など ラベルを線型部分空間投影して有効数削減 グラフ理論を応⽤して⾼速化(精度に難) CNNなどを活⽤ マージン最⼤化で線形識別器を回す

Slide 7

Slide 7 text

7 AnnexMLの⽴ち位置 1. FNCFEEJOHCBTFE • SLEEC[K Bhatia, NIPS 2015]など 2. USFFCBTFE • FastXML[MSR, Y Prabhu, KDD 2014]など 3. deep learning • [Jingzhuo Liu, SIGIR 2017]など 4. max-margin method • PD-Sparse[IEH Yen, ICML 2016]など AnnexML「SLEECの三つの問題点を克服」 「予測速度と精度の両⾯でSLEECを超えた」 今⽇の説明の流れ ① embedding-based approach ② SLEEC ③ AnnexML

Slide 8

Slide 8 text

8 embedding-based approach • 仮定「ラベルベクトルは低ランク近似できる」 = / 0 ⋮ 2 ( = (/ , (0 , … , (5 = / 0 ⋮ 2 ( = (/ , (0 , … , (8 特徴ベクトル ラベルベクトル ( ∈ {0,1} ( = (/ , (0 , … , (8 = = / 0 ⋮ 2 次元削減:圧縮センシング、特異値分解 など ( = ) @ = = = B0 学習と予測

Slide 9

Slide 9 text

9 embedding based approachの問題点 • 仮定が現実世界で成⽴しない • 現実世界のデータでは「少数データにしか付与されていないラベル」 が多数存在する Table 2 in “AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification” 例:WikiLSHTC-325Kというデータセットでは Frequencyが5以下のラベルが50%を超える

Slide 10

Slide 10 text

10 例:特異値分解での低ランク近似 • 特異値分解 • を⾏列の⾏列としたとき、それぞれ, 次のユニタリ⾏列, が 存在して以下のように書ける(( は特異値) ( を⼤きい順に任意の =(< )個取り出すことで を低ランク近似できる → 「少数データにしか付与されていないラベル」 が多数存在する場合、すなわち「値の⼩さい特異 値が多数存在する」場合、うまく近似できない

Slide 11

Slide 11 text

11 例:特異値分解での低ランク近似 Table 1(a) in SLEEC[K Bhatia, NIPS 2015] • ≔ MBN O P M O P • Q R = ∗ Q R = ∑ ( 8 (V0 • − Q R = ∑ ( 8 (V8 =X0 特異値分解(SVD)での誤差は500次元への近似 でも⾮常に⼤きい →Localにすると誤差は⼩さくなる →SLEECは(より細かく分割しているため) 誤差がとても⼩さい

Slide 12

Slide 12 text

12 SLEEC (4parse -ocal &mbeddings for &xtreme Multi-label $lassification) 1. 全体を丸ごとembeddingするのではなく、ラベルベクトルに基づ いたK近傍のみを⼀つの集合と捉えてembeddingする • 仮定「ラベルベクトルは低ランク近似できる」を実現(計算量は増加) 2. 事前に特徴ベクトルに基づきk-means法で細かい集合に分割する ことで、⼤規模データセットに適応可能 • ここで「ラベルベクトルは特徴ベクトルにのみ基づいて決まる」と仮定を 置いている(この分割だと、通常は同じラベルが同空間に⼊る保証が無い)

Slide 13

Slide 13 text

13 SLEECの概要 ( = (/ , (0 , … , (8 = = / 0 ⋮ Y 0 R ⋮ [ = / 0 ⋮ 2 ( = (/ , (0 , … , (5 = / 0 ⋮ 2 ( = (/ , (0 , … , (8 特徴ベクトル ラベルベクトル ( ∈ {0,1} に基づくk-meansクラスタリング = / 0 ⋮ 2 [ ( = (/ , (0 , … , (8 = / 0 ⋮ Y ( = (/ , (0 , … , (8 各( において に基づくK近傍の抽出 @ = = = B0 学習と予測

Slide 14

Slide 14 text

14 SLEECでの新規データ予測 • 新規データに付与するラベルの予測 1. どの\に属するか特定 2. 所属する\内の全ての( について = B0でを予想 3. 多数決で採⽤されたを付与する

Slide 15

Slide 15 text

15 SLEECの問題点 1. k-mean法でのの分割時の仮定に問題がある • 同じラベルが同空間に⼊る保証が無いので精度が低くなっている 2. 新規データ予測のやり⽅が間接的 • 適切な\に配分されなければならないが、その決め⽅が(ラベルベクトル の情報ではなく)特徴ベクトルの情報に基づいている 3. 予測速度が遅い • k-mean法でを分割すれば速くできるが、1と2の問題点が強調される

Slide 16

Slide 16 text

論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5. 関連研究 6. 結論 16

Slide 17

Slide 17 text

17 AnnexML: "pproximate /earest /eighbor Search for E9treme .ulti--abel Classification • ラベルベクトルに基づくグラフ構造を⽤いた⼿法で、 SLEECの三つの問題点を克服する⼿法 • 諸悪の根源:SLEECにおける仮定「ラベルベクトルは特徴ベクトル にのみ基づいて決まる」 • 特徴ベクトルではなくラベルベクトルでデータセットを関連付ける

Slide 18

Slide 18 text

18 AnnexMLの概要 ( = (/ , (0 , … , (8 = = / 0 ⋮ Y 0 R ⋮ [ = / 0 ⋮ 2 ( = (/ , (0 , … , (5 = / 0 ⋮ 2 ( = (/ , (0 , … , (8 特徴ベクトル ラベルベクトル ( ∈ {0,1} に基づきグラフ構造を構築し分割 = / 0 ⋮ 2 [ ( = (/ , (0 , … , (8 @ = = = B0 学習と予測 • グラフ構造を保ち ながらembedding • SLEEC同様、似た の集合を⽤いて いる • グラフ構造を保ち ながらembedding • SLEEC同様、似た の集合を⽤いて いる

Slide 19

Slide 19 text

19 AnnexMLの概要(図解) ಛ௃ۭؒ =次元 ( = < ) 「グラフ理論」を応⽤し、⾼速化に成功 • グラフ構造に基づくグラフの分割 • Ο R をΟ に抑えられる • 新規データにおけるK近傍の探索 • 探索範囲を少数に抑えられる

Slide 20

Slide 20 text

論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5. 関連研究 6. 結論 20

Slide 21

Slide 21 text

21 様々な条件下で精度を⽐較 Table 2 in “AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification” @: k個のラベルを当てる タスクの精度 @ ≔ 1 abca d d (e f [ fV0 ghijh (V0

Slide 22

Slide 22 text

22 予測速度と精度でSLEECを上回る http://www.kdd.org/kdd2017/papers/view/annexml-approximate-nearest-neighbor-search-for-extreme-multi-label-classif 「グラフ理論」活⽤ 「グラフ理論」⾮活⽤

Slide 23

Slide 23 text

23 tree-based approachの⼿法も精度で上回る http://www.kdd.org/kdd2017/papers/view/annexml-approximate-nearest-neighbor-search-for-extreme-multi-label-classif

Slide 24

Slide 24 text

論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5. 関連研究 6. 結論 24

Slide 25

Slide 25 text

25 結論 • SLEECの三つの問題点を克服 • 予測速度と精度の両⾯でSLEECを超えた 今後の展望 • XMCのその他のアプローチでも、AnnexMLの考え⽅を取り⼊ れてみたい

Slide 26

Slide 26 text

Appendix

Slide 27

Slide 27 text

27 One-versus-oneの場合(p.5) • ⽤意する識別関数の数がg gB0 R 個になる