論文紹介：AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification / AnnexML

論⽂紹介 AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification
Yukihiro Tagami (Yahoo Japan Corporation) KDDʼ17, August 13‒17, 2017, Halifax, NS, Canada Dec. 25th, 2017

2 概要 • 「数⼗万の選択肢の中から適切な解を、世界最速かつ⾼精度に予測するAI技術」（Yahoo!広報） • 論⽂へのリンク • GitHubへのリンク

論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5.
関連研究 6. 結論 3

4 扱う問題 • E9treme .ulti-label $lassification（ラベル数：10#~10%） • 例1：Wikipediaに掲載する新しい記事に、過去のWikipediaのタグ情報に基づき適切なタグを付与する（複数） •
例2：ウェブサイトの訪問者に、過去の⾏動履歴に基づき適切な広告を表⽰する（複数）

5 XMCの難しさ • 計算量がクラス数に依存して膨⼤に（学習時＆予測時） https://houxianxu.github.io/2015/04/23/logistic-softmax-regression/ • クラス数： 1. 識別関数( ()を個⽤意
• クラスかそれ以外か 2. ⼀定の閾値を超えたラベルを付与

6 XMCのアプローチ 1. FNCFEEJOHCBTFE • SLEEC[K Bhatia, NIPS 2015]など 2.
USFFCBTFE • FastXML[MSR, Y Prabhu, KDD 2014]など 3. deep learning • [Jingzhuo Liu, SIGIR 2017]など 4. max-margin method • PD-Sparse[IEH Yen, ICML 2016]などラベルを線型部分空間投影して有効数削減グラフ理論を応⽤して⾼速化（精度に難） CNNなどを活⽤マージン最⼤化で線形識別器を回す

7 AnnexMLの⽴ち位置 1. FNCFEEJOHCBTFE • SLEEC[K Bhatia, NIPS 2015]など 2.
USFFCBTFE • FastXML[MSR, Y Prabhu, KDD 2014]など 3. deep learning • [Jingzhuo Liu, SIGIR 2017]など 4. max-margin method • PD-Sparse[IEH Yen, ICML 2016]など AnnexML「SLEECの三つの問題点を克服」「予測速度と精度の両⾯でSLEECを超えた」今⽇の説明の流れ ① embedding-based approach ② SLEEC ③ AnnexML

8 embedding-based approach • 仮定「ラベルベクトルは低ランク近似できる」 = / 0 ⋮ 2
( = (/ , (0 , … , (5 = / 0 ⋮ 2 ( = (/ , (0 , … , (8 特徴ベクトルラベルベクトル ( ∈ {0,1} ( = (/ , (0 , … , (8 = = / 0 ⋮ 2 次元削減：圧縮センシング、特異値分解など ( = ) @ = = = B0 学習と予測

9 embedding based approachの問題点 • 仮定が現実世界で成⽴しない • 現実世界のデータでは「少数データにしか付与されていないラベル」が多数存在する Table
2 in “AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification” 例：WikiLSHTC-325Kというデータセットでは Frequencyが5以下のラベルが50％を超える

10 例：特異値分解での低ランク近似 • 特異値分解 • を⾏列の⾏列としたとき、それぞれ, 次のユニタリ⾏列, が存在して以下のように書ける（( は特異値）
( を⼤きい順に任意の =(< )個取り出すことでを低ランク近似できる → 「少数データにしか付与されていないラベル」が多数存在する場合、すなわち「値の⼩さい特異値が多数存在する」場合、うまく近似できない

11 例：特異値分解での低ランク近似 Table 1(a) in SLEEC[K Bhatia, NIPS 2015] •
≔ MBN O P M O P • Q R = ∗ Q R = ∑ ( 8 (V0 • − Q R = ∑ ( 8 (V8 =X0 特異値分解(SVD)での誤差は500次元への近似でも⾮常に⼤きい →Localにすると誤差は⼩さくなる →SLEECは（より細かく分割しているため）誤差がとても⼩さい

12 SLEEC (4parse -ocal &mbeddings for &xtreme Multi-label $lassification) 1.
全体を丸ごとembeddingするのではなく、ラベルベクトルに基づいたK近傍のみを⼀つの集合と捉えてembeddingする • 仮定「ラベルベクトルは低ランク近似できる」を実現（計算量は増加） 2. 事前に特徴ベクトルに基づきk-means法で細かい集合に分割することで、⼤規模データセットに適応可能 • ここで「ラベルベクトルは特徴ベクトルにのみ基づいて決まる」と仮定を置いている（この分割だと、通常は同じラベルが同空間に⼊る保証が無い）

13 SLEECの概要 ( = (/ , (0 , … ,
(8 = = / 0 ⋮ Y 0 R ⋮ [ = / 0 ⋮ 2 ( = (/ , (0 , … , (5 = / 0 ⋮ 2 ( = (/ , (0 , … , (8 特徴ベクトルラベルベクトル ( ∈ {0,1} に基づくk-meansクラスタリング = / 0 ⋮ 2 [ ( = (/ , (0 , … , (8 = / 0 ⋮ Y ( = (/ , (0 , … , (8 各( においてに基づくK近傍の抽出 @ = = = B0 学習と予測

14 SLEECでの新規データ予測 • 新規データに付与するラベルの予測 1. どの\に属するか特定 2. 所属する\内の全ての( について =
B0でを予想 3. 多数決で採⽤されたを付与する

15 SLEECの問題点 1. k-mean法でのの分割時の仮定に問題がある • 同じラベルが同空間に⼊る保証が無いので精度が低くなっている 2. 新規データ予測のやり⽅が間接的 • 適切な\に配分されなければならないが、その決め⽅が（ラベルベクトル
の情報ではなく）特徴ベクトルの情報に基づいている 3. 予測速度が遅い • k-mean法でを分割すれば速くできるが、1と2の問題点が強調される

17 AnnexML: "pproximate /earest /eighbor Search for E9treme .ulti--abel Classification
• ラベルベクトルに基づくグラフ構造を⽤いた⼿法で、 SLEECの三つの問題点を克服する⼿法 • 諸悪の根源：SLEECにおける仮定「ラベルベクトルは特徴ベクトルにのみ基づいて決まる」 • 特徴ベクトルではなくラベルベクトルでデータセットを関連付ける

18 AnnexMLの概要 ( = (/ , (0 , … ,
(8 = = / 0 ⋮ Y 0 R ⋮ [ = / 0 ⋮ 2 ( = (/ , (0 , … , (5 = / 0 ⋮ 2 ( = (/ , (0 , … , (8 特徴ベクトルラベルベクトル ( ∈ {0,1} に基づきグラフ構造を構築し分割 = / 0 ⋮ 2 [ ( = (/ , (0 , … , (8 @ = = = B0 学習と予測 • グラフ構造を保ちながらembedding • SLEEC同様、似たの集合を⽤いている • グラフ構造を保ちながらembedding • SLEEC同様、似たの集合を⽤いている

19 AnnexMLの概要（図解） ಛ௃ۭؒ =次元 ( = < ) 「グラフ理論」を応⽤し、⾼速化に成功 •
グラフ構造に基づくグラフの分割 • Ο R をΟ に抑えられる • 新規データにおけるK近傍の探索 • 探索範囲を少数に抑えられる

21 様々な条件下で精度を⽐較 Table 2 in “AnnexML: Approximate Nearest Neighbor Search
for Extreme Multi-label Classification” @: k個のラベルを当てるタスクの精度 @ ≔ 1 abca d d (e f [ fV0 ghijh (V0

22 予測速度と精度でSLEECを上回る http://www.kdd.org/kdd2017/papers/view/annexml-approximate-nearest-neighbor-search-for-extreme-multi-label-classif 「グラフ理論」活⽤「グラフ理論」⾮活⽤

23 tree-based approachの⼿法も精度で上回る http://www.kdd.org/kdd2017/papers/view/annexml-approximate-nearest-neighbor-search-for-extreme-multi-label-classif

25 結論 • SLEECの三つの問題点を克服 • 予測速度と精度の両⾯でSLEECを超えた今後の展望 • XMCのその他のアプローチでも、AnnexMLの考え⽅を取り⼊れてみたい

Appendix

27 One-versus-oneの場合（p.5） • ⽤意する識別関数の数がg gB0 R 個になる

論文紹介：AnnexML: Approximate Nearest Neighbor Sear...

論文紹介：AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification / AnnexML

Shotaro Ishihara

More Decks by Shotaro Ishihara

Other Decks in Technology

Featured

Transcript

論⽂紹介 AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification

2 概要 • 「数⼗万の選択肢の中から適切な解を、世界最速かつ⾼精度に予測するAI技術」（Yahoo!広報） • 論⽂へのリンク • GitHubへのリンク

論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5.

4 扱う問題 • E9treme .ulti-label $lassification（ラベル数：10#~10%） • 例1：Wikipediaに掲載する新しい記事に、過去のWikipediaのタグ情報に基づき適切なタグを付与する（複数） •

5 XMCの難しさ • 計算量がクラス数に依存して膨⼤に（学習時＆予測時） https://houxianxu.github.io/2015/04/23/logistic-softmax-regression/ • クラス数： 1. 識別関数( ()を個⽤意

6 XMCのアプローチ 1. FNCFEEJOHCBTFE • SLEEC[K Bhatia, NIPS 2015]など 2.

7 AnnexMLの⽴ち位置 1. FNCFEEJOHCBTFE • SLEEC[K Bhatia, NIPS 2015]など 2.

8 embedding-based approach • 仮定「ラベルベクトルは低ランク近似できる」 = / 0 ⋮ 2

9 embedding based approachの問題点 • 仮定が現実世界で成⽴しない • 現実世界のデータでは「少数データにしか付与されていないラベル」が多数存在する Table

10 例：特異値分解での低ランク近似 • 特異値分解 • を⾏列の⾏列としたとき、それぞれ, 次のユニタリ⾏列, が存在して以下のように書ける（( は特異値）

11 例：特異値分解での低ランク近似 Table 1(a) in SLEEC[K Bhatia, NIPS 2015] •

12 SLEEC (4parse -ocal &mbeddings for &xtreme Multi-label $lassification) 1.

13 SLEECの概要 ( = (/ , (0 , … ,

14 SLEECでの新規データ予測 • 新規データに付与するラベルの予測 1. どの\に属するか特定 2. 所属する\内の全ての( について =

論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5.

17 AnnexML: "pproximate /earest /eighbor Search for E9treme .ulti--abel Classification

18 AnnexMLの概要 ( = (/ , (0 , … ,

19 AnnexMLの概要（図解） ಛ௃ۭؒ =次元 ( = < ) 「グラフ理論」を応⽤し、⾼速化に成功 •

論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5.

21 様々な条件下で精度を⽐較 Table 2 in “AnnexML: Approximate Nearest Neighbor Search

22 予測速度と精度でSLEECを上回る http://www.kdd.org/kdd2017/papers/view/annexml-approximate-nearest-neighbor-search-for-extreme-multi-label-classif 「グラフ理論」活⽤「グラフ理論」⾮活⽤

23 tree-based approachの⼿法も精度で上回る http://www.kdd.org/kdd2017/papers/view/annexml-approximate-nearest-neighbor-search-for-extreme-multi-label-classif

論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5.

25 結論 • SLEECの三つの問題点を克服 • 予測速度と精度の両⾯でSLEECを超えた今後の展望 • XMCのその他のアプローチでも、AnnexMLの考え⽅を取り⼊れてみたい

Appendix

27 One-versus-oneの場合（p.5） • ⽤意する識別関数の数がg gB0 R 個になる