Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:AnnexML: Approximate Nearest Neighbor Sear...

論文紹介:AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification / AnnexML

Shotaro Ishihara

December 26, 2017
Tweet

More Decks by Shotaro Ishihara

Other Decks in Technology

Transcript

  1. 論⽂紹介 AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification

    Yukihiro Tagami (Yahoo Japan Corporation) KDDʼ17, August 13‒17, 2017, Halifax, NS, Canada Dec. 25th, 2017
  2. 6 XMCのアプローチ 1. FNCFEEJOHCBTFE • SLEEC[K Bhatia, NIPS 2015]など 2.

    USFFCBTFE • FastXML[MSR, Y Prabhu, KDD 2014]など 3. deep learning • [Jingzhuo Liu, SIGIR 2017]など 4. max-margin method • PD-Sparse[IEH Yen, ICML 2016]など ラベルを線型部分空間投影して有効数削減 グラフ理論を応⽤して⾼速化(精度に難) CNNなどを活⽤ マージン最⼤化で線形識別器を回す
  3. 7 AnnexMLの⽴ち位置 1. FNCFEEJOHCBTFE • SLEEC[K Bhatia, NIPS 2015]など 2.

    USFFCBTFE • FastXML[MSR, Y Prabhu, KDD 2014]など 3. deep learning • [Jingzhuo Liu, SIGIR 2017]など 4. max-margin method • PD-Sparse[IEH Yen, ICML 2016]など AnnexML「SLEECの三つの問題点を克服」 「予測速度と精度の両⾯でSLEECを超えた」 今⽇の説明の流れ ① embedding-based approach ② SLEEC ③ AnnexML
  4. 8 embedding-based approach • 仮定「ラベルベクトルは低ランク近似できる」 = / 0 ⋮ 2

    ( = (/ , (0 , … , (5 = / 0 ⋮ 2 ( = (/ , (0 , … , (8 特徴ベクトル ラベルベクトル ( ∈ {0,1} ( = (/ , (0 , … , (8 = = / 0 ⋮ 2 次元削減:圧縮センシング、特異値分解 など ( = ) @ = = = B0 学習と予測
  5. 9 embedding based approachの問題点 • 仮定が現実世界で成⽴しない • 現実世界のデータでは「少数データにしか付与されていないラベル」 が多数存在する Table

    2 in “AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification” 例:WikiLSHTC-325Kというデータセットでは Frequencyが5以下のラベルが50%を超える
  6. 10 例:特異値分解での低ランク近似 • 特異値分解 • を⾏列の⾏列としたとき、それぞれ, 次のユニタリ⾏列, が 存在して以下のように書ける(( は特異値)

    ( を⼤きい順に任意の =(< )個取り出すことで を低ランク近似できる → 「少数データにしか付与されていないラベル」 が多数存在する場合、すなわち「値の⼩さい特異 値が多数存在する」場合、うまく近似できない
  7. 11 例:特異値分解での低ランク近似 Table 1(a) in SLEEC[K Bhatia, NIPS 2015] •

    ≔ MBN O P M O P • Q R = ∗ Q R = ∑ ( 8 (V0 • − Q R = ∑ ( 8 (V8 =X0 特異値分解(SVD)での誤差は500次元への近似 でも⾮常に⼤きい →Localにすると誤差は⼩さくなる →SLEECは(より細かく分割しているため) 誤差がとても⼩さい
  8. 12 SLEEC (4parse -ocal &mbeddings for &xtreme Multi-label $lassification) 1.

    全体を丸ごとembeddingするのではなく、ラベルベクトルに基づ いたK近傍のみを⼀つの集合と捉えてembeddingする • 仮定「ラベルベクトルは低ランク近似できる」を実現(計算量は増加) 2. 事前に特徴ベクトルに基づきk-means法で細かい集合に分割する ことで、⼤規模データセットに適応可能 • ここで「ラベルベクトルは特徴ベクトルにのみ基づいて決まる」と仮定を 置いている(この分割だと、通常は同じラベルが同空間に⼊る保証が無い)
  9. 13 SLEECの概要 ( = (/ , (0 , … ,

    (8 = = / 0 ⋮ Y 0 R ⋮ [ = / 0 ⋮ 2 ( = (/ , (0 , … , (5 = / 0 ⋮ 2 ( = (/ , (0 , … , (8 特徴ベクトル ラベルベクトル ( ∈ {0,1} に基づくk-meansクラスタリング = / 0 ⋮ 2 [ ( = (/ , (0 , … , (8 = / 0 ⋮ Y ( = (/ , (0 , … , (8 各( において に基づくK近傍の抽出 @ = = = B0 学習と予測
  10. 17 AnnexML: "pproximate /earest /eighbor Search for E9treme .ulti--abel Classification

    • ラベルベクトルに基づくグラフ構造を⽤いた⼿法で、 SLEECの三つの問題点を克服する⼿法 • 諸悪の根源:SLEECにおける仮定「ラベルベクトルは特徴ベクトル にのみ基づいて決まる」 • 特徴ベクトルではなくラベルベクトルでデータセットを関連付ける
  11. 18 AnnexMLの概要 ( = (/ , (0 , … ,

    (8 = = / 0 ⋮ Y 0 R ⋮ [ = / 0 ⋮ 2 ( = (/ , (0 , … , (5 = / 0 ⋮ 2 ( = (/ , (0 , … , (8 特徴ベクトル ラベルベクトル ( ∈ {0,1} に基づきグラフ構造を構築し分割 = / 0 ⋮ 2 [ ( = (/ , (0 , … , (8 @ = = = B0 学習と予測 • グラフ構造を保ち ながらembedding • SLEEC同様、似た の集合を⽤いて いる • グラフ構造を保ち ながらembedding • SLEEC同様、似た の集合を⽤いて いる
  12. 19 AnnexMLの概要(図解) ಛ௃ۭؒ =次元 ( = < ) 「グラフ理論」を応⽤し、⾼速化に成功 •

    グラフ構造に基づくグラフの分割 • Ο R をΟ に抑えられる • 新規データにおけるK近傍の探索 • 探索範囲を少数に抑えられる
  13. 21 様々な条件下で精度を⽐較 Table 2 in “AnnexML: Approximate Nearest Neighbor Search

    for Extreme Multi-label Classification” @: k個のラベルを当てる タスクの精度 @ ≔ 1 abca d d (e f [ fV0 ghijh (V0