Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification / AnnexML

論文紹介:AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification / AnnexML

Shotaro Ishihara

December 26, 2017
Tweet

More Decks by Shotaro Ishihara

Other Decks in Technology

Transcript

  1. 論⽂紹介 AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification

    Yukihiro Tagami (Yahoo Japan Corporation) KDDʼ17, August 13‒17, 2017, Halifax, NS, Canada Dec. 25th, 2017
  2. 2 概要 • 「数⼗万の選択肢の中から適切な解を、世界最速かつ⾼精度に 予測するAI技術」(Yahoo!広報) • 論⽂へのリンク • GitHubへのリンク

  3. 論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5.

    関連研究 6. 結論 3
  4. 4 扱う問題 • E9treme .ulti-label $lassification(ラベル数:10#~10%) • 例1:Wikipediaに掲載する新しい記事に、過去のWikipediaのタグ情報 に基づき適切なタグを付与する(複数) •

    例2:ウェブサイトの訪問者に、過去の⾏動履歴に基づき適切な広告を 表⽰する(複数)
  5. 5 XMCの難しさ • 計算量がクラス数に依存して膨⼤に(学習時&予測時) https://houxianxu.github.io/2015/04/23/logistic-softmax-regression/ • クラス数: 1. 識別関数( ()を個⽤意

    • クラスかそれ以外か 2. ⼀定の閾値を超えたラベルを付与
  6. 6 XMCのアプローチ 1. FNCFEEJOHCBTFE • SLEEC[K Bhatia, NIPS 2015]など 2.

    USFFCBTFE • FastXML[MSR, Y Prabhu, KDD 2014]など 3. deep learning • [Jingzhuo Liu, SIGIR 2017]など 4. max-margin method • PD-Sparse[IEH Yen, ICML 2016]など ラベルを線型部分空間投影して有効数削減 グラフ理論を応⽤して⾼速化(精度に難) CNNなどを活⽤ マージン最⼤化で線形識別器を回す
  7. 7 AnnexMLの⽴ち位置 1. FNCFEEJOHCBTFE • SLEEC[K Bhatia, NIPS 2015]など 2.

    USFFCBTFE • FastXML[MSR, Y Prabhu, KDD 2014]など 3. deep learning • [Jingzhuo Liu, SIGIR 2017]など 4. max-margin method • PD-Sparse[IEH Yen, ICML 2016]など AnnexML「SLEECの三つの問題点を克服」 「予測速度と精度の両⾯でSLEECを超えた」 今⽇の説明の流れ ① embedding-based approach ② SLEEC ③ AnnexML
  8. 8 embedding-based approach • 仮定「ラベルベクトルは低ランク近似できる」 = / 0 ⋮ 2

    ( = (/ , (0 , … , (5 = / 0 ⋮ 2 ( = (/ , (0 , … , (8 特徴ベクトル ラベルベクトル ( ∈ {0,1} ( = (/ , (0 , … , (8 = = / 0 ⋮ 2 次元削減:圧縮センシング、特異値分解 など ( = ) @ = = = B0 学習と予測
  9. 9 embedding based approachの問題点 • 仮定が現実世界で成⽴しない • 現実世界のデータでは「少数データにしか付与されていないラベル」 が多数存在する Table

    2 in “AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification” 例:WikiLSHTC-325Kというデータセットでは Frequencyが5以下のラベルが50%を超える
  10. 10 例:特異値分解での低ランク近似 • 特異値分解 • を⾏列の⾏列としたとき、それぞれ, 次のユニタリ⾏列, が 存在して以下のように書ける(( は特異値)

    ( を⼤きい順に任意の =(< )個取り出すことで を低ランク近似できる → 「少数データにしか付与されていないラベル」 が多数存在する場合、すなわち「値の⼩さい特異 値が多数存在する」場合、うまく近似できない
  11. 11 例:特異値分解での低ランク近似 Table 1(a) in SLEEC[K Bhatia, NIPS 2015] •

    ≔ MBN O P M O P • Q R = ∗ Q R = ∑ ( 8 (V0 • − Q R = ∑ ( 8 (V8 =X0 特異値分解(SVD)での誤差は500次元への近似 でも⾮常に⼤きい →Localにすると誤差は⼩さくなる →SLEECは(より細かく分割しているため) 誤差がとても⼩さい
  12. 12 SLEEC (4parse -ocal &mbeddings for &xtreme Multi-label $lassification) 1.

    全体を丸ごとembeddingするのではなく、ラベルベクトルに基づ いたK近傍のみを⼀つの集合と捉えてembeddingする • 仮定「ラベルベクトルは低ランク近似できる」を実現(計算量は増加) 2. 事前に特徴ベクトルに基づきk-means法で細かい集合に分割する ことで、⼤規模データセットに適応可能 • ここで「ラベルベクトルは特徴ベクトルにのみ基づいて決まる」と仮定を 置いている(この分割だと、通常は同じラベルが同空間に⼊る保証が無い)
  13. 13 SLEECの概要 ( = (/ , (0 , … ,

    (8 = = / 0 ⋮ Y 0 R ⋮ [ = / 0 ⋮ 2 ( = (/ , (0 , … , (5 = / 0 ⋮ 2 ( = (/ , (0 , … , (8 特徴ベクトル ラベルベクトル ( ∈ {0,1} に基づくk-meansクラスタリング = / 0 ⋮ 2 [ ( = (/ , (0 , … , (8 = / 0 ⋮ Y ( = (/ , (0 , … , (8 各( において に基づくK近傍の抽出 @ = = = B0 学習と予測
  14. 14 SLEECでの新規データ予測 • 新規データに付与するラベルの予測 1. どの\に属するか特定 2. 所属する\内の全ての( について =

    B0でを予想 3. 多数決で採⽤されたを付与する
  15. 15 SLEECの問題点 1. k-mean法でのの分割時の仮定に問題がある • 同じラベルが同空間に⼊る保証が無いので精度が低くなっている 2. 新規データ予測のやり⽅が間接的 • 適切な\に配分されなければならないが、その決め⽅が(ラベルベクトル

    の情報ではなく)特徴ベクトルの情報に基づいている 3. 予測速度が遅い • k-mean法でを分割すれば速くできるが、1と2の問題点が強調される
  16. 論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5.

    関連研究 6. 結論 16
  17. 17 AnnexML: "pproximate /earest /eighbor Search for E9treme .ulti--abel Classification

    • ラベルベクトルに基づくグラフ構造を⽤いた⼿法で、 SLEECの三つの問題点を克服する⼿法 • 諸悪の根源:SLEECにおける仮定「ラベルベクトルは特徴ベクトル にのみ基づいて決まる」 • 特徴ベクトルではなくラベルベクトルでデータセットを関連付ける
  18. 18 AnnexMLの概要 ( = (/ , (0 , … ,

    (8 = = / 0 ⋮ Y 0 R ⋮ [ = / 0 ⋮ 2 ( = (/ , (0 , … , (5 = / 0 ⋮ 2 ( = (/ , (0 , … , (8 特徴ベクトル ラベルベクトル ( ∈ {0,1} に基づきグラフ構造を構築し分割 = / 0 ⋮ 2 [ ( = (/ , (0 , … , (8 @ = = = B0 学習と予測 • グラフ構造を保ち ながらembedding • SLEEC同様、似た の集合を⽤いて いる • グラフ構造を保ち ながらembedding • SLEEC同様、似た の集合を⽤いて いる
  19. 19 AnnexMLの概要(図解) ಛ௃ۭؒ =次元 ( = < ) 「グラフ理論」を応⽤し、⾼速化に成功 •

    グラフ構造に基づくグラフの分割 • Ο R をΟ に抑えられる • 新規データにおけるK近傍の探索 • 探索範囲を少数に抑えられる
  20. 論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5.

    関連研究 6. 結論 20
  21. 21 様々な条件下で精度を⽐較 Table 2 in “AnnexML: Approximate Nearest Neighbor Search

    for Extreme Multi-label Classification” @: k個のラベルを当てる タスクの精度 @ ≔ 1 abca d d (e f [ fV0 ghijh (V0
  22. 22 予測速度と精度でSLEECを上回る http://www.kdd.org/kdd2017/papers/view/annexml-approximate-nearest-neighbor-search-for-extreme-multi-label-classif 「グラフ理論」活⽤ 「グラフ理論」⾮活⽤

  23. 23 tree-based approachの⼿法も精度で上回る http://www.kdd.org/kdd2017/papers/view/annexml-approximate-nearest-neighbor-search-for-extreme-multi-label-classif

  24. 論⽂の構成 1. 背景 2. 問題の定式化 3. 提案⼿法 4. 実験 5.

    関連研究 6. 結論 24
  25. 25 結論 • SLEECの三つの問題点を克服 • 予測速度と精度の両⾯でSLEECを超えた 今後の展望 • XMCのその他のアプローチでも、AnnexMLの考え⽅を取り⼊ れてみたい

  26. Appendix

  27. 27 One-versus-oneの場合(p.5) • ⽤意する識別関数の数がg gB0 R 個になる