Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習のための行列式点過程:概説

 機械学習のための行列式点過程:概説

行列式点過程のレビュー論文 "Determinantal point processes for machine learning" から,その概念的な理解にとくに重要と思われる部分を抜き出して紹介したものです.

Takahiro Kawashima

March 16, 2022
Tweet

More Decks by Takahiro Kawashima

Other Decks in Research

Transcript

  1. 論文紹介:Determinantal Point Processes for Machine Learning 川島 貴大 1 March

    19, 2022 1 総合研究大学院大学 統計科学専攻
  2. これなに? 行列式点過程に関する次のレビュー論文の超要約です: • “Determinantal Point Processes for Machine Learning,” [arXiv:1207.6083].

    • authors: Alex Kulesza, Ben Taskar 注意: • 本資料は上記文献のうち,行列式点過程のお気持ち理解に 重要と思われる部分を限定的に取り上げ,まとめたもの ∠ 数学的性質・サンプリング法・発展的な話題などは扱わず • 主に 2.1, 2.2, 5.1 節あたりの内容がメイン 3
  3. 行列式点過程 まずは行列式点過程の定義から. • Y = {1, 2, … , 𝑁}:全体集合

    • 𝐾:𝑁 × 𝑁 実対称行列(以下の定義より 𝜆(𝐾) ∈ [0, 1]) 定義:行列式点過程 (DPP) ある集合 𝒀 ⊆ Y を考える. 𝒀 が行列式点過程 P に従うとは, P(𝐴 ⊆ 𝒀 ) = det(𝐾𝐴 ) が任意の 𝐴 ⊆ 𝒀 に対して成り立つことをいう. ここで 𝐾𝐴 = [𝐾𝑖𝑗 ]𝑖,𝑗∈𝐴 は 𝐾 の部分行列. 行列式点過程 P は 2𝒀 上の確率測度. 5
  4. 行列式点過程の例 例として 𝐴 = {𝑖, 𝑗} なる要素数 2 の集合を考えてみる.このとき P(𝐴

    ⊆ 𝒀 ) = ∣ 𝐾𝑖𝑖 𝐾𝑖𝑗 𝐾𝑗𝑖 𝐾𝑗𝑗 ∣ = 𝐾𝑖𝑖 𝐾𝑗𝑗 − 𝐾𝑖𝑗 𝐾𝑗𝑖 = P(𝑖 ∈ 𝒀 )P(𝑗 ∈ 𝒀 ) − 𝐾2 𝑖𝑗 . • 非対角成分 𝐾𝑖𝑗 が 𝑖, 𝑗 の「負の相関」を制御 ∠ 「斥力」の正体 • 𝐾𝑖𝑗 = √𝐾𝑖𝑖 𝐾𝑗𝑗 なら,P(𝐴 ⊆ 𝒀 ) = P(𝑖, 𝑗 ∈ 𝒀 ) = 0 ∠ 𝑖, 𝑗 は 𝐾 の意味で同じものを意味し,同時に生起しない (a.s.) • 𝐾𝑖𝑗 = 0なら 𝑖, 𝑗 は独立. 6
  5. 𝐿-ensamble • 𝐿:𝑁 × 𝑁 実対称行列(以下の定義より 𝜆(𝐿) ∈ [0, ∞))

    定義:𝐿-ensamble 集合 𝒀 ⊆ Y と 𝐿 に対して, P𝐿 (𝒀 = 𝑌 ) = det(𝐿𝑌 ) ∑ 𝑌 ⊆Y det(𝐿𝑌 ) = det(𝐿𝑌 ) det(𝐿 + 𝐼) ∝ det(𝐿𝑌 ) で定義される確率測度 P𝐿 を 𝒀 の 𝐿-ensamble という. ここで 𝐿𝑌 = [𝐿𝑖𝑗 ]𝑖,𝑗∈𝑌 は 𝐿 の部分行列. det(𝐿 + 𝐼) で正規化される事実は定理 2.1 より(省略) . 7
  6. 𝐿-ensamble と DPP 𝐿-ensamble: P𝐿 (𝒀 = 𝑌 ) =

    det(𝐿𝑌 ) det(𝐿 + 𝐼) 定理:𝐿-ensamble と DPP (定理 2.2) 𝐿-ensample は DPP であり,そのカーネル 𝐾 は 𝐾 = 𝐿(𝐿 + 𝐼)−1 = 𝐼 − (𝐿 + 𝐼)−1. ナイーブな DPP P𝐴 (𝐴 ⊆ 𝒀 ) は 𝐴 が包含される確率を表したが, 𝐿-ensamble は𝒀 そのものの確率を直接扱える. ∠  応用上は 𝐿-ensamble の方が便利 8
  7. 𝐿-ensamble の幾何 𝐿 は半正定値なので 𝐿 = 𝐵⊤𝐵 と分解できる. 𝐵 の

    𝑖 番目の列ベクトルを 𝐵𝑖 と書けば,𝐿𝑖𝑗 = 𝐵𝑖 ⋅ 𝐵𝑗 ∠ 𝐿 は特徴ベクトル {𝐵𝑖 } 間の類似度行列とみなせる. さらに P𝐿 (𝑌 ) ∝ det(𝑌 ) = Vol2({𝐵𝑖 }𝑖∈𝑌 ). ここで最右辺は {𝐵𝑖 }𝑖∈𝑌 が張る平行多面体の体積の 2 乗 ∠ P𝐿 (𝑌 ) は特徴ベクトル {𝐵𝑖 } の張る体積の 2 乗に比例 9
  8. DPP の扱いづらさ バスケットコート上の選手の位置をモデリングする問題を考える. 選手同士が近くに固まることはまれ ∠ DPP でモデリングできそう? 問題点: • 

    DPP では点(プレイヤー)の数が可変 ∠ 1 チーム 5 人から選手数が変わることは通常ない 現実では点数(要素数)を固定としてモデル化したいことが多い ∠ 𝑘-DPP の導入 11
  9. 𝑘-DPP • 𝐿:𝑁 × 𝑁 実対称行列(𝐿-ensamble のものと同様) 定義:𝑘-DPP 任意の 𝑌

    ∈ Y (|𝑌 | = 𝑘) に対し,次で定義される確率測度 P𝑘 𝐿 を 𝑘-DPP という: P𝑘 𝐿 (𝒀 = 𝑌 ) = det(𝐿𝑌 ) ∑ |𝑌 ′|=𝑘 det(𝐿𝑌 ′ ) = det(𝐿𝑌 ) 𝑍𝑘 . 𝑘-DPP は 𝐿-ensamble を要素数 |𝑌 | = 𝑘 で条件付けた確率測度 ∠ 要素数に関する分布 Psize によって P(𝑌 ) = Psize (|𝑌 |)P|𝑌 | 𝐿 (𝑌 ). 12
  10. 𝑘-DPP の正規化定数 命題:𝑘-DPP の正規化定数(命題 5.1) 𝑘-DPP の正規化定数 𝑍𝑘 について. 𝑍𝑘

    = ∑ |𝑌 ′|=𝑘 det(𝐿𝑌 ′ ) = 𝑒𝑘 (𝜆1 , 𝜆2 , … , 𝜆𝑁 ). ここで {𝜆𝑖 } は 𝐿 の固有値で,𝑒𝑘 (𝜆1 , 𝜆2 , … , 𝜆𝑁 ) は 𝑘 次の 基本対称式. ∠  𝑘-DPP の正規化定数を効率的に計算可能 基本対称式の例: • 𝑒1 (𝜆1 , 𝜆2 , 𝜆3 ) = 𝜆1 + 𝜆2 + 𝜆3 • 𝑒2 (𝜆1 , 𝜆2 , 𝜆3 ) = 𝜆1 𝜆2 + 𝜆2 𝜆3 + 𝜆3 𝜆1 • 𝑒3 (𝜆1 , 𝜆2 , 𝜆3 ) = 𝜆1 𝜆2 𝜆3 13
  11. 実験設定 目標: 𝑘-DPP によって,あるクエリに対する Google 画像検索から 多様かつ妥当な計 𝑘 個の画像を選び出す •

    {(𝑌 + 𝑡 , 𝑌 − 𝑡 )}𝑇 𝑡=1 :訓練データ (|𝑌 + 𝑡 | = |𝑌 − 𝑡 | = 𝑘) • 特定のクエリに対する 2 種の検索結果のうち「より好ましい」 画像集合が人手で 𝑌 + 𝑡 に割り当てられる • 各クエリ 59–64 枚の画像セットから,独立なアノテータ間で 整合的なラベリングがなされたもののみを利用 • 𝐿1 , 𝐿2 , … , 𝐿𝐷 :画像特徴からなる 𝐿-ensamble カーネル • 𝑘-DPP の mixture P𝑘 𝜃 = ∑𝐷 𝑙=1 𝜃𝑙 P𝑘 𝐿𝑙 の {𝜃𝑙 } を学習 検索結果の良し悪しを 2 値判別するロジスティック損失から学習 14
  12. まとめ 行列式点過程 (DPP) の基礎的な概念を解説した.とくに • DPP の定義とその解釈 • 𝐿-ensamble による

    DPP の表現 • 𝑘-DPP への動機とその定義 にフォーカスを当て,実験例もひとつ紹介した. DPP はガウス過程の誘導点配置問題への応用2 などもあり,色々 おもしろい応用が効きそう. 2S.Rossi, et al., AISTATS, (2021) 16