Upgrade to Pro — share decks privately, control downloads, hide ads and more …

集合間Bregmanダイバージェンスと置換不変NNによるその学習

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 集合間Bregmanダイバージェンスと置換不変NNによるその学習

2025年度人工知能学会(JSAI2025)で発表した資料です.出版済みの元論文は以下:
Masanari Kimura, Takahiro Kawashima, Tasuku Soma, and Hideitsu Hino, "Difference-of-submodular Bregman Divergence," ICLR2025

Avatar for Takahiro Kawashima

Takahiro Kawashima

May 27, 2025

More Decks by Takahiro Kawashima

Other Decks in Research

Transcript

  1. 集合間 Bregman ダイバージェンスと 置換不変 NN によるその学習  川島貴大(ZOZO Research) ,木村正成(メルボルン大)

    , 相馬輔(統数研,理研 AIP) ,日野英逸(統数研,早稲田大) @ JSAI2025  May 27, 2025
  2. 集合間の距離の難しさ 既存尺度のほとんどは|𝑋 ∩ 𝑌 |, |𝑋 ∪ 𝑌 |, |𝑋

    \ 𝑌 |などの数え上げで定義 Jaccard Index 台集合が大きく𝑋, 𝑌 が小さいと 類似度/距離はすぐに 0/∞ になる   よりリッチな距離尺度の開発が課題 5 / 22
  3. 本研究の貢献 本研究の主な貢献は以下の 2 つ: • 既存手法を拡張する形で,よりリッチな表現能力をもつ新たな集合間 ダイバージェンスを開発  非対称性を許した距離の一般化 •

    提案する集合間ダイバージェンスを置換不変 NN によって学習する フレームワークを提案  集合的な構造をもつデータに用いられる NN 6 / 22
  4. Bregman ダイバージェンス Bregman ダイバージェンスは凸関数に基づいて 2 点の乖離度を測る指標 𝐷𝑓 (𝑥, 𝑦) ≔

    𝑓(𝑥) − 𝑓(𝑦) − ⟨∇𝑓(𝑦), 𝑥 − 𝑦⟩ 内積 KL, L2 距離の 2 乗などの一般化 8 / 22
  5. 劣モジュラ Bregman ダイバージェンス 劣モジュラ関数は集合関数𝑓 : 2𝑉 → ℝの世界における凸関数のアナロジー  「𝑓

    を下から抑える線形関数(劣勾配) 」が存在! 集合間に劣モジュラ Bregman ダイバージェンスを定義可能 [Iyer & Bilmes, 2012] 𝐷𝑓 (𝑋, 𝑌 ) = 𝑓(𝑋) − 𝑓(𝑌 ) − ⟨ℎ𝑌 , 1𝑋 − 1𝑌 ⟩ ℎ𝑌 :点 𝑌 における 𝑓 の劣勾配 1𝑋 :指示関数(指示モジュラ関数)  劣モジュラ関数: 𝑓(𝑋) + 𝑓(𝑌 ) ≥ 𝑓(𝑋 ∪ 𝑌 ) + 𝑓(𝑋 ∩ 𝑌 ) 正確にはモジュラ関数 10 / 22
  6. 劣モジュラ Bregman ダイバージェンス  𝐷𝑓 (𝑋, 𝑌 ) = 𝑓(𝑋)

    − 𝑓(𝑌 ) − ⟨ℎ𝑌 , 1𝑋 − 1𝑌 ⟩ 劣モジュラ関数𝑓に具体的な形を与えれば具体的な乖離度指標を構成可能 • ハミング距離 • Precision • Recall などが含まれる 手元にデータがあるとき,適切な 𝑓 を自前で設計することは難  11 / 22
  7. 劣モジュラ関数の性質 劣モジュラ関数にまつわる離散世界特有の 2 つの性質を用いて, 劣モジュラ Bregman ダイバージェンスの表現能力を拡張する • 任意の集合関数𝑓 :

    2𝑉 → ℝは 2 つの劣モジュラ関数の差に分解可能  𝑓 = 𝑓1 − 𝑓2 • 劣モジュラ関数には各点で劣勾配だけでなく優勾配も存在  上から抑える線形関数(モジュラ関数) 13 / 22
  8. 提案手法:DBD 次の方針で,提案する Difference-of-submodular Bregman ダイバージェンス (DBD) を構成: 1. 一般の集合関数 𝑓

    を劣モジュラ関数の差 𝑓 = 𝑓1 − 𝑓2 の形式に分解 2. 𝑓1 は劣勾配 ℎ1 𝑌 で下から抑え,𝑓2 は優勾配 𝑔2 𝑌 で上から抑える 3. 𝑓1 の劣勾配と 𝑓2 の優勾配の差により,𝑓 全体は線形関数(モジュラ関数) で下から抑えられる  Bregman ダイバージェンスが作れる!  𝐷𝑓 (𝑋, 𝑌 ) = 𝑓(𝑋) − 𝑓(𝑌 ) − ⟨ℎ1 𝑌 − 𝑔2 𝑌 , 1𝑋 − 1𝑌 ⟩ 14 / 22
  9. 置換不変 NN による DBD の構成 DBD を与える集合関数 𝑓 を置換不変 NN

    を用いて学習する  入力列の置換に対して出力が不変; e.g., 𝑓NN (𝒙1 , 𝒙2 ) = 𝑓NN (𝒙2 , 𝒙1 ) 問題:一般に集合関数 𝑓 から分解 𝑓 = 𝑓1 − 𝑓2 をみつけるのは NP 困難  劣モジュラ性が担保されるふたつの置換不変 NN を用意し, 𝑓1, 𝑓2 をそれぞれモデリングする と予想されている 15 / 22
  10. 𝜀-PointNet 劣モジュラ性が担保される新たな置換不変 NN のアーキテクチャを開発 𝜀-PointNet 𝑓PN,𝜀 ([𝒙𝑖 ] 𝑖∈𝑋 )

    = 𝛾(𝜀 log ∑ 𝑖∈𝑋 𝑒𝜑1 (𝒙𝑖 )/𝜀, …, 𝜀 log ∑ 𝑖∈𝑋 𝑒𝜑𝐾 (𝒙𝑖 )/𝜀) 𝛾, 𝜑1 , …, 𝜑𝐾 :NN, 𝜀 > 0:ハイパラ • 𝜀 → 0 で 𝛾 の各入力次元は max𝑖∈𝑋 𝜑𝑘 (𝒙𝑖 ) に漸近 • 𝛾 が重み付き和なら劣モジュラ性が担保される 狭義 狭義 𝝋 による 𝐾 次元中間出力 16 / 22
  11. DBD の学習 Triplet loss などの距離学習の損失関数で 𝑓 を学習可能 Triplet loss ℒ(𝑓)

    ≔ ∑ 𝑛 𝑖=1 max(𝐷𝑓 (𝑋𝑖 𝐴 , 𝑋𝑖 𝑃 ) − 𝐷𝑓 (𝑋𝑖 𝐴 , 𝑋𝑖 𝑁 ), 0) 𝑋𝑖 𝐴 : アンカー集合, 𝑋𝑖 𝑃 : 正例集合, 𝑋𝑖 𝑁 : 負例集合 • アンカー集合と同ラベルの集合は近く,別ラベルの集合は遠くなる ように学習 • 通常の距離学習と違い,インスタンスの埋め込みベクトルでなく, 乖離度を定める関数 𝑓 を学習 17 / 22
  12. おわりに • 集合間の乖離度を測る指標として,Difference-of-submodular Bregman ダイバージェンス (DBD) を提案  劣モジュラ Bregman

    ダイバージェンスの拡張  理論的にも表現能力の向上が示せる(今回は割愛) • 置換不変 NN を用いて DBD を学習するフレームワークを提案  必要な仮定を満たす新しいアーキテクチャ𝜀-PointNet を開発・利用 • MNIST& 点群データでの数値実験  小さいアーキテクチャでも SoTA に迫るパフォーマンスを達成! 22 / 22