Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal Club] Hyperbolic Image-Text Representa...

[Journal Club] Hyperbolic Image-Text Representations

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 今井悠人 Hyperbolic Image-Text Representations Karan Desai1, Maximilian Nickel2,

    Tanmay Rajpurohit3, Justin Johnson1,2, Ramakrishna Vedantam4 (1.University of Michigan, 2.Meta AI, 3.Independent Researcher, 4.New York University) Desai, Karan, et al. "Hyperbolic image-text representations." In ICML(2023). ICML23 Poster 慶應義塾大学 杉浦孔明研究室 今井悠人
  2. • 背景 • 既存の大規模V&Lモデルでは言語の階層構造をうまく扱えていない • 提案 • 双曲空間上での視覚・言語の順序性を反映するEntailment Loss •

    ローレンツモデルによって高い解釈性を持つ対照学習フレームワーク • 結果 • CLIPを改良したベースラインとの比較実験 • Zero-shot Retrieval、Image Classificationにて上記とcompetitive 2 概要
  3. 4 背景:既存の大規模V&Lモデルでは階層構造を反映していない 既存の大規模V&Lモデルにおける帰納的バイアス • 抽象的なテキストは多くの画像にマッチ • 画像はテキストより多くの情報を持つ • “text entails

    image” 問題  言語-画像間の対応が多対多である  言語の意味的な階層もまた複数存在 根に近いものほど一般的・抽象的 根から遠いものほど詳細・具体的 意味的階層の帰納バイアス 意味的内容の粒度が異なる階層構造を組み込むことが望ましい
  4. • L2正規化した埋め込み空間を考える • ユークリッド空間では単位超球上に分布する • 上位/下位概念を明示的には作成しない • CLIP [Radford+, ICML21]

    ,ALIGN [Jia+, ICML21]  大規模ではあるが、多くの概念で階層構造を捨象 • 双曲空間(Hyperbolic space) • 階層構造を埋め込むのに適している • 原点に近いほど上位、遠いほど下位概念 5 背景:ユークリッド空間では階層構造を反映しにくい
  5. 6 関連研究:近年では画像に対する双曲空間埋め込みが注目 Model Abstract [Khrulkov+, CVPR20] 人物認証タスクにおける画像間の階層構造を指摘 少数データで効果的な埋め込みの獲得がモチベーション [Atigh+, CVPR22]

    ポアンカレ球モデル上に作成したSegmentation mapに基づき 物体境界やラベルのない埋め込み、確信度を可視化 Hyp-ViT [Ermolov+, CVPR22] 512→384次元に特徴次元を削減して埋め込み ポアンカレ球モデル上で学習 HCL [Ge+, CVPR23] 背景>物体の階層構造を双曲空間で表現 物体間はcos類似度で対照学習 [Atigh+, CVPR22] [Ermolov+, CVPR22] [Ge+, CVPR23]
  6. • 双曲空間(双曲多様体) = 一定の負の曲率を持つリーマン多様体 • 𝑛次元の双曲多様体は、距離と角度の両方を保存するℝ𝑛での表現はできない • 距離・角度を歪ませる形で表現する • ポアンカレ球など

    • ℝ𝑛+1の部分多様体として表現 • ローレンツモデルなど 7 前提:双曲空間は階層構造を反映する非ユークリッド空間 多様体 = 拡大するとユークリッド空間にみなせるもの Ex. 地球 球そのものは平面で書けないが、拡大した地図は直交座標に見える 曲率 𝑐 = 罫線の曲がり具合 𝑛 = 2 Nickel, Maximillian, et al, "Learning continuous hierarchies in the lorentz model of hyperbolic geometry." in ICML(2018).
  7. • ローレンツモデルでは、1次元増やして考える。(時間成分) • ユークリッド空間上のベクトル𝒗𝑠𝑝𝑎𝑐𝑒 に、𝑣𝑡𝑖𝑚𝑒 ∈ ℝを合わせた𝒗 = 𝒗𝑠𝑝𝑎𝑐𝑒 ;

    𝑣𝑡𝑖𝑚𝑒 ∈ ℝ𝑛+1として表現 • 物理学(相対論)に関係する都合、このような命名 • 時間成分が加わった都合上、内積の定義が以下に置き換わる(ローレンツ内積) • ローレンツモデルによる双曲空間上の点は、以下を満たす𝒙の集合 8 前提:双曲空間のローレンツモデル上での定義 空間成分のユークリッド内積と時間成分の演算 ローレンツ内積が負で一定
  8. • 𝐿𝑛内の任意のベクトルは以下を満たす。 • これにより、双曲空間上での原点は、𝑶 = [𝟎,1/√𝑐] • 双曲空間上では、2点間の最短経路(=測地線)は原点側にゆがむ • 測地線は一意に決まることが知られている

    • 証明は [Ratcliffe+, 2006] のp.65を参照 • 距離の公理を満たすので、ローレンツ距離とも 9 前提:双曲空間のローレンツモデル上での性質(1/2) Nickel, Maximillian, et al, "Learning continuous hierarchies in the lorentz model of hyperbolic geometry." in ICML(2018).
  9. • 接空間:あるローレンツモデル上の点𝒛 ∈ 𝐿𝑛に対し、以下を満たす空間 • これは、双曲空間ではなく、ユークリッド空間上のベクトル集合 • 周辺のベクトル𝒖 ∈ ℝ𝑛+1から接空間へは直交射影により写すことが可能

    • 接空間から双曲平面は、指数写像により写すことが可能 • 逆変換は対数写像(式は省略) 10 前提:双曲空間のローレンツモデル上での性質(2/2) Yang, Menglin, et al. "Discrete-time temporal network embedding via implicit hierarchical learning in hyperbolic space.", in ACM SIGKDD21
  10. • あああ 11 提案手法:双曲特徴空間を獲得するEnd-to-Endの学習(1/2) 双曲空間への埋め込みのパイプライン 1. Encoderからの線形変換後の出力を𝒗𝑒𝑛𝑐 ∈ ℝ𝑛 2.

    ローレンツモデルで扱うために、0を時間成分としてcat 𝒗 = 𝒗𝑒𝑛𝑐 ;0 ∈ ℝ𝑛+1 3. このとき、𝒗は接空間𝒯 𝑶 𝐿𝑛に存在する ∵ 𝒗, 𝑶 ℒ = 𝒗𝑒𝑛𝑐 ⋅ 𝟎 − 0 ⋅ 1/ 𝑐 = 0 4. 空間成分が𝒗𝑒𝑛𝑐 と一致するため、指数写像を整理 5. 𝒙の時間成分は、以下の式から計算可能
  11. • あああ 12 提案手法:双曲特徴空間を獲得するEnd-to-Endの学習(2/2) • 双曲線三角関数:指数関数の四則演算で表される • 線形層部分の初期値によっては指数的にスケール • 𝑣𝑠𝑝𝑎𝑐𝑒

    に初期値を1/√𝑛とした学習可能なスカラーを乗算 • 埋め込みが原点に集中することを防ぐ • ローレンツノルムで正規化した埋め込みを目標 Q. 階層構造を目的関数に組み込むには?
  12. • 錐の(半)開口角によって目的関数を設定 • 錐の条件として、以下を要請 1. 軸対称性:錐の軸に対し錐体が点対称 2. 回転不変性:形が場所に依存しない 3. 連続性:開口角が連続

    4. 推移性:錐が順序推を持つ • すべて満たすような半開口角は埋め込み𝒙𝑏 に対し 13 先行研究1:Hyperbolic Entailment Cone [Ganea+, ICML18]
  13. • 事前学習データセット:RedCaps [Desai+, NeurIPS21] • Redditから収集したデータセット、ペア数12M+ • 学習環境 • 最小のモデルサイズでV100

    32GB×8枚 • 学習時間 • CLIP Baselineを、SLIP [Mu+, ECCV22] をベースに拡張して実験 • 詳細な拡張内容はAppendixに記載 • 記載ありはCLIPのみ、一日以内で学習できるように拡張 16 実験設定
  14. 1. 含意損失の有無(𝜆 = 0) • 性能面でほとんど差はない • 後述する定性結果で有用 2. 曲率を1で固定

    • ViT-Bではほぼ変化がない • ViT-LでImageNetにおいて大きく↓ • モデルサイズのスケールに必要と主張 3. 対照損失の尺度にローレンツ距離ではなくローレンツ内積を使用 • ローレンツ内積は (−∞, 1/ c] のため、学習が不安定になりやすいと主張 19 Ablation Study:帰納バイアスの検証と距離尺度
  15. • 背景 • 既存の大規模V&Lモデルでは言語の階層構造をうまく扱えていない • 提案 • 双曲空間上での視覚・言語の順序性を反映するEntailment Loss •

    ローレンツモデルによって高い解釈性を持つ対照学習フレームワーク • 結果 • CLIPを改良したベースラインとの比較実験 • Zero-shot Retrieval、Image Classificationにて上記とcompetitive 23 まとめ
  16. Cf. 接空間:あるローレンツモデル上の点𝒛 ∈ 𝐿𝑛に対し、以下を満たす空間 周辺のベクトル𝒖 ∈ ℝ𝑛+1から接空間へは直交射影により写すことが可能 • 双曲平面から接空間は、指数写像により写すことが可能 •

    写像の名前の由来は、リー群に由来 24 Appendix:直交射影と対数写像 Yang, Menglin, et al. "Discrete-time temporal network embedding via implicit hierarchical learning in hyperbolic space.", in ACM SIGKDD21