Slide 1

Slide 1 text

慶應義塾大学 杉浦孔明研究室 今井悠人 Hyperbolic Image-Text Representations Karan Desai1, Maximilian Nickel2, Tanmay Rajpurohit3, Justin Johnson1,2, Ramakrishna Vedantam4 (1.University of Michigan, 2.Meta AI, 3.Independent Researcher, 4.New York University) Desai, Karan, et al. "Hyperbolic image-text representations." In ICML(2023). ICML23 Poster 慶應義塾大学 杉浦孔明研究室 今井悠人

Slide 2

Slide 2 text

• 背景 • 既存の大規模V&Lモデルでは言語の階層構造をうまく扱えていない • 提案 • 双曲空間上での視覚・言語の順序性を反映するEntailment Loss • ローレンツモデルによって高い解釈性を持つ対照学習フレームワーク • 結果 • CLIPを改良したベースラインとの比較実験 • Zero-shot Retrieval、Image Classificationにて上記とcompetitive 2 概要

Slide 3

Slide 3 text

3 背景:既存の大規模V&Lモデルでは階層構造を反映していない • 画像はテキストより多くの情報を持つ • 抽象的なテキスト程多くの画像・言語にマッチ 問題  言語の意味的な階層は無数に存在  抽象的テキストは対照学習のノイズになる 意味的内容の粒度が異なる階層構造を組み込むことが望ましい

Slide 4

Slide 4 text

4 背景:既存の大規模V&Lモデルでは階層構造を反映していない 既存の大規模V&Lモデルにおける帰納的バイアス • 抽象的なテキストは多くの画像にマッチ • 画像はテキストより多くの情報を持つ • “text entails image” 問題  言語-画像間の対応が多対多である  言語の意味的な階層もまた複数存在 根に近いものほど一般的・抽象的 根から遠いものほど詳細・具体的 意味的階層の帰納バイアス 意味的内容の粒度が異なる階層構造を組み込むことが望ましい

Slide 5

Slide 5 text

• L2正規化した埋め込み空間を考える • ユークリッド空間では単位超球上に分布する • 上位/下位概念を明示的には作成しない • CLIP [Radford+, ICML21] ,ALIGN [Jia+, ICML21]  大規模ではあるが、多くの概念で階層構造を捨象 • 双曲空間(Hyperbolic space) • 階層構造を埋め込むのに適している • 原点に近いほど上位、遠いほど下位概念 5 背景:ユークリッド空間では階層構造を反映しにくい

Slide 6

Slide 6 text

6 関連研究:近年では画像に対する双曲空間埋め込みが注目 Model Abstract [Khrulkov+, CVPR20] 人物認証タスクにおける画像間の階層構造を指摘 少数データで効果的な埋め込みの獲得がモチベーション [Atigh+, CVPR22] ポアンカレ球モデル上に作成したSegmentation mapに基づき 物体境界やラベルのない埋め込み、確信度を可視化 Hyp-ViT [Ermolov+, CVPR22] 512→384次元に特徴次元を削減して埋め込み ポアンカレ球モデル上で学習 HCL [Ge+, CVPR23] 背景>物体の階層構造を双曲空間で表現 物体間はcos類似度で対照学習 [Atigh+, CVPR22] [Ermolov+, CVPR22] [Ge+, CVPR23]

Slide 7

Slide 7 text

• 双曲空間(双曲多様体) = 一定の負の曲率を持つリーマン多様体 • 𝑛次元の双曲多様体は、距離と角度の両方を保存するℝ𝑛での表現はできない • 距離・角度を歪ませる形で表現する • ポアンカレ球など • ℝ𝑛+1の部分多様体として表現 • ローレンツモデルなど 7 前提:双曲空間は階層構造を反映する非ユークリッド空間 多様体 = 拡大するとユークリッド空間にみなせるもの Ex. 地球 球そのものは平面で書けないが、拡大した地図は直交座標に見える 曲率 𝑐 = 罫線の曲がり具合 𝑛 = 2 Nickel, Maximillian, et al, "Learning continuous hierarchies in the lorentz model of hyperbolic geometry." in ICML(2018).

Slide 8

Slide 8 text

• ローレンツモデルでは、1次元増やして考える。(時間成分) • ユークリッド空間上のベクトル𝒗𝑠𝑝𝑎𝑐𝑒 に、𝑣𝑡𝑖𝑚𝑒 ∈ ℝを合わせた𝒗 = 𝒗𝑠𝑝𝑎𝑐𝑒 ; 𝑣𝑡𝑖𝑚𝑒 ∈ ℝ𝑛+1として表現 • 物理学(相対論)に関係する都合、このような命名 • 時間成分が加わった都合上、内積の定義が以下に置き換わる(ローレンツ内積) • ローレンツモデルによる双曲空間上の点は、以下を満たす𝒙の集合 8 前提:双曲空間のローレンツモデル上での定義 空間成分のユークリッド内積と時間成分の演算 ローレンツ内積が負で一定

Slide 9

Slide 9 text

• 𝐿𝑛内の任意のベクトルは以下を満たす。 • これにより、双曲空間上での原点は、𝑶 = [𝟎,1/√𝑐] • 双曲空間上では、2点間の最短経路(=測地線)は原点側にゆがむ • 測地線は一意に決まることが知られている • 証明は [Ratcliffe+, 2006] のp.65を参照 • 距離の公理を満たすので、ローレンツ距離とも 9 前提:双曲空間のローレンツモデル上での性質(1/2) Nickel, Maximillian, et al, "Learning continuous hierarchies in the lorentz model of hyperbolic geometry." in ICML(2018).

Slide 10

Slide 10 text

• 接空間:あるローレンツモデル上の点𝒛 ∈ 𝐿𝑛に対し、以下を満たす空間 • これは、双曲空間ではなく、ユークリッド空間上のベクトル集合 • 周辺のベクトル𝒖 ∈ ℝ𝑛+1から接空間へは直交射影により写すことが可能 • 接空間から双曲平面は、指数写像により写すことが可能 • 逆変換は対数写像(式は省略) 10 前提:双曲空間のローレンツモデル上での性質(2/2) Yang, Menglin, et al. "Discrete-time temporal network embedding via implicit hierarchical learning in hyperbolic space.", in ACM SIGKDD21

Slide 11

Slide 11 text

• あああ 11 提案手法:双曲特徴空間を獲得するEnd-to-Endの学習(1/2) 双曲空間への埋め込みのパイプライン 1. Encoderからの線形変換後の出力を𝒗𝑒𝑛𝑐 ∈ ℝ𝑛 2. ローレンツモデルで扱うために、0を時間成分としてcat 𝒗 = 𝒗𝑒𝑛𝑐 ;0 ∈ ℝ𝑛+1 3. このとき、𝒗は接空間𝒯 𝑶 𝐿𝑛に存在する ∵ 𝒗, 𝑶 ℒ = 𝒗𝑒𝑛𝑐 ⋅ 𝟎 − 0 ⋅ 1/ 𝑐 = 0 4. 空間成分が𝒗𝑒𝑛𝑐 と一致するため、指数写像を整理 5. 𝒙の時間成分は、以下の式から計算可能

Slide 12

Slide 12 text

• あああ 12 提案手法:双曲特徴空間を獲得するEnd-to-Endの学習(2/2) • 双曲線三角関数:指数関数の四則演算で表される • 線形層部分の初期値によっては指数的にスケール • 𝑣𝑠𝑝𝑎𝑐𝑒 に初期値を1/√𝑛とした学習可能なスカラーを乗算 • 埋め込みが原点に集中することを防ぐ • ローレンツノルムで正規化した埋め込みを目標 Q. 階層構造を目的関数に組み込むには?

Slide 13

Slide 13 text

• 錐の(半)開口角によって目的関数を設定 • 錐の条件として、以下を要請 1. 軸対称性:錐の軸に対し錐体が点対称 2. 回転不変性:形が場所に依存しない 3. 連続性:開口角が連続 4. 推移性:錐が順序推を持つ • すべて満たすような半開口角は埋め込み𝒙𝑏 に対し 13 先行研究1:Hyperbolic Entailment Cone [Ganea+, ICML18]

Slide 14

Slide 14 text

• ポアンカレ球→ローレンツモデル上へ写像 • この時、錐は右下図のような形状 • ローレンツモデル上での最適化を定式化 14 先行研究2: [Nickel+, ICML18] ポアンカレ球上 ローレンツモデル上

Slide 15

Slide 15 text

• ∠𝑂𝑥𝑦の外角が求まればよい • 双曲空間上の余弦定理から可能 • すでにtext>imageであれば0 • 最終的な損失は以下 15 提案手法:開口角に画像埋め込みを押し込むEntailment Loss

Slide 16

Slide 16 text

• 事前学習データセット:RedCaps [Desai+, NeurIPS21] • Redditから収集したデータセット、ペア数12M+ • 学習環境 • 最小のモデルサイズでV100 32GB×8枚 • 学習時間 • CLIP Baselineを、SLIP [Mu+, ECCV22] をベースに拡張して実験 • 詳細な拡張内容はAppendixに記載 • 記載ありはCLIPのみ、一日以内で学習できるように拡張 16 実験設定

Slide 17

Slide 17 text

• 各列で最も性能が良いものを緑、両データセットでCLIPを上回る 17 定量的結果:Zero-Shot T2I/I2T Retrieval

Slide 18

Slide 18 text

• 多くのベンチマークでCLIPを上回る結果 →Zero-shot性能でCLIPに匹敵 18 定量的結果:Zero-Shot Image Classification

Slide 19

Slide 19 text

1. 含意損失の有無(𝜆 = 0) • 性能面でほとんど差はない • 後述する定性結果で有用 2. 曲率を1で固定 • ViT-Bではほぼ変化がない • ViT-LでImageNetにおいて大きく↓ • モデルサイズのスケールに必要と主張 3. 対照損失の尺度にローレンツ距離ではなくローレンツ内積を使用 • ローレンツ内積は (−∞, 1/ c] のため、学習が不安定になりやすいと主張 19 Ablation Study:帰納バイアスの検証と距離尺度

Slide 20

Slide 20 text

• 木構造の親ノード([ROOT])をどのように決定するか • 双曲空間:原点に埋め込む • ユークリッド空間:全ての埋め込みの平均として算出 20 定性的結果(1/3):バイアスの反映 画像の方がより情報を持つ(具体的概念)仮説を反映した空間を構築 意味的な中心からの距離

Slide 21

Slide 21 text

• 画像埋め込みから[ROOT]を結ぶ測地線上に50個等間隔でステップを取る • ダイクストラ法で探索し、各点から最近傍から取得できるテキスト埋め込みを取得 21 定性的結果:単語レベルでの階層構造 (2/3) 明示的に意味的階層を反映 [ROOT]

Slide 22

Slide 22 text

• YFCC Captions [Thomee+, ACM16] に対する同様の実験結果 22 定性的結果:キャプションに対する階層構造(3/3)

Slide 23

Slide 23 text

• 背景 • 既存の大規模V&Lモデルでは言語の階層構造をうまく扱えていない • 提案 • 双曲空間上での視覚・言語の順序性を反映するEntailment Loss • ローレンツモデルによって高い解釈性を持つ対照学習フレームワーク • 結果 • CLIPを改良したベースラインとの比較実験 • Zero-shot Retrieval、Image Classificationにて上記とcompetitive 23 まとめ

Slide 24

Slide 24 text

Cf. 接空間:あるローレンツモデル上の点𝒛 ∈ 𝐿𝑛に対し、以下を満たす空間 周辺のベクトル𝒖 ∈ ℝ𝑛+1から接空間へは直交射影により写すことが可能 • 双曲平面から接空間は、指数写像により写すことが可能 • 写像の名前の由来は、リー群に由来 24 Appendix:直交射影と対数写像 Yang, Menglin, et al. "Discrete-time temporal network embedding via implicit hierarchical learning in hyperbolic space.", in ACM SIGKDD21

Slide 25

Slide 25 text

25 Appendix:CLIPの再実験構成 • Gradient checkpointing [Chen+, 16] は計算速度が落ちるため非採用 • V100 32 GB × 8枚で14時間程度