[Journal Club] Hyperbolic Image-Text Representations

慶應義塾大学杉浦孔明研究室今井悠人 Hyperbolic Image-Text Representations Karan Desai1, Maximilian Nickel2,
Tanmay Rajpurohit3, Justin Johnson1,2, Ramakrishna Vedantam4 (1.University of Michigan, 2.Meta AI, 3.Independent Researcher, 4.New York University) Desai, Karan, et al. "Hyperbolic image-text representations." In ICML(2023). ICML23 Poster 慶應義塾大学杉浦孔明研究室今井悠人

• 背景 • 既存の大規模V&Lモデルでは言語の階層構造をうまく扱えていない • 提案 • 双曲空間上での視覚・言語の順序性を反映するEntailment Loss •
ローレンツモデルによって高い解釈性を持つ対照学習フレームワーク • 結果 • CLIPを改良したベースラインとの比較実験 • Zero-shot Retrieval、Image Classificationにて上記とcompetitive 2 概要

3 背景：既存の大規模V&Lモデルでは階層構造を反映していない • 画像はテキストより多くの情報を持つ • 抽象的なテキスト程多くの画像・言語にマッチ問題  言語の意味的な階層は無数に存在 
抽象的テキストは対照学習のノイズになる意味的内容の粒度が異なる階層構造を組み込むことが望ましい

4 背景：既存の大規模V&Lモデルでは階層構造を反映していない既存の大規模V&Lモデルにおける帰納的バイアス • 抽象的なテキストは多くの画像にマッチ • 画像はテキストより多くの情報を持つ • “text entails
image” 問題  言語-画像間の対応が多対多である  言語の意味的な階層もまた複数存在根に近いものほど一般的・抽象的根から遠いものほど詳細・具体的意味的階層の帰納バイアス意味的内容の粒度が異なる階層構造を組み込むことが望ましい

• L2正規化した埋め込み空間を考える • ユークリッド空間では単位超球上に分布する • 上位/下位概念を明示的には作成しない • CLIP [Radford+, ICML21]
,ALIGN [Jia+, ICML21]  大規模ではあるが、多くの概念で階層構造を捨象 • 双曲空間（Hyperbolic space） • 階層構造を埋め込むのに適している • 原点に近いほど上位、遠いほど下位概念 5 背景：ユークリッド空間では階層構造を反映しにくい

6 関連研究：近年では画像に対する双曲空間埋め込みが注目 Model Abstract [Khrulkov+, CVPR20] 人物認証タスクにおける画像間の階層構造を指摘少数データで効果的な埋め込みの獲得がモチベーション [Atigh+, CVPR22]
ポアンカレ球モデル上に作成したSegmentation mapに基づき物体境界やラベルのない埋め込み、確信度を可視化 Hyp-ViT [Ermolov+, CVPR22] 512→384次元に特徴次元を削減して埋め込みポアンカレ球モデル上で学習 HCL [Ge+, CVPR23] 背景>物体の階層構造を双曲空間で表現物体間はcos類似度で対照学習 [Atigh+, CVPR22] [Ermolov+, CVPR22] [Ge+, CVPR23]

• 双曲空間（双曲多様体） = 一定の負の曲率を持つリーマン多様体 • 𝑛次元の双曲多様体は、距離と角度の両方を保存するℝ𝑛での表現はできない • 距離・角度を歪ませる形で表現する • ポアンカレ球など
• ℝ𝑛+1の部分多様体として表現 • ローレンツモデルなど 7 前提：双曲空間は階層構造を反映する非ユークリッド空間多様体 = 拡大するとユークリッド空間にみなせるもの Ex. 地球球そのものは平面で書けないが、拡大した地図は直交座標に見える曲率 𝑐 = 罫線の曲がり具合 𝑛 = 2 Nickel, Maximillian, et al, "Learning continuous hierarchies in the lorentz model of hyperbolic geometry." in ICML(2018).

• ローレンツモデルでは、1次元増やして考える。（時間成分） • ユークリッド空間上のベクトル𝒗𝑠𝑝𝑎𝑐𝑒 に、𝑣𝑡𝑖𝑚𝑒 ∈ ℝを合わせた𝒗 = 𝒗𝑠𝑝𝑎𝑐𝑒 ;
𝑣𝑡𝑖𝑚𝑒 ∈ ℝ𝑛+1として表現 • 物理学（相対論）に関係する都合、このような命名 • 時間成分が加わった都合上、内積の定義が以下に置き換わる（ローレンツ内積） • ローレンツモデルによる双曲空間上の点は、以下を満たす𝒙の集合 8 前提：双曲空間のローレンツモデル上での定義空間成分のユークリッド内積と時間成分の演算ローレンツ内積が負で一定

• 𝐿𝑛内の任意のベクトルは以下を満たす。 • これにより、双曲空間上での原点は、𝑶 = [𝟎,1/√𝑐] • 双曲空間上では、2点間の最短経路（=測地線）は原点側にゆがむ • 測地線は一意に決まることが知られている
• 証明は [Ratcliffe+, 2006] のp.65を参照 • 距離の公理を満たすので、ローレンツ距離とも 9 前提：双曲空間のローレンツモデル上での性質（1/2） Nickel, Maximillian, et al, "Learning continuous hierarchies in the lorentz model of hyperbolic geometry." in ICML(2018).

• 接空間：あるローレンツモデル上の点𝒛 ∈ 𝐿𝑛に対し、以下を満たす空間 • これは、双曲空間ではなく、ユークリッド空間上のベクトル集合 • 周辺のベクトル𝒖 ∈ ℝ𝑛+1から接空間へは直交射影により写すことが可能
• 接空間から双曲平面は、指数写像により写すことが可能 • 逆変換は対数写像（式は省略） 10 前提：双曲空間のローレンツモデル上での性質（2/2） Yang, Menglin, et al. "Discrete-time temporal network embedding via implicit hierarchical learning in hyperbolic space.", in ACM SIGKDD21

• あああ 11 提案手法：双曲特徴空間を獲得するEnd-to-Endの学習（1/2）双曲空間への埋め込みのパイプライン 1. Encoderからの線形変換後の出力を𝒗𝑒𝑛𝑐 ∈ ℝ𝑛 2.
ローレンツモデルで扱うために、0を時間成分としてcat 𝒗 = 𝒗𝑒𝑛𝑐 ;0 ∈ ℝ𝑛+1 3. このとき、𝒗は接空間𝒯 𝑶 𝐿𝑛に存在する ∵ 𝒗, 𝑶 ℒ = 𝒗𝑒𝑛𝑐 ⋅ 𝟎 − 0 ⋅ 1/ 𝑐 = 0 4. 空間成分が𝒗𝑒𝑛𝑐 と一致するため、指数写像を整理 5. 𝒙の時間成分は、以下の式から計算可能

• あああ 12 提案手法：双曲特徴空間を獲得するEnd-to-Endの学習（2/2） • 双曲線三角関数：指数関数の四則演算で表される • 線形層部分の初期値によっては指数的にスケール • 𝑣𝑠𝑝𝑎𝑐𝑒
に初期値を1/√𝑛とした学習可能なスカラーを乗算 • 埋め込みが原点に集中することを防ぐ • ローレンツノルムで正規化した埋め込みを目標 Q. 階層構造を目的関数に組み込むには？

• 錐の(半)開口角によって目的関数を設定 • 錐の条件として、以下を要請 1. 軸対称性：錐の軸に対し錐体が点対称 2. 回転不変性：形が場所に依存しない 3. 連続性：開口角が連続
4. 推移性：錐が順序推を持つ • すべて満たすような半開口角は埋め込み𝒙𝑏 に対し 13 先行研究1：Hyperbolic Entailment Cone [Ganea+, ICML18]

• ポアンカレ球→ローレンツモデル上へ写像 • この時、錐は右下図のような形状 • ローレンツモデル上での最適化を定式化 14 先行研究2： [Nickel+, ICML18]
ポアンカレ球上ローレンツモデル上

• ∠𝑂𝑥𝑦の外角が求まればよい • 双曲空間上の余弦定理から可能 • すでにtext>imageであれば0 • 最終的な損失は以下 15 提案手法：開口角に画像埋め込みを押し込むEntailment
Loss

• 事前学習データセット：RedCaps [Desai+, NeurIPS21] • Redditから収集したデータセット、ペア数12M+ • 学習環境 • 最小のモデルサイズでV100
32GB×8枚 • 学習時間 • CLIP Baselineを、SLIP [Mu+, ECCV22] をベースに拡張して実験 • 詳細な拡張内容はAppendixに記載 • 記載ありはCLIPのみ、一日以内で学習できるように拡張 16 実験設定

• 各列で最も性能が良いものを緑、両データセットでCLIPを上回る 17 定量的結果：Zero-Shot T2I/I2T Retrieval

• 多くのベンチマークでCLIPを上回る結果 →Zero-shot性能でCLIPに匹敵 18 定量的結果：Zero-Shot Image Classification

1. 含意損失の有無（𝜆 = 0） • 性能面でほとんど差はない • 後述する定性結果で有用 2. 曲率を1で固定
• ViT-Bではほぼ変化がない • ViT-LでImageNetにおいて大きく↓ • モデルサイズのスケールに必要と主張 3. 対照損失の尺度にローレンツ距離ではなくローレンツ内積を使用 • ローレンツ内積は (−∞, 1/ c] のため、学習が不安定になりやすいと主張 19 Ablation Study：帰納バイアスの検証と距離尺度

• 木構造の親ノード（[ROOT]）をどのように決定するか • 双曲空間：原点に埋め込む • ユークリッド空間：全ての埋め込みの平均として算出 20 定性的結果（1/3）：バイアスの反映画像の方がより情報を持つ（具体的概念）仮説を反映した空間を構築意味的な中心からの距離

• 画像埋め込みから[ROOT]を結ぶ測地線上に50個等間隔でステップを取る • ダイクストラ法で探索し、各点から最近傍から取得できるテキスト埋め込みを取得 21 定性的結果：単語レベルでの階層構造 (2/3) 明示的に意味的階層を反映 [ROOT]

• YFCC Captions [Thomee+, ACM16] に対する同様の実験結果 22 定性的結果：キャプションに対する階層構造(3/3)

• 背景 • 既存の大規模V&Lモデルでは言語の階層構造をうまく扱えていない • 提案 • 双曲空間上での視覚・言語の順序性を反映するEntailment Loss •
ローレンツモデルによって高い解釈性を持つ対照学習フレームワーク • 結果 • CLIPを改良したベースラインとの比較実験 • Zero-shot Retrieval、Image Classificationにて上記とcompetitive 23 まとめ

Cf. 接空間：あるローレンツモデル上の点𝒛 ∈ 𝐿𝑛に対し、以下を満たす空間周辺のベクトル𝒖 ∈ ℝ𝑛+1から接空間へは直交射影により写すことが可能 • 双曲平面から接空間は、指数写像により写すことが可能 •
写像の名前の由来は、リー群に由来 24 Appendix：直交射影と対数写像 Yang, Menglin, et al. "Discrete-time temporal network embedding via implicit hierarchical learning in hyperbolic space.", in ACM SIGKDD21

25 Appendix：CLIPの再実験構成 • Gradient checkpointing [Chen+, 16] は計算速度が落ちるため非採用 • V100
32 GB × 8枚で14時間程度

[Journal Club] Hyperbolic Image-Text Representa...

[Journal Club] Hyperbolic Image-Text Representations

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Featured

Transcript

慶應義塾大学杉浦孔明研究室今井悠人 Hyperbolic Image-Text Representations Karan Desai1, Maximilian Nickel2,

• 背景 • 既存の大規模V&Lモデルでは言語の階層構造をうまく扱えていない • 提案 • 双曲空間上での視覚・言語の順序性を反映するEntailment Loss •

3 背景：既存の大規模V&Lモデルでは階層構造を反映していない • 画像はテキストより多くの情報を持つ • 抽象的なテキスト程多くの画像・言語にマッチ問題  言語の意味的な階層は無数に存在 

4 背景：既存の大規模V&Lモデルでは階層構造を反映していない既存の大規模V&Lモデルにおける帰納的バイアス • 抽象的なテキストは多くの画像にマッチ • 画像はテキストより多くの情報を持つ • “text entails

• L2正規化した埋め込み空間を考える • ユークリッド空間では単位超球上に分布する • 上位/下位概念を明示的には作成しない • CLIP [Radford+, ICML21]

6 関連研究：近年では画像に対する双曲空間埋め込みが注目 Model Abstract [Khrulkov+, CVPR20] 人物認証タスクにおける画像間の階層構造を指摘少数データで効果的な埋め込みの獲得がモチベーション [Atigh+, CVPR22]

• 双曲空間（双曲多様体） = 一定の負の曲率を持つリーマン多様体 • 𝑛次元の双曲多様体は、距離と角度の両方を保存するℝ𝑛での表現はできない • 距離・角度を歪ませる形で表現する • ポアンカレ球など

• ローレンツモデルでは、1次元増やして考える。（時間成分） • ユークリッド空間上のベクトル𝒗𝑠𝑝𝑎𝑐𝑒 に、𝑣𝑡𝑖𝑚𝑒 ∈ ℝを合わせた𝒗 = 𝒗𝑠𝑝𝑎𝑐𝑒 ;

• 𝐿𝑛内の任意のベクトルは以下を満たす。 • これにより、双曲空間上での原点は、𝑶 = [𝟎,1/√𝑐] • 双曲空間上では、2点間の最短経路（=測地線）は原点側にゆがむ • 測地線は一意に決まることが知られている

• あああ 11 提案手法：双曲特徴空間を獲得するEnd-to-Endの学習（1/2）双曲空間への埋め込みのパイプライン 1. Encoderからの線形変換後の出力を𝒗𝑒𝑛𝑐 ∈ ℝ𝑛 2.

• あああ 12 提案手法：双曲特徴空間を獲得するEnd-to-Endの学習（2/2） • 双曲線三角関数：指数関数の四則演算で表される • 線形層部分の初期値によっては指数的にスケール • 𝑣𝑠𝑝𝑎𝑐𝑒

• 錐の(半)開口角によって目的関数を設定 • 錐の条件として、以下を要請 1. 軸対称性：錐の軸に対し錐体が点対称 2. 回転不変性：形が場所に依存しない 3. 連続性：開口角が連続

• ポアンカレ球→ローレンツモデル上へ写像 • この時、錐は右下図のような形状 • ローレンツモデル上での最適化を定式化 14 先行研究2： [Nickel+, ICML18]

• ∠𝑂𝑥𝑦の外角が求まればよい • 双曲空間上の余弦定理から可能 • すでにtext>imageであれば0 • 最終的な損失は以下 15 提案手法：開口角に画像埋め込みを押し込むEntailment

• 事前学習データセット：RedCaps [Desai+, NeurIPS21] • Redditから収集したデータセット、ペア数12M+ • 学習環境 • 最小のモデルサイズでV100

• 各列で最も性能が良いものを緑、両データセットでCLIPを上回る 17 定量的結果：Zero-Shot T2I/I2T Retrieval

• 多くのベンチマークでCLIPを上回る結果 →Zero-shot性能でCLIPに匹敵 18 定量的結果：Zero-Shot Image Classification

1. 含意損失の有無（𝜆 = 0） • 性能面でほとんど差はない • 後述する定性結果で有用 2. 曲率を1で固定

• YFCC Captions [Thomee+, ACM16] に対する同様の実験結果 22 定性的結果：キャプションに対する階層構造(3/3)

• 背景 • 既存の大規模V&Lモデルでは言語の階層構造をうまく扱えていない • 提案 • 双曲空間上での視覚・言語の順序性を反映するEntailment Loss •

Cf. 接空間：あるローレンツモデル上の点𝒛 ∈ 𝐿𝑛に対し、以下を満たす空間周辺のベクトル𝒖 ∈ ℝ𝑛+1から接空間へは直交射影により写すことが可能 • 双曲平面から接空間は、指数写像により写すことが可能 •

25 Appendix：CLIPの再実験構成 • Gradient checkpointing [Chen+, 16] は計算速度が落ちるため非採用 • V100