Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal Club] Hyperbolic Image-Text Representations

[Journal Club] Hyperbolic Image-Text Representations

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Transcript

  1. 慶應義塾大学 杉浦孔明研究室
    今井悠人
    Hyperbolic Image-Text Representations
    Karan Desai1, Maximilian Nickel2, Tanmay Rajpurohit3, Justin Johnson1,2,
    Ramakrishna Vedantam4
    (1.University of Michigan, 2.Meta AI, 3.Independent Researcher, 4.New York
    University)
    Desai, Karan, et al. "Hyperbolic image-text representations." In ICML(2023).
    ICML23 Poster
    慶應義塾大学 杉浦孔明研究室
    今井悠人

    View full-size slide

  2. • 背景
    • 既存の大規模V&Lモデルでは言語の階層構造をうまく扱えていない
    • 提案
    • 双曲空間上での視覚・言語の順序性を反映するEntailment Loss
    • ローレンツモデルによって高い解釈性を持つ対照学習フレームワーク
    • 結果
    • CLIPを改良したベースラインとの比較実験
    • Zero-shot Retrieval、Image Classificationにて上記とcompetitive
    2
    概要

    View full-size slide

  3. 3
    背景:既存の大規模V&Lモデルでは階層構造を反映していない
    • 画像はテキストより多くの情報を持つ
    • 抽象的なテキスト程多くの画像・言語にマッチ
    問題
     言語の意味的な階層は無数に存在
     抽象的テキストは対照学習のノイズになる
    意味的内容の粒度が異なる階層構造を組み込むことが望ましい

    View full-size slide

  4. 4
    背景:既存の大規模V&Lモデルでは階層構造を反映していない
    既存の大規模V&Lモデルにおける帰納的バイアス
    • 抽象的なテキストは多くの画像にマッチ
    • 画像はテキストより多くの情報を持つ
    • “text entails image”
    問題
     言語-画像間の対応が多対多である
     言語の意味的な階層もまた複数存在
    根に近いものほど一般的・抽象的
    根から遠いものほど詳細・具体的
    意味的階層の帰納バイアス
    意味的内容の粒度が異なる階層構造を組み込むことが望ましい

    View full-size slide

  5. • L2正規化した埋め込み空間を考える
    • ユークリッド空間では単位超球上に分布する
    • 上位/下位概念を明示的には作成しない
    • CLIP [Radford+, ICML21] ,ALIGN [Jia+, ICML21]
     大規模ではあるが、多くの概念で階層構造を捨象
    • 双曲空間(Hyperbolic space)
    • 階層構造を埋め込むのに適している
    • 原点に近いほど上位、遠いほど下位概念
    5
    背景:ユークリッド空間では階層構造を反映しにくい

    View full-size slide

  6. 6
    関連研究:近年では画像に対する双曲空間埋め込みが注目
    Model Abstract
    [Khrulkov+, CVPR20] 人物認証タスクにおける画像間の階層構造を指摘
    少数データで効果的な埋め込みの獲得がモチベーション
    [Atigh+, CVPR22] ポアンカレ球モデル上に作成したSegmentation mapに基づき
    物体境界やラベルのない埋め込み、確信度を可視化
    Hyp-ViT [Ermolov+, CVPR22] 512→384次元に特徴次元を削減して埋め込み
    ポアンカレ球モデル上で学習
    HCL [Ge+, CVPR23] 背景>物体の階層構造を双曲空間で表現
    物体間はcos類似度で対照学習
    [Atigh+, CVPR22] [Ermolov+, CVPR22] [Ge+, CVPR23]

    View full-size slide

  7. • 双曲空間(双曲多様体) = 一定の負の曲率を持つリーマン多様体
    • 𝑛次元の双曲多様体は、距離と角度の両方を保存するℝ𝑛での表現はできない
    • 距離・角度を歪ませる形で表現する
    • ポアンカレ球など
    • ℝ𝑛+1の部分多様体として表現
    • ローレンツモデルなど
    7
    前提:双曲空間は階層構造を反映する非ユークリッド空間
    多様体 = 拡大するとユークリッド空間にみなせるもの
    Ex. 地球 球そのものは平面で書けないが、拡大した地図は直交座標に見える
    曲率 𝑐 = 罫線の曲がり具合
    𝑛 = 2
    Nickel, Maximillian, et al, "Learning continuous hierarchies in the lorentz model of hyperbolic geometry." in ICML(2018).

    View full-size slide

  8. • ローレンツモデルでは、1次元増やして考える。(時間成分)
    • ユークリッド空間上のベクトル𝒗𝑠𝑝𝑎𝑐𝑒
    に、𝑣𝑡𝑖𝑚𝑒
    ∈ ℝを合わせた𝒗 = 𝒗𝑠𝑝𝑎𝑐𝑒
    ; 𝑣𝑡𝑖𝑚𝑒
    ∈ ℝ𝑛+1として表現
    • 物理学(相対論)に関係する都合、このような命名
    • 時間成分が加わった都合上、内積の定義が以下に置き換わる(ローレンツ内積)
    • ローレンツモデルによる双曲空間上の点は、以下を満たす𝒙の集合
    8
    前提:双曲空間のローレンツモデル上での定義
    空間成分のユークリッド内積と時間成分の演算
    ローレンツ内積が負で一定

    View full-size slide

  9. • 𝐿𝑛内の任意のベクトルは以下を満たす。
    • これにより、双曲空間上での原点は、𝑶 = [𝟎,1/√𝑐]
    • 双曲空間上では、2点間の最短経路(=測地線)は原点側にゆがむ
    • 測地線は一意に決まることが知られている
    • 証明は [Ratcliffe+, 2006] のp.65を参照
    • 距離の公理を満たすので、ローレンツ距離とも
    9
    前提:双曲空間のローレンツモデル上での性質(1/2)
    Nickel, Maximillian, et al, "Learning continuous hierarchies in the lorentz model of hyperbolic geometry." in ICML(2018).

    View full-size slide

  10. • 接空間:あるローレンツモデル上の点𝒛 ∈ 𝐿𝑛に対し、以下を満たす空間
    • これは、双曲空間ではなく、ユークリッド空間上のベクトル集合
    • 周辺のベクトル𝒖 ∈ ℝ𝑛+1から接空間へは直交射影により写すことが可能
    • 接空間から双曲平面は、指数写像により写すことが可能
    • 逆変換は対数写像(式は省略)
    10
    前提:双曲空間のローレンツモデル上での性質(2/2)
    Yang, Menglin, et al. "Discrete-time temporal network embedding via implicit hierarchical learning in hyperbolic space.", in ACM SIGKDD21

    View full-size slide

  11. • あああ
    11
    提案手法:双曲特徴空間を獲得するEnd-to-Endの学習(1/2)
    双曲空間への埋め込みのパイプライン
    1. Encoderからの線形変換後の出力を𝒗𝑒𝑛𝑐
    ∈ ℝ𝑛
    2. ローレンツモデルで扱うために、0を時間成分としてcat
    𝒗 = 𝒗𝑒𝑛𝑐
    ;0 ∈ ℝ𝑛+1
    3. このとき、𝒗は接空間𝒯
    𝑶
    𝐿𝑛に存在する
    ∵ 𝒗, 𝑶 ℒ
    = 𝒗𝑒𝑛𝑐
    ⋅ 𝟎 − 0 ⋅ 1/ 𝑐 = 0
    4. 空間成分が𝒗𝑒𝑛𝑐
    と一致するため、指数写像を整理
    5. 𝒙の時間成分は、以下の式から計算可能

    View full-size slide

  12. • あああ
    12
    提案手法:双曲特徴空間を獲得するEnd-to-Endの学習(2/2)
    • 双曲線三角関数:指数関数の四則演算で表される
    • 線形層部分の初期値によっては指数的にスケール
    • 𝑣𝑠𝑝𝑎𝑐𝑒
    に初期値を1/√𝑛とした学習可能なスカラーを乗算
    • 埋め込みが原点に集中することを防ぐ
    • ローレンツノルムで正規化した埋め込みを目標
    Q. 階層構造を目的関数に組み込むには?

    View full-size slide

  13. • 錐の(半)開口角によって目的関数を設定
    • 錐の条件として、以下を要請
    1. 軸対称性:錐の軸に対し錐体が点対称
    2. 回転不変性:形が場所に依存しない
    3. 連続性:開口角が連続
    4. 推移性:錐が順序推を持つ
    • すべて満たすような半開口角は埋め込み𝒙𝑏
    に対し
    13
    先行研究1:Hyperbolic Entailment Cone [Ganea+, ICML18]

    View full-size slide

  14. • ポアンカレ球→ローレンツモデル上へ写像
    • この時、錐は右下図のような形状
    • ローレンツモデル上での最適化を定式化
    14
    先行研究2: [Nickel+, ICML18]
    ポアンカレ球上 ローレンツモデル上

    View full-size slide

  15. • ∠𝑂𝑥𝑦の外角が求まればよい
    • 双曲空間上の余弦定理から可能
    • すでにtext>imageであれば0
    • 最終的な損失は以下
    15
    提案手法:開口角に画像埋め込みを押し込むEntailment Loss

    View full-size slide

  16. • 事前学習データセット:RedCaps [Desai+, NeurIPS21]
    • Redditから収集したデータセット、ペア数12M+
    • 学習環境
    • 最小のモデルサイズでV100 32GB×8枚
    • 学習時間
    • CLIP Baselineを、SLIP [Mu+, ECCV22] をベースに拡張して実験
    • 詳細な拡張内容はAppendixに記載
    • 記載ありはCLIPのみ、一日以内で学習できるように拡張
    16
    実験設定

    View full-size slide

  17. • 各列で最も性能が良いものを緑、両データセットでCLIPを上回る
    17
    定量的結果:Zero-Shot T2I/I2T Retrieval

    View full-size slide

  18. • 多くのベンチマークでCLIPを上回る結果
    →Zero-shot性能でCLIPに匹敵
    18
    定量的結果:Zero-Shot Image Classification

    View full-size slide

  19. 1. 含意損失の有無(𝜆 = 0)
    • 性能面でほとんど差はない
    • 後述する定性結果で有用
    2. 曲率を1で固定
    • ViT-Bではほぼ変化がない
    • ViT-LでImageNetにおいて大きく↓
    • モデルサイズのスケールに必要と主張
    3. 対照損失の尺度にローレンツ距離ではなくローレンツ内積を使用
    • ローレンツ内積は (−∞, 1/ c] のため、学習が不安定になりやすいと主張
    19
    Ablation Study:帰納バイアスの検証と距離尺度

    View full-size slide

  20. • 木構造の親ノード([ROOT])をどのように決定するか
    • 双曲空間:原点に埋め込む
    • ユークリッド空間:全ての埋め込みの平均として算出
    20
    定性的結果(1/3):バイアスの反映
    画像の方がより情報を持つ(具体的概念)仮説を反映した空間を構築
    意味的な中心からの距離

    View full-size slide

  21. • 画像埋め込みから[ROOT]を結ぶ測地線上に50個等間隔でステップを取る
    • ダイクストラ法で探索し、各点から最近傍から取得できるテキスト埋め込みを取得
    21
    定性的結果:単語レベルでの階層構造 (2/3)
    明示的に意味的階層を反映
    [ROOT]

    View full-size slide

  22. • YFCC Captions [Thomee+, ACM16] に対する同様の実験結果
    22
    定性的結果:キャプションに対する階層構造(3/3)

    View full-size slide

  23. • 背景
    • 既存の大規模V&Lモデルでは言語の階層構造をうまく扱えていない
    • 提案
    • 双曲空間上での視覚・言語の順序性を反映するEntailment Loss
    • ローレンツモデルによって高い解釈性を持つ対照学習フレームワーク
    • 結果
    • CLIPを改良したベースラインとの比較実験
    • Zero-shot Retrieval、Image Classificationにて上記とcompetitive
    23
    まとめ

    View full-size slide

  24. Cf. 接空間:あるローレンツモデル上の点𝒛 ∈ 𝐿𝑛に対し、以下を満たす空間
    周辺のベクトル𝒖 ∈ ℝ𝑛+1から接空間へは直交射影により写すことが可能
    • 双曲平面から接空間は、指数写像により写すことが可能
    • 写像の名前の由来は、リー群に由来
    24
    Appendix:直交射影と対数写像
    Yang, Menglin, et al. "Discrete-time temporal network embedding via implicit hierarchical learning in hyperbolic space.", in ACM SIGKDD21

    View full-size slide

  25. 25
    Appendix:CLIPの再実験構成
    • Gradient checkpointing [Chen+, 16] は計算速度が落ちるため非採用
    • V100 32 GB × 8枚で14時間程度

    View full-size slide