Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ドメイン特化なCLIPモデルとデータセットの紹介

Avatar for tattaka tattaka
July 01, 2025

 ドメイン特化なCLIPモデルとデータセットの紹介

Avatar for tattaka

tattaka

July 01, 2025
Tweet

More Decks by tattaka

Other Decks in Technology

Transcript

  1. AI 4 ▪ Contrastive Language-Image Pre-training ▪ 画像とテキストを共通の意味空間に対応付けることができるモデル ▪ 従来のvision

    language modelでは画像から直接キャプションを生成するなど の手法が主流だったが、CLIPは画像特徴と対応するテキスト特徴の コサイン類似度が高くなるように学習する CLIP [2] (1/2)
  2. AI 8 ▪ リモートセンシング ▪ RemoteCLIP [3] ▪ FedRSCLIP [4]

    ▪ SatCLIP [5] ▪ 医療・臨床画像 ▪ MedCLIP [6] ▪ UniMed-CLIP [7] ▪ ConceptCLIP [8] ▪ RadCLIP [9] ▪ 生物多様性と生態学的モニタリング ▪ BioCLIP [10] ▪ 音響・音声分析 ▪ AudioCLIP [11] 紹介する論文
  3. AI 10 ▪ Federated Learningを用いて学習させる際、モデルをデータがある 場所に送信する必要があり、大規模モデルだと現実的ではない ▪ 少数のパラメータのみを更新するprompt leaningを導入し、 通信コストを削減する

    ▪ 各clientで共通・個別の2パターンのprompt learningを実施すること でドメイン全体の特徴と各client が持つ特徴どちらも捉えられる リモートセンシング: FedRSCLIP
  4. AI 19 ▪ ルールベースによるキャプション生成 ▪ Box-to-Caption (B2C) ▪ bboxアノテーションの数や位置を元に キャプションを生成する

    (RemoteCLIP) ▪ プロンプトテンプレートの活用 ▪ ラベルとデータセットのメタデータから キャプションを生成 (RadCLIP) ▪ “body region – imaging modality – disease/medical condition” データセットの収集方法 (1/3)
  5. AI 20 ▪ LLMによるキャプション生成 ▪ 汎用LLMの活用 ▪ メタデータを一緒に付与することでLLMが誤ったキャプションを生 成しないように誘導 (LRSCLIP

    [14]) ▪ ラベル・メタデータからテンプレート キャプションを複数通り生成 (UniMed-CLIP) ▪ ペアなしデータ活用 ▪ geotagを介して関連する 衛星画像と地上画像のペアを収集する (GRAFT [15]) ▪ 画像・ラベルのみ・テキストのみのデータセットから キーワード抽出を用いて類似度を計算 (MedCLIP) データセットの収集方法 (2/3)
  6. AI 21 ▪ 大規模なコミュニティの活用 ▪ BioCLIPで用いられたTreeOfLife-10MはiNat21 [16]やBioscan-1M [17]、Encyclopedia of Life(eol.org)から得られたデータを統合して

    いる ▪ これらは専門家やコミュニティから得られたアノテーションが 付与されている データセットの収集方法 (3/3)
  7. AI 23 [1] https://arxiv.org/abs/2302.00275 [2] https://arxiv.org/abs/2103.00020 [3] https://arxiv.org/abs/2306.11029 [4] https://arxiv.org/abs/2501.02461

    [5] https://arxiv.org/abs/2311.17179 [6] https://arxiv.org/abs/2210.10163 [7] https://arxiv.org/abs/2412.10372 [8] https://arxiv.org/abs/2501.15579 [9] https://arxiv.org/abs/2403.09948 参考文献 (1/2)
  8. AI 24 [10] https://imageomics.github.io/bioclip/ [11] https://arxiv.org/abs/2106.13043 [12] https://openaccess.thecvf.com/content/ICCV2023/papers/Zhai_Sigmoid_Loss_for_ Language_Image_Pre-Training_ICCV_2023_paper.pdf [13]

    https://research.google.com/audioset/ [14] https://arxiv.org/abs/2503.19311 [15] https://graft.cs.cornell.edu/static/pdfs/graft_paper.pdf [16] https://github.com/visipedia/inat_comp/tree/master/2021 [17] https://biodiversitygenomics.net/projects/1m-insects/ 参考文献 (2/2)