ドメイン特化なCLIPモデルとデータセットの紹介

by tattaka

Slide 1

Slide 1 text

AI 2025.6.19 @tattaka_sun GO株式会社ドメイン特化な CLIPモデルとデータセットの紹介

Slide 2

Slide 2 text

AI 2 項目 01｜CLIPの仕組み 02｜ドメインに特化した色々なCLIP 03｜学習・評価データセットの収集方法

Slide 3

Slide 3 text

AI 3 01 CLIPの仕組み

Slide 4

Slide 4 text

AI 4 ▪ Contrastive Language-Image Pre-training ▪ 画像とテキストを共通の意味空間に対応付けることができるモデル ▪ 従来のvision language modelでは画像から直接キャプションを生成するなどの手法が主流だったが、CLIPは画像特徴と対応するテキスト特徴のコサイン類似度が高くなるように学習する CLIP [2] (1/2)

Slide 5

Slide 5 text

AI 5 ▪ 推論時は”A photo of a {category}”のような候補のテキスト特徴を作成し、画像特徴と最も類似度が高い特徴を選択することでゼロショット分類が可能となる ▪ 本手法を下地として、様々なドメインに特化した手法が近年提案されている CLIP [2] (2/2)

Slide 6

Slide 6 text

AI 6 02 ドメインに特化した色々なCLIP

Slide 7

Slide 7 text

AI 7 ▪ CLIPはweb上から集められた多種多様なデータで学習されているが、特定の専門分野で扱われるデータは分布や特性が大きく異なる ▪ ドメインによってはCLIPを学習する際に用いたような画像とテキストが対になっているデータセットを構築することが極めて困難 ▪ データにテキスト注釈を与えるコストが高い ▪ 機密性が高く、プライバシーや商業上の理由から公開や共有が厳しく制限されていることもある CLIPの専門ドメインへの適用における課題

Slide 8

Slide 8 text

AI 8 ▪ リモートセンシング ▪ RemoteCLIP [3] ▪ FedRSCLIP [4] ▪ SatCLIP [5] ▪ 医療・臨床画像 ▪ MedCLIP [6] ▪ UniMed-CLIP [7] ▪ ConceptCLIP [8] ▪ RadCLIP [9] ▪ 生物多様性と生態学的モニタリング ▪ BioCLIP [10] ▪ 音響・音声分析 ▪ AudioCLIP [11] 紹介する論文

Slide 9

Slide 9 text

AI 9 ▪ 衛星画像とキャプションが対応したデータセットは希少であり、それをそのまま使ってもモデルのスケーリングが難しい ▪ キャプションがないbbox・maskアノテーション付データセットに対して、ルールベースでキャプションを作成することでデータ量を大幅に増強するリモートセンシング: RemoteCLIP

Slide 10

Slide 10 text

AI 10 ▪ Federated Learningを用いて学習させる際、モデルをデータがある場所に送信する必要があり、大規模モデルだと現実的ではない ▪ 少数のパラメータのみを更新するprompt leaningを導入し、通信コストを削減する ▪ 各clientで共通・個別の2パターンのprompt learningを実施することでドメイン全体の特徴と各client が持つ特徴どちらも捉えられるリモートセンシング: FedRSCLIP

Slide 11

Slide 11 text

AI 11 ▪ 画像と言語ではなく、衛星画像とそれに対応する地理座標を対照学習 ▪ 学習された座標位置エンコーダを用いたembeddingは社会経済的および環境的特徴をよく反映しており、気温予測や個体群密度推定などのダウンストリームタスクで優れるリモートセンシング: SatCLIP

Slide 12

Slide 12 text

AI 12 ▪ 医療・臨床画像では画像とテキストのペアを作ることが難しく、画像に対して陽性・陰性のようなデータしかないパターンが多い ▪ 同じ症例でも患者が違う場合、偽陰性となってしまう ▪ 画像から得られる診断ラベルとテキストデータから抽出したキーワードの類似度を計算し教師として用いることで、画像とテキストのペアが少なくても学習することができる医療・臨床画像: MedCLIP

Slide 13

Slide 13 text

AI 13 ▪ 6つの医療ドメインから530万件以上のデータを収集し、学習されたCLIPベースモデル ▪ LLMを使ってラベル情報をキャプションに変換する ▪ 複数キャプション候補を生成し、学習中は反復ごとにランダムに選択医療・臨床画像: UniMed-CLIP

Slide 14

Slide 14 text

AI 14 ▪ 通常のCLIPではキャプションのレベルで類似度を計算するが、 ConceptCLIPはコンセプトと呼ばれる単位で分割し類似度を算出する ▪ コンセプトはUMLS (Uniﬁed Medical Language System) に単語を紐付ける ▪ 学習はCLIPというより後発のSigLIP[12]ベース医療・臨床画像: ConceptCLIP

Slide 15

Slide 15 text

AI 15 ▪ 放射線画像では、2D画像だけでなく3D画像を扱うことも多くある ▪ 2D画像とテキストのペア 1,157,587件と3D画像とテキストのペア 52,766件で構成されたデータセットで学習（キャプションはルールベースで作成） ▪ 2D画像は通常のCLIPと同様に学習、3D画像はattention poolingを用いてz方向の情報を集約医療・臨床画像: RadCLIP

Slide 16

Slide 16 text

AI 16 ▪ TreeOfLife-10Mと呼ばれる生物の写真に対して、生物学的分類を階層的に表したラベルを付与したデータセットを提案 ▪ 個々のラベルをautoregressive text encoderによって処理することで、階層構造を反映したテキスト表現を獲得できる ▪ 希少種や未知の種類であっても、分類階層上の近さに基づいてその特徴を推論することが可能となる生物多様性と生態学的モニタリング: BioCLIP

Slide 17

Slide 17 text

AI 17 ▪ 画像・テキスト・音声のトライモーダルの特徴を共通の意味空間で関連付けることができるモデル ▪ AudioSet [13]という動画・音声のデータセットから音声とフレーム・クラスラベルを取得し、トライモーダルな学習に活用音響・音声分析: AudioCLIP

Slide 18

Slide 18 text

AI 18 03 学習・評価データセットの収集方法

Slide 19

Slide 19 text

AI 19 ▪ ルールベースによるキャプション生成 ▪ Box-to-Caption (B2C) ▪ bboxアノテーションの数や位置を元にキャプションを生成する (RemoteCLIP) ▪ プロンプトテンプレートの活用 ▪ ラベルとデータセットのメタデータからキャプションを生成 (RadCLIP) ▪ “body region – imaging modality – disease/medical condition” データセットの収集方法 (1/3)

Slide 20

Slide 20 text

AI 20 ▪ LLMによるキャプション生成 ▪ 汎用LLMの活用 ▪ メタデータを一緒に付与することでLLMが誤ったキャプションを生成しないように誘導 (LRSCLIP [14]) ▪ ラベル・メタデータからテンプレートキャプションを複数通り生成 (UniMed-CLIP) ▪ ペアなしデータ活用 ▪ geotagを介して関連する衛星画像と地上画像のペアを収集する (GRAFT [15]) ▪ 画像・ラベルのみ・テキストのみのデータセットからキーワード抽出を用いて類似度を計算 (MedCLIP) データセットの収集方法 (2/3)

Slide 21

Slide 21 text

AI 21 ▪ 大規模なコミュニティの活用 ▪ BioCLIPで用いられたTreeOfLife-10MはiNat21 [16]やBioscan-1M [17]、Encyclopedia of Life（eol.org）から得られたデータを統合している ▪ これらは専門家やコミュニティから得られたアノテーションが付与されているデータセットの収集方法 (3/3)

Slide 22

Slide 22 text

AI 22 ● 固有ドメインに特化したCLIPベースの Vision Language Modelについて紹介した ● 多くの論文ではOpenAIのCLIPから独自のデータセットで再学習されており、いかに高品質なドメイン固有のデータを得るかを主題としているまとめ

Slide 23

Slide 23 text

AI 23 [1] https://arxiv.org/abs/2302.00275 [2] https://arxiv.org/abs/2103.00020 [3] https://arxiv.org/abs/2306.11029 [4] https://arxiv.org/abs/2501.02461 [5] https://arxiv.org/abs/2311.17179 [6] https://arxiv.org/abs/2210.10163 [7] https://arxiv.org/abs/2412.10372 [8] https://arxiv.org/abs/2501.15579 [9] https://arxiv.org/abs/2403.09948 参考文献 (1/2)

Slide 24

Slide 24 text

AI 24 [10] https://imageomics.github.io/bioclip/ [11] https://arxiv.org/abs/2106.13043 [12] https://openaccess.thecvf.com/content/ICCV2023/papers/Zhai_Sigmoid_Loss_for_ Language_Image_Pre-Training_ICCV_2023_paper.pdf [13] https://research.google.com/audioset/ [14] https://arxiv.org/abs/2503.19311 [15] https://graft.cs.cornell.edu/static/pdfs/graft_paper.pdf [16] https://github.com/visipedia/inat_comp/tree/master/2021 [17] https://biodiversitygenomics.net/projects/1m-insects/ 参考文献 (2/2)