ドメイン特化なCLIPモデルとデータセットの紹介

AI 2025.6.19 @tattaka_sun GO株式会社ドメイン特化な CLIPモデルとデータセットの紹介

AI 2 項目 01｜CLIPの仕組み 02｜ドメインに特化した色々なCLIP 03｜学習・評価データセットの収集方法

AI 3 01 CLIPの仕組み

AI 4 ▪ Contrastive Language-Image Pre-training ▪ 画像とテキストを共通の意味空間に対応付けることができるモデル ▪ 従来のvision
language modelでは画像から直接キャプションを生成するなどの手法が主流だったが、CLIPは画像特徴と対応するテキスト特徴のコサイン類似度が高くなるように学習する CLIP [2] (1/2)

AI 5 ▪ 推論時は”A photo of a {category}”のような候補のテキスト特徴を作成し、画像特徴と最も類似度が高い特徴を選択することでゼロショット分類が可能となる
▪ 本手法を下地として、様々なドメインに特化した手法が近年提案されている CLIP [2] (2/2)

AI 6 02 ドメインに特化した色々なCLIP

AI 7 ▪ CLIPはweb上から集められた多種多様なデータで学習されているが、特定の専門分野で扱われるデータは分布や特性が大きく異なる ▪ ドメインによってはCLIPを学習する際に用いたような画像とテキストが対になっているデータセットを構築することが極めて困難 ▪ データにテキスト注釈を与えるコストが高い
▪ 機密性が高く、プライバシーや商業上の理由から公開や共有が厳しく制限されていることもある CLIPの専門ドメインへの適用における課題

AI 8 ▪ リモートセンシング ▪ RemoteCLIP [3] ▪ FedRSCLIP [4]
▪ SatCLIP [5] ▪ 医療・臨床画像 ▪ MedCLIP [6] ▪ UniMed-CLIP [7] ▪ ConceptCLIP [8] ▪ RadCLIP [9] ▪ 生物多様性と生態学的モニタリング ▪ BioCLIP [10] ▪ 音響・音声分析 ▪ AudioCLIP [11] 紹介する論文

AI 9 ▪ 衛星画像とキャプションが対応したデータセットは希少であり、それをそのまま使ってもモデルのスケーリングが難しい ▪ キャプションがないbbox・maskアノテーション付データセットに対して、ルールベースでキャプションを作成することでデータ量を大幅に増強するリモートセンシング:
RemoteCLIP

AI 10 ▪ Federated Learningを用いて学習させる際、モデルをデータがある場所に送信する必要があり、大規模モデルだと現実的ではない ▪ 少数のパラメータのみを更新するprompt leaningを導入し、通信コストを削減する
▪ 各clientで共通・個別の2パターンのprompt learningを実施することでドメイン全体の特徴と各client が持つ特徴どちらも捉えられるリモートセンシング: FedRSCLIP

AI 11 ▪ 画像と言語ではなく、衛星画像とそれに対応する地理座標を対照学習 ▪ 学習された座標位置エンコーダを用いたembeddingは社会経済的および環境的特徴をよく反映しており、気温予測や個体群密度推定などのダウンストリームタスクで優れるリモートセンシング: SatCLIP

AI 12 ▪ 医療・臨床画像では画像とテキストのペアを作ることが難しく、画像に対して陽性・陰性のようなデータしかないパターンが多い ▪ 同じ症例でも患者が違う場合、偽陰性となってしまう ▪ 画像から得られる診断ラベルとテキストデータから抽出したキーワードの類似度を計算し
教師として用いることで、画像とテキストのペアが少なくても学習することができる医療・臨床画像: MedCLIP

AI 13 ▪ 6つの医療ドメインから530万件以上のデータを収集し、学習されたCLIPベースモデル ▪ LLMを使ってラベル情報をキャプションに変換する ▪ 複数キャプション候補を生成し、
学習中は反復ごとにランダムに選択医療・臨床画像: UniMed-CLIP

AI 14 ▪ 通常のCLIPではキャプションのレベルで類似度を計算するが、 ConceptCLIPはコンセプトと呼ばれる単位で分割し類似度を算出する ▪ コンセプトはUMLS (Uniﬁed Medical Language
System) に単語を紐付ける ▪ 学習はCLIPというより後発のSigLIP[12]ベース医療・臨床画像: ConceptCLIP

AI 15 ▪ 放射線画像では、2D画像だけでなく3D画像を扱うことも多くある ▪ 2D画像とテキストのペア 1,157,587件と3D画像とテキストのペア 52,766件で構成されたデータセットで学習（キャプションはルールベースで作成） ▪
2D画像は通常のCLIPと同様に学習、3D画像はattention poolingを用いてz方向の情報を集約医療・臨床画像: RadCLIP

AI 16 ▪ TreeOfLife-10Mと呼ばれる生物の写真に対して、生物学的分類を階層的に表したラベルを付与したデータセットを提案 ▪ 個々のラベルをautoregressive text encoderによって処理することで、階層構造を反映したテキスト表現を獲得できる
▪ 希少種や未知の種類であっても、分類階層上の近さに基づいてその特徴を推論することが可能となる生物多様性と生態学的モニタリング: BioCLIP

AI 17 ▪ 画像・テキスト・音声のトライモーダルの特徴を共通の意味空間で関連付けることができるモデル ▪ AudioSet [13]という動画・音声のデータセットから音声とフレーム・クラスラベルを取得し、トライモーダルな学習に活用音響・音声分析:
AudioCLIP

AI 18 03 学習・評価データセットの収集方法

AI 19 ▪ ルールベースによるキャプション生成 ▪ Box-to-Caption (B2C) ▪ bboxアノテーションの数や位置を元にキャプションを生成する
(RemoteCLIP) ▪ プロンプトテンプレートの活用 ▪ ラベルとデータセットのメタデータからキャプションを生成 (RadCLIP) ▪ “body region – imaging modality – disease/medical condition” データセットの収集方法 (1/3)

AI 20 ▪ LLMによるキャプション生成 ▪ 汎用LLMの活用 ▪ メタデータを一緒に付与することでLLMが誤ったキャプションを生成しないように誘導 (LRSCLIP
[14]) ▪ ラベル・メタデータからテンプレートキャプションを複数通り生成 (UniMed-CLIP) ▪ ペアなしデータ活用 ▪ geotagを介して関連する衛星画像と地上画像のペアを収集する (GRAFT [15]) ▪ 画像・ラベルのみ・テキストのみのデータセットからキーワード抽出を用いて類似度を計算 (MedCLIP) データセットの収集方法 (2/3)

AI 21 ▪ 大規模なコミュニティの活用 ▪ BioCLIPで用いられたTreeOfLife-10MはiNat21 [16]やBioscan-1M [17]、Encyclopedia of Life（eol.org）から得られたデータを統合して
いる ▪ これらは専門家やコミュニティから得られたアノテーションが付与されているデータセットの収集方法 (3/3)

AI 22 • 固有ドメインに特化したCLIPベースの Vision Language Modelについて紹介した • 多くの論文ではOpenAIのCLIPから独自のデータセットで再学習されており、いかに高品質なドメイン固有の
データを得るかを主題としているまとめ

AI 23 [1] https://arxiv.org/abs/2302.00275 [2] https://arxiv.org/abs/2103.00020 [3] https://arxiv.org/abs/2306.11029 [4] https://arxiv.org/abs/2501.02461
[5] https://arxiv.org/abs/2311.17179 [6] https://arxiv.org/abs/2210.10163 [7] https://arxiv.org/abs/2412.10372 [8] https://arxiv.org/abs/2501.15579 [9] https://arxiv.org/abs/2403.09948 参考文献 (1/2)

AI 24 [10] https://imageomics.github.io/bioclip/ [11] https://arxiv.org/abs/2106.13043 [12] https://openaccess.thecvf.com/content/ICCV2023/papers/Zhai_Sigmoid_Loss_for_ Language_Image_Pre-Training_ICCV_2023_paper.pdf [13]
https://research.google.com/audioset/ [14] https://arxiv.org/abs/2503.19311 [15] https://graft.cs.cornell.edu/static/pdfs/graft_paper.pdf [16] https://github.com/visipedia/inat_comp/tree/master/2021 [17] https://biodiversitygenomics.net/projects/1m-insects/ 参考文献 (2/2)

ドメイン特化なCLIPモデルとデータセットの紹介

ドメイン特化なCLIPモデルとデータセットの紹介

tattaka

More Decks by tattaka

Other Decks in Technology

Featured

Transcript

AI 2025.6.19 @tattaka_sun GO株式会社ドメイン特化な CLIPモデルとデータセットの紹介

AI 2 項目 01｜CLIPの仕組み 02｜ドメインに特化した色々なCLIP 03｜学習・評価データセットの収集方法

AI 3 01 CLIPの仕組み

AI 4 ▪ Contrastive Language-Image Pre-training ▪ 画像とテキストを共通の意味空間に対応付けることができるモデル ▪ 従来のvision

AI 5 ▪ 推論時は”A photo of a {category}”のような候補のテキスト特徴を作成し、画像特徴と最も類似度が高い特徴を選択することでゼロショット分類が可能となる

AI 6 02 ドメインに特化した色々なCLIP

AI 8 ▪ リモートセンシング ▪ RemoteCLIP [3] ▪ FedRSCLIP [4]

AI 10 ▪ Federated Learningを用いて学習させる際、モデルをデータがある場所に送信する必要があり、大規模モデルだと現実的ではない ▪ 少数のパラメータのみを更新するprompt leaningを導入し、通信コストを削減する

AI 13 ▪ 6つの医療ドメインから530万件以上のデータを収集し、学習されたCLIPベースモデル ▪ LLMを使ってラベル情報をキャプションに変換する ▪ 複数キャプション候補を生成し、

AI 14 ▪ 通常のCLIPではキャプションのレベルで類似度を計算するが、 ConceptCLIPはコンセプトと呼ばれる単位で分割し類似度を算出する ▪ コンセプトはUMLS (Uniﬁed Medical Language

AI 15 ▪ 放射線画像では、2D画像だけでなく3D画像を扱うことも多くある ▪ 2D画像とテキストのペア 1,157,587件と3D画像とテキストのペア 52,766件で構成されたデータセットで学習（キャプションはルールベースで作成） ▪

AI 18 03 学習・評価データセットの収集方法

AI 19 ▪ ルールベースによるキャプション生成 ▪ Box-to-Caption (B2C) ▪ bboxアノテーションの数や位置を元にキャプションを生成する

AI 20 ▪ LLMによるキャプション生成 ▪ 汎用LLMの活用 ▪ メタデータを一緒に付与することでLLMが誤ったキャプションを生成しないように誘導 (LRSCLIP

AI 21 ▪ 大規模なコミュニティの活用 ▪ BioCLIPで用いられたTreeOfLife-10MはiNat21 [16]やBioscan-1M [17]、Encyclopedia of Life（eol.org）から得られたデータを統合して

AI 22 • 固有ドメインに特化したCLIPベースの Vision Language Modelについて紹介した • 多くの論文ではOpenAIのCLIPから独自のデータセットで再学習されており、いかに高品質なドメイン固有の

AI 23 [1] https://arxiv.org/abs/2302.00275 [2] https://arxiv.org/abs/2103.00020 [3] https://arxiv.org/abs/2306.11029 [4] https://arxiv.org/abs/2501.02461

AI 24 [10] https://imageomics.github.io/bioclip/ [11] https://arxiv.org/abs/2106.13043 [12] https://openaccess.thecvf.com/content/ICCV2023/papers/Zhai_Sigmoid_Loss_for_ Language_Image_Pre-Training_ICCV_2023_paper.pdf [13]