Slide 1

Slide 1 text

AI 2025.6.19 @tattaka_sun GO株式会社 ドメイン特化な CLIPモデルと データセットの紹介

Slide 2

Slide 2 text

AI 2 項目 01|CLIPの仕組み 02|ドメインに特化した色々なCLIP 03|学習・評価データセットの収集方法

Slide 3

Slide 3 text

AI 3 01 CLIPの仕組み

Slide 4

Slide 4 text

AI 4 ▪ Contrastive Language-Image Pre-training ▪ 画像とテキストを共通の意味空間に対応付けることができるモデル ▪ 従来のvision language modelでは画像から直接キャプションを生成するなど の手法が主流だったが、CLIPは画像特徴と対応するテキスト特徴の コサイン類似度が高くなるように学習する CLIP [2] (1/2)

Slide 5

Slide 5 text

AI 5 ▪ 推論時は”A photo of a {category}”のような候補のテキスト特徴を作成し、 画像特徴と最も類似度が高い特徴を選択することでゼロショット分類が 可能となる ▪ 本手法を下地として、様々なドメインに特化した手法が近年提案されている CLIP [2] (2/2)

Slide 6

Slide 6 text

AI 6 02 ドメインに特化した色々なCLIP

Slide 7

Slide 7 text

AI 7 ▪ CLIPはweb上から集められた多種多様なデータで学習されているが、 特定の専門分野で扱われるデータは分布や特性が大きく異なる ▪ ドメインによってはCLIPを学習する際に用いたような画像と テキストが対になっているデータセットを構築することが極めて困難 ▪ データにテキスト注釈を与えるコストが高い ▪ 機密性が高く、プライバシーや商業上の理由から公開や共有が厳 しく制限されていることもある CLIPの専門ドメインへの適用における課題

Slide 8

Slide 8 text

AI 8 ▪ リモートセンシング ▪ RemoteCLIP [3] ▪ FedRSCLIP [4] ▪ SatCLIP [5] ▪ 医療・臨床画像 ▪ MedCLIP [6] ▪ UniMed-CLIP [7] ▪ ConceptCLIP [8] ▪ RadCLIP [9] ▪ 生物多様性と生態学的モニタリング ▪ BioCLIP [10] ▪ 音響・音声分析 ▪ AudioCLIP [11] 紹介する論文

Slide 9

Slide 9 text

AI 9 ▪ 衛星画像とキャプションが対応したデータセットは希少であり、 それをそのまま使ってもモデルのスケーリングが難しい ▪ キャプションがないbbox・maskアノテーション付データセットに対 して、ルールベースでキャプションを作成することでデータ量を 大幅に増強する リモートセンシング: RemoteCLIP

Slide 10

Slide 10 text

AI 10 ▪ Federated Learningを用いて学習させる際、モデルをデータがある 場所に送信する必要があり、大規模モデルだと現実的ではない ▪ 少数のパラメータのみを更新するprompt leaningを導入し、 通信コストを削減する ▪ 各clientで共通・個別の2パターンのprompt learningを実施すること でドメイン全体の特徴と各client が持つ特徴どちらも捉えられる リモートセンシング: FedRSCLIP

Slide 11

Slide 11 text

AI 11 ▪ 画像と言語ではなく、衛星画像とそれに対応する地理座標を対照学習 ▪ 学習された座標位置エンコーダを用いたembeddingは 社会経済的および環境的特徴をよく反映しており、 気温予測や個体群密度推定などのダウンストリームタスクで優れる リモートセンシング: SatCLIP

Slide 12

Slide 12 text

AI 12 ▪ 医療・臨床画像では画像とテキストのペアを作ることが難しく、画像 に対して陽性・陰性のようなデータしかないパターンが多い ▪ 同じ症例でも患者が違う場合、偽陰性となってしまう ▪ 画像から得られる診断ラベルとテキストデータから抽出した キーワードの類似度を計算し 教師として用いることで、 画像とテキストのペアが 少なくても 学習することができる 医療・臨床画像: MedCLIP

Slide 13

Slide 13 text

AI 13 ▪ 6つの医療ドメインから530万件以上のデータを収集し、 学習されたCLIPベースモデル ▪ LLMを使ってラベル情報を キャプションに変換する ▪ 複数キャプション候補を生成し、 学習中は反復ごとにランダムに選択 医療・臨床画像: UniMed-CLIP

Slide 14

Slide 14 text

AI 14 ▪ 通常のCLIPではキャプションのレベルで類似度を計算するが、 ConceptCLIPはコンセプトと呼ばれる単位で分割し類似度を算出する ▪ コンセプトはUMLS (Unified Medical Language System) に 単語を紐付ける ▪ 学習はCLIPというより後発 のSigLIP[12]ベース 医療・臨床画像: ConceptCLIP

Slide 15

Slide 15 text

AI 15 ▪ 放射線画像では、2D画像だけでなく3D画像を扱うことも多くある ▪ 2D画像とテキストのペア 1,157,587件と3D画像とテキストのペア 52,766件で構成されたデータセットで学習 (キャプションはルールベースで作成) ▪ 2D画像は通常のCLIPと同様に学習、3D画像はattention poolingを 用いてz方向の情報を集約 医療・臨床画像: RadCLIP

Slide 16

Slide 16 text

AI 16 ▪ TreeOfLife-10Mと呼ばれる生物の写真に対して、生物学的分類を 階層的に表したラベルを付与したデータセットを提案 ▪ 個々のラベルをautoregressive text encoderによって処理すること で、階層構造を反映したテキスト表現を獲得できる ▪ 希少種や未知の種類であっても、分類階層上の近さに基づいて その特徴を推論することが可能となる 生物多様性と生態学的モニタリング: BioCLIP

Slide 17

Slide 17 text

AI 17 ▪ 画像・テキスト・音声のトライモーダルの特徴を共通の意味空間で 関連付けることができるモデル ▪ AudioSet [13]という動画・音声のデータセットから音声とフレーム ・クラスラベルを取得し、トライモーダルな学習に活用 音響・音声分析: AudioCLIP

Slide 18

Slide 18 text

AI 18 03 学習・評価データセットの収集方法

Slide 19

Slide 19 text

AI 19 ▪ ルールベースによるキャプション生成 ▪ Box-to-Caption (B2C) ▪ bboxアノテーションの数や位置を元に キャプションを生成する (RemoteCLIP) ▪ プロンプトテンプレートの活用 ▪ ラベルとデータセットのメタデータから キャプションを生成 (RadCLIP) ▪ “body region – imaging modality – disease/medical condition” データセットの収集方法 (1/3)

Slide 20

Slide 20 text

AI 20 ▪ LLMによるキャプション生成 ▪ 汎用LLMの活用 ▪ メタデータを一緒に付与することでLLMが誤ったキャプションを生 成しないように誘導 (LRSCLIP [14]) ▪ ラベル・メタデータからテンプレート キャプションを複数通り生成 (UniMed-CLIP) ▪ ペアなしデータ活用 ▪ geotagを介して関連する 衛星画像と地上画像のペアを収集する (GRAFT [15]) ▪ 画像・ラベルのみ・テキストのみのデータセットから キーワード抽出を用いて類似度を計算 (MedCLIP) データセットの収集方法 (2/3)

Slide 21

Slide 21 text

AI 21 ▪ 大規模なコミュニティの活用 ▪ BioCLIPで用いられたTreeOfLife-10MはiNat21 [16]やBioscan-1M [17]、Encyclopedia of Life(eol.org)から得られたデータを統合して いる ▪ これらは専門家やコミュニティから得られたアノテーションが 付与されている データセットの収集方法 (3/3)

Slide 22

Slide 22 text

AI 22 ● 固有ドメインに特化したCLIPベースの Vision Language Modelについて紹介した ● 多くの論文ではOpenAIのCLIPから独自のデータセット で再学習されており、いかに高品質なドメイン固有の データを得るかを主題としている まとめ

Slide 23

Slide 23 text

AI 23 [1] https://arxiv.org/abs/2302.00275 [2] https://arxiv.org/abs/2103.00020 [3] https://arxiv.org/abs/2306.11029 [4] https://arxiv.org/abs/2501.02461 [5] https://arxiv.org/abs/2311.17179 [6] https://arxiv.org/abs/2210.10163 [7] https://arxiv.org/abs/2412.10372 [8] https://arxiv.org/abs/2501.15579 [9] https://arxiv.org/abs/2403.09948 参考文献 (1/2)

Slide 24

Slide 24 text

AI 24 [10] https://imageomics.github.io/bioclip/ [11] https://arxiv.org/abs/2106.13043 [12] https://openaccess.thecvf.com/content/ICCV2023/papers/Zhai_Sigmoid_Loss_for_ Language_Image_Pre-Training_ICCV_2023_paper.pdf [13] https://research.google.com/audioset/ [14] https://arxiv.org/abs/2503.19311 [15] https://graft.cs.cornell.edu/static/pdfs/graft_paper.pdf [16] https://github.com/visipedia/inat_comp/tree/master/2021 [17] https://biodiversitygenomics.net/projects/1m-insects/ 参考文献 (2/2)