ドメイン特化なCLIPモデルとデータセットの紹介
by
tattaka
×
Copy
Open
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
AI 2025.6.19 @tattaka_sun GO株式会社 ドメイン特化な CLIPモデルと データセットの紹介
Slide 2
Slide 2 text
AI 2 項目 01|CLIPの仕組み 02|ドメインに特化した色々なCLIP 03|学習・評価データセットの収集方法
Slide 3
Slide 3 text
AI 3 01 CLIPの仕組み
Slide 4
Slide 4 text
AI 4 ▪ Contrastive Language-Image Pre-training ▪ 画像とテキストを共通の意味空間に対応付けることができるモデル ▪ 従来のvision language modelでは画像から直接キャプションを生成するなど の手法が主流だったが、CLIPは画像特徴と対応するテキスト特徴の コサイン類似度が高くなるように学習する CLIP [2] (1/2)
Slide 5
Slide 5 text
AI 5 ▪ 推論時は”A photo of a {category}”のような候補のテキスト特徴を作成し、 画像特徴と最も類似度が高い特徴を選択することでゼロショット分類が 可能となる ▪ 本手法を下地として、様々なドメインに特化した手法が近年提案されている CLIP [2] (2/2)
Slide 6
Slide 6 text
AI 6 02 ドメインに特化した色々なCLIP
Slide 7
Slide 7 text
AI 7 ▪ CLIPはweb上から集められた多種多様なデータで学習されているが、 特定の専門分野で扱われるデータは分布や特性が大きく異なる ▪ ドメインによってはCLIPを学習する際に用いたような画像と テキストが対になっているデータセットを構築することが極めて困難 ▪ データにテキスト注釈を与えるコストが高い ▪ 機密性が高く、プライバシーや商業上の理由から公開や共有が厳 しく制限されていることもある CLIPの専門ドメインへの適用における課題
Slide 8
Slide 8 text
AI 8 ▪ リモートセンシング ▪ RemoteCLIP [3] ▪ FedRSCLIP [4] ▪ SatCLIP [5] ▪ 医療・臨床画像 ▪ MedCLIP [6] ▪ UniMed-CLIP [7] ▪ ConceptCLIP [8] ▪ RadCLIP [9] ▪ 生物多様性と生態学的モニタリング ▪ BioCLIP [10] ▪ 音響・音声分析 ▪ AudioCLIP [11] 紹介する論文
Slide 9
Slide 9 text
AI 9 ▪ 衛星画像とキャプションが対応したデータセットは希少であり、 それをそのまま使ってもモデルのスケーリングが難しい ▪ キャプションがないbbox・maskアノテーション付データセットに対 して、ルールベースでキャプションを作成することでデータ量を 大幅に増強する リモートセンシング: RemoteCLIP
Slide 10
Slide 10 text
AI 10 ▪ Federated Learningを用いて学習させる際、モデルをデータがある 場所に送信する必要があり、大規模モデルだと現実的ではない ▪ 少数のパラメータのみを更新するprompt leaningを導入し、 通信コストを削減する ▪ 各clientで共通・個別の2パターンのprompt learningを実施すること でドメイン全体の特徴と各client が持つ特徴どちらも捉えられる リモートセンシング: FedRSCLIP
Slide 11
Slide 11 text
AI 11 ▪ 画像と言語ではなく、衛星画像とそれに対応する地理座標を対照学習 ▪ 学習された座標位置エンコーダを用いたembeddingは 社会経済的および環境的特徴をよく反映しており、 気温予測や個体群密度推定などのダウンストリームタスクで優れる リモートセンシング: SatCLIP
Slide 12
Slide 12 text
AI 12 ▪ 医療・臨床画像では画像とテキストのペアを作ることが難しく、画像 に対して陽性・陰性のようなデータしかないパターンが多い ▪ 同じ症例でも患者が違う場合、偽陰性となってしまう ▪ 画像から得られる診断ラベルとテキストデータから抽出した キーワードの類似度を計算し 教師として用いることで、 画像とテキストのペアが 少なくても 学習することができる 医療・臨床画像: MedCLIP
Slide 13
Slide 13 text
AI 13 ▪ 6つの医療ドメインから530万件以上のデータを収集し、 学習されたCLIPベースモデル ▪ LLMを使ってラベル情報を キャプションに変換する ▪ 複数キャプション候補を生成し、 学習中は反復ごとにランダムに選択 医療・臨床画像: UniMed-CLIP
Slide 14
Slide 14 text
AI 14 ▪ 通常のCLIPではキャプションのレベルで類似度を計算するが、 ConceptCLIPはコンセプトと呼ばれる単位で分割し類似度を算出する ▪ コンセプトはUMLS (Unified Medical Language System) に 単語を紐付ける ▪ 学習はCLIPというより後発 のSigLIP[12]ベース 医療・臨床画像: ConceptCLIP
Slide 15
Slide 15 text
AI 15 ▪ 放射線画像では、2D画像だけでなく3D画像を扱うことも多くある ▪ 2D画像とテキストのペア 1,157,587件と3D画像とテキストのペア 52,766件で構成されたデータセットで学習 (キャプションはルールベースで作成) ▪ 2D画像は通常のCLIPと同様に学習、3D画像はattention poolingを 用いてz方向の情報を集約 医療・臨床画像: RadCLIP
Slide 16
Slide 16 text
AI 16 ▪ TreeOfLife-10Mと呼ばれる生物の写真に対して、生物学的分類を 階層的に表したラベルを付与したデータセットを提案 ▪ 個々のラベルをautoregressive text encoderによって処理すること で、階層構造を反映したテキスト表現を獲得できる ▪ 希少種や未知の種類であっても、分類階層上の近さに基づいて その特徴を推論することが可能となる 生物多様性と生態学的モニタリング: BioCLIP
Slide 17
Slide 17 text
AI 17 ▪ 画像・テキスト・音声のトライモーダルの特徴を共通の意味空間で 関連付けることができるモデル ▪ AudioSet [13]という動画・音声のデータセットから音声とフレーム ・クラスラベルを取得し、トライモーダルな学習に活用 音響・音声分析: AudioCLIP
Slide 18
Slide 18 text
AI 18 03 学習・評価データセットの収集方法
Slide 19
Slide 19 text
AI 19 ▪ ルールベースによるキャプション生成 ▪ Box-to-Caption (B2C) ▪ bboxアノテーションの数や位置を元に キャプションを生成する (RemoteCLIP) ▪ プロンプトテンプレートの活用 ▪ ラベルとデータセットのメタデータから キャプションを生成 (RadCLIP) ▪ “body region – imaging modality – disease/medical condition” データセットの収集方法 (1/3)
Slide 20
Slide 20 text
AI 20 ▪ LLMによるキャプション生成 ▪ 汎用LLMの活用 ▪ メタデータを一緒に付与することでLLMが誤ったキャプションを生 成しないように誘導 (LRSCLIP [14]) ▪ ラベル・メタデータからテンプレート キャプションを複数通り生成 (UniMed-CLIP) ▪ ペアなしデータ活用 ▪ geotagを介して関連する 衛星画像と地上画像のペアを収集する (GRAFT [15]) ▪ 画像・ラベルのみ・テキストのみのデータセットから キーワード抽出を用いて類似度を計算 (MedCLIP) データセットの収集方法 (2/3)
Slide 21
Slide 21 text
AI 21 ▪ 大規模なコミュニティの活用 ▪ BioCLIPで用いられたTreeOfLife-10MはiNat21 [16]やBioscan-1M [17]、Encyclopedia of Life(eol.org)から得られたデータを統合して いる ▪ これらは専門家やコミュニティから得られたアノテーションが 付与されている データセットの収集方法 (3/3)
Slide 22
Slide 22 text
AI 22 ● 固有ドメインに特化したCLIPベースの Vision Language Modelについて紹介した ● 多くの論文ではOpenAIのCLIPから独自のデータセット で再学習されており、いかに高品質なドメイン固有の データを得るかを主題としている まとめ
Slide 23
Slide 23 text
AI 23 [1] https://arxiv.org/abs/2302.00275 [2] https://arxiv.org/abs/2103.00020 [3] https://arxiv.org/abs/2306.11029 [4] https://arxiv.org/abs/2501.02461 [5] https://arxiv.org/abs/2311.17179 [6] https://arxiv.org/abs/2210.10163 [7] https://arxiv.org/abs/2412.10372 [8] https://arxiv.org/abs/2501.15579 [9] https://arxiv.org/abs/2403.09948 参考文献 (1/2)
Slide 24
Slide 24 text
AI 24 [10] https://imageomics.github.io/bioclip/ [11] https://arxiv.org/abs/2106.13043 [12] https://openaccess.thecvf.com/content/ICCV2023/papers/Zhai_Sigmoid_Loss_for_ Language_Image_Pre-Training_ICCV_2023_paper.pdf [13] https://research.google.com/audioset/ [14] https://arxiv.org/abs/2503.19311 [15] https://graft.cs.cornell.edu/static/pdfs/graft_paper.pdf [16] https://github.com/visipedia/inat_comp/tree/master/2021 [17] https://biodiversitygenomics.net/projects/1m-insects/ 参考文献 (2/2)