大規模事前学習モデルの CLIP を少数の学習画像から成る下流の分類タスクへ適応させる手法である Domain Aligned CLIP の解説資料です。本手法では画像特徴のモーダル内アラインメントおよび 画像/テキスト特徴のモーダル間アランメントを取るよう少量のパラメータを学習することで、既存手法を上回る認識性能を達成しています。