論文紹介：LLMDet (CVPR2025 Highlight)

by tattaka

Slide 1

Slide 1 text

AI 2025.6.27 @tattaka_sun GO株式会社論文紹介：LLMDet (CVPR2025 Highlight)

Slide 2

Slide 2 text

AI 2 項目 01｜Open-Vocabulary Object Detectionについて 02｜LLMDetのアーキテクチャと学習戦略 03｜性能評価

Slide 3

Slide 3 text

AI 3 01 Open-Vocabulary Object Detection について

Slide 4

Slide 4 text

AI 4 ▪ Open-Vocabulary Object Detection (OVOD) は学習時に見たことのないカテゴリであっても、推論時にユーザーがテキストで指定した任意の物体を検出するタスク ▪ Zero-Shot Object Detectionは未知のクラスを検出するがクラスが事前に定義されていて固定なのに対し、OVODは事前に定義されたクラスに縛られない ▪ モデルは画像内の特定の領域とその領域を説明するテキスト（単語やフレーズ）を正しく対応付けるように学習する Open-Vocabulary Object Detection Visual encoder Det head Bounding boxes Category prediction Image Visual encoder Det head Bounding boxes Image Text encoder prompt Text embeddding Visual embeddding Category prediction Closed Vocabulary Object Detection Open Vocabulary Object Detection

Slide 5

Slide 5 text

AI 5 ▪ CLIP[3]では画像特徴とテキスト特徴を同じ特徴空間に埋め込むように学習するが、GLIPではテキストプロンプト内のフレーズと画像領域を対応付けるように学習する ▪ 具体的には、物体検出ラベルを連結した文字列と画像キャプション両方のテキスト特徴、画像から検出した物体領域の特徴のマッチングを行う関連研究：GLIP[1]・GLIPv2[2]

Slide 6

Slide 6 text

AI 6 ▪ 物体検出に加え、検出領域に基づいたキャプション生成も同時に学習させることで検出性能の向上を図る ▪ GLIPなどは推論時に指定するカテゴリリストに推論結果が依存するが、 CapDetではキャプションを生成することでカテゴリリストに含まれない状況にも対応できる関連研究：CapDet[4]

Slide 7

Slide 7 text

AI 7 ▪ CapDetと同じく領域に対するキャプションを生成することができるが、階層的に領域を説明するキャプションを生成するように学習する ▪ それによって、画像内に未知の物体があったとしても説明の粒度を下げて検出できるようになる ▪ データセットはInstructBLIP[6]を用いて作成 ▪ 検出器の学習 -> キャプション生成器の学習 -> 全体のﬁnetuningの多段階で学習関連研究：DetCLIPv3[5]

Slide 8

Slide 8 text

AI 8 ▪ GroundingベースのOpen-Vocabularyなアプローチ ▪ GLIPなど ▪ ユーザがカテゴリを与えなくてもキャプションを生成することにより検出できる範囲を増やすOpen-Endedアプローチ ▪ CapDet・DetCLIPv3など ▪ LLMDetは後者のアプローチと同じくキャプション生成タスクを同時に学習するが、画像レベルの長いキャプションを生成するように学習することでさらにOVOD性能を向上させる ▪ ただしキャプション生成のベンチマークについては論文では焦点を当てていない関連研究とLLMDetの位置付け

Slide 9

Slide 9 text

AI 9 02 LLMDetのアーキテクチャと学習戦略

Slide 10

Slide 10 text

AI 10 ▪ Grounding-DINO[7]をベースとして、LLMも同時に追加学習させることで画像単位の長いキャプションからよりリッチな情報を Detectorに伝搬することができる ▪ モデルを学習するために、画像単位のキャプションとオブジェクト単位のラベルの両方を備えたデータセットGroundingCap-1Mを収集 LLMDetの概観

Slide 11

Slide 11 text

AI 11 ▪ Detector ▪ 学習済みMM-Grounding-DINO[8]を使用 ▪ オブジェクトクエリと領域特徴を生成し、これを後段のLLMに供給する ▪ Projector ▪ Detectorの視覚特徴量をLLMの埋め込み空間へとマッピングする ▪ LLM ▪ LLaVA-OneVision-0.5b-ov[9]から初期化されたLLMを使用 ▪ Projectorを介して視覚特徴を受け取り、画像全体に関する詳細なキャプションと、個々の物体領域に関する短いフレーズの両方を生成する LLMDetのアーキテクチャ

Slide 12

Slide 12 text

AI 12 ▪ 第1ステップとして、Detectorから得られる特徴をLLMの入力埋め込み空間にマッピングするためProjectorのみを学習させる ▪ Detectorからの視覚特徴をProjectorを通してLLMに入力し、画像レベルのキャプションを生成させるように学習する LLMDetの学習戦略: Alignment Training

Slide 13

Slide 13 text

AI 13 ▪ 第2ステップとしてDetector(Backboneは固定)・Projectorを ﬁnetune、LLMをloraで学習する ▪ 従来のGLIPなどで用いるGrounding Lossに加え、領域/画像単位のキャプション生成を行うタスクを学習する LLMDetの学習戦略: Joint Fine-tuning backprop

Slide 14

Slide 14 text

AI ▪ モデルアーキテクチャはMM-Grounding-DINOと同一なので推論も同じように、プロンプトのembeddingとの類似度を計算する推論時の挙動 Match text embedding with visual embedding Category prediction Bounding boxes

Slide 15

Slide 15 text

AI 15 ▪ GroundingCap-1Mの各サンプルは以下の要素で構成される ▪ Image ▪ Short Grounding Text ▪ Short Grounding Textに紐づいたBounding Boxes ▪ 画像全体に対するDetailed Caption ▪ モデル性能の低下を防ぐために ▪ キャプションにはできるだけ多くの詳細を含める ▪ キャプションには画像に関する事実の詳細のみを含める GroundingCap-1Mの構築: データセットのコンセプト

Slide 16

Slide 16 text

AI 16 ▪ COCO・V3Det[10]・GoldG・LCS[11]などBounding Boxesまたはキャプションを含む既存のデータセットから収集 ▪ V3Det・GoldGに関しては ▪ Short Grounding TextはBBoxのラベルを連結して作成 ▪ 詳細なキャプションはLLMを活用して生成 ▪ 画像-キャプションのデータセット（LCS）に関してはキャプションから名詞句を抽出し、MM-Grounding-DINOを用いて各フレーズのBBoxを生成する GroundingCap-1Mの構築: データの収集方法

Slide 17

Slide 17 text

AI 17 ▪ 図中の”Grounding Text”はGoldG元々のキャプション ▪ Qwen2-VL-72b[12]を用いてオブジェクトの種類、テクスチャ、色、オブジェクトの部位、オブジェクトの動作、正確な位置の情報が豊富に含まれるようにキャプション生成を行う GroundingCap-1Mの構築: 画像レベルのキャプション生成

Slide 18

Slide 18 text

AI 18 ▪ データセットからノイズをなるべく除去するように後処理を行う ▪ 推測的な単語を含むサブセンテンスを削除 ▪ “indicating”, “suggesting”, “possibly”など ▪ 意味のないキャプションを除外 ▪ “In the image, a man a man a man...(repeating)”, “Sorry, I can not answer the question.” など ▪ 初回生成時のキャプションが100トークン未満の画像についてはキャプションを再生成 GroundingCap-1Mの構築: データクリーニング

Slide 19

Slide 19 text

AI 19 03 性能評価

Slide 20

Slide 20 text

AI 20 ▪ 構築したGroundingCap-1Mの画像の大半はMM-Grounding-DINOの事前学習に用いたものがほとんど ▪ 画像数が増えたことのゲインではなく学習方法を変えたことによるゲインということが言いたい？ ▪ LVISデータセットを用いたゼロショット分類のベンチマークでは必要な学習データ量が少ないにもかかわらず良好な性能を示す ▪ DetCLIPv3もかなり良好なパフォーマンスだが、データセットの差分が大きいという主張ゼロショット分類のパフォーマンス

Slide 21

Slide 21 text

AI 21 ▪ 左の表では、Grounding Lossでの学習・領域/画像単位のキャプション生成での学習がLVISデータセットを用いたにゼロショット分類それぞれ性能にどれだけ貢献するか示す ▪ 画像レベルの生成と領域レベルの生成の両方を組み合わせるのが効果的 ▪ 右の表では、学習に使用するLLMのサイズはDetectorの性能にそこまで関与しないことがわかる Ablation Study: 学習コンポーネント

Slide 22

Slide 22 text

AI 22 ▪ 学習に用いるキャプション品質のablation study ▪ Qwen2VL-72bによって生成されたキャプションをV3Det、GoldG、およびLCSの一部のキャプションを含むLLaVA-Onevision-7Bのキャプションに置き換えると0.9% AP悪化 ▪ COCOキャプション、LCSのキャプション、およびGoldGの短いグラウンディングテキストに置き換えると 0.4% AP 悪化 ▪ キャプションの品質がモデル性能に大きく影響することがわかる Ablation Study: キャプション品質

Slide 23

Slide 23 text

AI 23 ▪ GroundingCap-1Mのものと比較すると比較的粒度が粗い ▪ 領域レベルの簡単なキャプションの方が画像レベルの詳細なキャプションよりもはるかに多いため前者に影響されてしまっていると考えられる LLMDetと一緒に学習したLLMから生成されたキャプション

Slide 24

Slide 24 text

AI 24 ▪ 領域レベルの粗いGroundingキャプションと画像レベルの詳細なキャプションを同時に生成するように LLMを共同学習させることで、より強力な Open-Vocabulary Object Detectionを実現した ▪ データセット構築部分で、いかに高品質なキャプションを用意するかが肝になっている？ ▪ デモ：https://huggingface.co/spaces/mrdbourke/LLMDet-demo まとめ

Slide 25

Slide 25 text

AI 25 [1]: https://arxiv.org/abs/2112.03857 [2]: https://arxiv.org/abs/2206.05836 [3]: https://arxiv.org/abs/2103.00020 [4]: https://arxiv.org/abs/2303.02489 [5]: https://arxiv.org/abs/2404.09216 [6]: https://arxiv.org/abs/2305.06500 [7]: https://arxiv.org/abs/2303.05499 [8]: https://arxiv.org/abs/2401.02361 [9]: https://huggingface.co/lmms-lab/llava-onevision-qwen2-0.5b-ov 参考文献 (1/2)

Slide 26

Slide 26 text

AI 26 [10]: https://arxiv.org/abs/2304.03752 [11]: https://arxiv.org/abs/2304.08485 [12]: https://huggingface.co/Qwen/Qwen2-VL-72B 参考文献 (1/2)