Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:LLMDet (CVPR2025 Highlight)

論文紹介:LLMDet (CVPR2025 Highlight)

社内のCV輪講で使用した資料です。
LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models (CVPR 2025 Highlight)について紹介しました。

以下スライド中の参考文献のリンク
[1]: https://arxiv.org/abs/2112.03857
[2]: https://arxiv.org/abs/2206.05836
[3]: https://arxiv.org/abs/2103.00020
[4]: https://arxiv.org/abs/2303.02489
[5]: https://arxiv.org/abs/2404.09216
[6]: https://arxiv.org/abs/2305.06500
[7]: https://arxiv.org/abs/2303.05499
[8]: https://arxiv.org/abs/2401.02361
[9]: https://huggingface.co/lmms-lab/llava-onevision-qwen2-0.5b-ov
[10]: https://arxiv.org/abs/2304.03752
[11]: https://arxiv.org/abs/2304.08485
[12]: https://huggingface.co/Qwen/Qwen2-VL-72B

Avatar for tattaka

tattaka

July 01, 2025
Tweet

More Decks by tattaka

Other Decks in Technology

Transcript

  1. AI 4 ▪ Open-Vocabulary Object Detection (OVOD) は学習時に見たことの ないカテゴリであっても、推論時にユーザーがテキストで指定した 任意の物体を検出するタスク

    ▪ Zero-Shot Object Detectionは未知のクラスを検出するがクラスが事前に 定義されていて固定なのに対し、OVODは事前に定義されたクラスに縛られない ▪ モデルは画像内の特定の領域とその領域を説明するテキスト (単語やフレーズ)を正しく対応付けるように学習する Open-Vocabulary Object Detection Visual encoder Det head Bounding boxes Category prediction Image Visual encoder Det head Bounding boxes Image Text encoder prompt Text embeddding Visual embeddding Category prediction Closed Vocabulary Object Detection Open Vocabulary Object Detection
  2. AI 8 ▪ GroundingベースのOpen-Vocabularyなアプローチ ▪ GLIPなど ▪ ユーザがカテゴリを与えなくてもキャプションを生成することにより 検出できる範囲を増やすOpen-Endedアプローチ ▪

    CapDet・DetCLIPv3など ▪ LLMDetは後者のアプローチと同じくキャプション生成タスクを同時 に学習するが、画像レベルの長いキャプションを生成するように 学習することでさらにOVOD性能を向上させる ▪ ただしキャプション生成のベンチマークについては論文では焦点を当てていない 関連研究とLLMDetの位置付け
  3. AI 11 ▪ Detector ▪ 学習済みMM-Grounding-DINO[8]を使用 ▪ オブジェクトクエリと領域特徴を生成し、これを後段のLLMに供給する ▪ Projector

    ▪ Detectorの視覚特徴量をLLMの埋め込み空間へとマッピングする ▪ LLM ▪ LLaVA-OneVision-0.5b-ov[9]から初期化されたLLMを使用 ▪ Projectorを介して視覚特徴を受け取り、画像全体に関する詳細なキャプション と、個々の物体領域に関する短いフレーズの両方を生成する LLMDetのアーキテクチャ
  4. AI 15 ▪ GroundingCap-1Mの各サンプルは以下の要素で構成される ▪ Image ▪ Short Grounding Text

    ▪ Short Grounding Textに紐づいたBounding Boxes ▪ 画像全体に対するDetailed Caption ▪ モデル性能の低下を防ぐために ▪ キャプションにはできるだけ多くの詳細を含める ▪ キャプションには画像に関する事実の詳細のみを含める GroundingCap-1Mの構築: データセットのコンセプト
  5. AI 16 ▪ COCO・V3Det[10]・GoldG・LCS[11]などBounding Boxesまたは キャプションを含む既存のデータセットから収集 ▪ V3Det・GoldGに関しては ▪ Short

    Grounding TextはBBoxのラベルを連結して作成 ▪ 詳細なキャプションはLLMを活用して生成 ▪ 画像-キャプションのデータセット(LCS)に関しては キャプションから名詞句を抽出し、MM-Grounding-DINOを用いて 各フレーズのBBoxを生成する GroundingCap-1Mの構築: データの収集方法
  6. AI 18 ▪ データセットからノイズをなるべく除去するように後処理を行う ▪ 推測的な単語を含むサブセンテンスを削除 ▪ “indicating”, “suggesting”, “possibly”など

    ▪ 意味のないキャプションを除外 ▪ “In the image, a man a man a man...(repeating)”, “Sorry, I can not answer the question.” など ▪ 初回生成時のキャプションが100トークン未満の画像については キャプションを再生成 GroundingCap-1Mの構築: データクリーニング
  7. AI 20 ▪ 構築したGroundingCap-1Mの画像の大半はMM-Grounding-DINOの事前学習に用いた ものがほとんど ▪ 画像数が増えたことのゲインではなく学習方法を変えたことに よるゲインということが言いたい? ▪ LVISデータセットを用いた

    ゼロショット分類のベンチマーク では必要な学習データ量が少ない にもかかわらず良好な性能を示す ▪ DetCLIPv3もかなり良好な パフォーマンスだが、データセット の差分が大きいという主張 ゼロショット分類のパフォーマンス
  8. AI 22 ▪ 学習に用いるキャプション品質のablation study ▪ Qwen2VL-72bによって生成されたキャプションをV3Det、GoldG、 およびLCSの一部のキャプションを含むLLaVA-Onevision-7Bの キャプションに置き換えると0.9% AP悪化

    ▪ COCOキャプション、LCSのキャプション、 およびGoldGの短いグラウンディングテキストに置き換えると 0.4% AP 悪化 ▪ キャプションの品質がモデル性能に大きく影響することがわかる Ablation Study: キャプション品質
  9. AI 24 ▪ 領域レベルの粗いGroundingキャプションと 画像レベルの詳細なキャプションを同時に生成するように LLMを共同学習させることで、より強力な Open-Vocabulary Object Detectionを実現した ▪

    データセット構築部分で、いかに高品質なキャプションを用意するか が肝になっている? ▪ デモ:https://huggingface.co/spaces/mrdbourke/LLMDet-demo まとめ
  10. AI 25 [1]: https://arxiv.org/abs/2112.03857 [2]: https://arxiv.org/abs/2206.05836 [3]: https://arxiv.org/abs/2103.00020 [4]: https://arxiv.org/abs/2303.02489

    [5]: https://arxiv.org/abs/2404.09216 [6]: https://arxiv.org/abs/2305.06500 [7]: https://arxiv.org/abs/2303.05499 [8]: https://arxiv.org/abs/2401.02361 [9]: https://huggingface.co/lmms-lab/llava-onevision-qwen2-0.5b-ov 参考文献 (1/2)