Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Segment Anything Modelの最新動向:SAM2とその発展系

Segment Anything Modelの最新動向:SAM2とその発展系

DeNA × AI Talks #1での登壇資料です。
SAM2やその発展系の解説、プロジェクトへの活用についてまとめています。

Avatar for TakatoYoshikawa

TakatoYoshikawa

August 06, 2025
Tweet

More Decks by TakatoYoshikawa

Other Decks in Technology

Transcript

  1. © DeNA Co., Ltd. 1 Segment Anything Modelの最新動向 SAM2とその発展系 吉川天斗

    AI技術開発部ビジョン・スポーツグループ 株式会社ディー・エヌ・エー
  2. © DeNA Co., Ltd. 2 自己紹介 吉川 天斗 / Takato

    Yoshikawa AI技術開発部 ビジョン・スポーツグループ (24新卒) 川崎ブレイブサンダースチーム強化 PJ 大学 • 筑波大学 情報理工学位プログラム • 計算幾何学とグラフィックス研究室 ◦ 主に画像生成モデルの研究 趣味 • Kaggle (今年こそは金メダル取りたい!) • ゲーム • バスケ 映像提供:SoftBank 単一視点の試合映像からトラッキングデータ自動作成
  3. © DeNA Co., Ltd. 3 1 Segment Anything Model 2

    (SAM2)とは • セグメンテーションとは? ◦ 画像上の「モノ」の形を認識して、その領域を見つけ出す技術 • SAM2: 動画のセグメンテーション基盤モデル ◦ SAM1: 画像のセグメンテーション基盤モデル ◦ クリックなどの簡単な操作で動画の セグメンテーションが可能 ◦ Meta AIから2024夏ごろ発表 ◦ オープンソース (Apache 2.0 license) ▪ https://github.com/facebookresearch/sam2
  4. © DeNA Co., Ltd. 4 目次 Segment Anything Model 2

    追加学習なしでの精度改善 A Distractor-Aware Memory for Visual Object Tracking with SAM2 [Videnovic+, CVPR25] テキストによるオブジェクト指定 SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation [Cuttano+, CVPR25] 1 2 3 まとめ 4
  5. © DeNA Co., Ltd. 6 2 Segment Anything Model 2

    (SAM2) • 対話的なマスクアノテーションが可能 ◦ 公式Webデモアプリ ◦ point, box, mask(プロンプト)によって マスクしたいオブジェクトを指定 ◦ 1~数フレームにプロンプトを指定するだけで 動画全体の高品質なマスクを作成可能! ▪ 動画編集 ▪ セグメンテーションマスクデータセット作成
  6. © DeNA Co., Ltd. 7 3 Segment Anything Model 2

    (SAM2) • プロジェクトでも選手のトラッキングに活用 ◦ オクルージョンに対して非常に頑健で、トラッキングの高い汎化性能を活用 ▪ 追加学習なしでも高精度でトラッキング可能 ◦ YOLO(Object Detection)組み合わせることによって、プロンプト指定を自動化 映像提供:SoftBank
  7. © DeNA Co., Ltd. 8 4 Segment Anything Model 2

    (SAM2) • フレームワーク概要 もう少し詳しいモデルの解説: https://speakerdeck.com/tenten0727/segment-anything-model-2
  8. © DeNA Co., Ltd. 9 4 Segment Anything Model 2

    (SAM2) • フレームワーク概要 もう少し詳しいモデルの解説: https://speakerdeck.com/tenten0727/segment-anything-model-2 入力:フレーム、プロンプト 出力:マスク
  9. © DeNA Co., Ltd. 10 4 Segment Anything Model 2

    (SAM2) • フレームワーク概要 出力されたマスクと画像特徴 からMemoryを計算 もう少し詳しいモデルの解説: https://speakerdeck.com/tenten0727/segment-anything-model-2
  10. © DeNA Co., Ltd. 11 4 Segment Anything Model 2

    (SAM2) • フレームワーク概要 次のフレームの画像特徴と memory attentionを計算 もう少し詳しいモデルの解説: https://speakerdeck.com/tenten0727/segment-anything-model-2
  11. © DeNA Co., Ltd. 12 7 Segment Anything Model 2

    (SAM2) • Memory Bank ◦ Memory: 以前のフレームのマスクや画像情報 ◦ どのフレームのメモリを残すべきか プロンプトを指定したフレームのメモリ 直近のフレームのメモリ 最大Mフレーム 最大Nフレーム(デフォルトは6) 一番最初のフレームのメモリは固定で保持 Init t-6 t-5 t-4 t-3 t-2 t-1 a b c d e f Tips 動画のFPSに注意! 高FPSの場合は保存フレームの間隔を 空けたほうが精度が上がる場合がある (memory_temporal_stride_for_evalを調整)
  12. © DeNA Co., Ltd. 13 6 Segment Anything Model 2

    (SAM2) • Mask出力 ◦ 単一promptの場合、下図のように曖昧性がある場合が多いため3つのマスクを出力 ◦ 推論時はMask Decoderで出力される予測IoU scoreが最も高いマスクを選択 0.3 0.5 0.9 IoU score
  13. © DeNA Co., Ltd. 15 1 • オープンソース(ライセンスは明記されてない) ◦ https://github.com/jovanavidenovic/DAM4SAM

    • 見分けがつきづらいオブジェクト(distractor)にターゲットが移ってしまう問題 ◦ 一度移ってしまうとそのままトラッキングしてしまうため間違い続ける ◦ 実際にバスケの選手トラッキングでもたまに見られた(特にオブジェクトが小さい場合) →メモリの保持方法の修正のみで改善 A Distractor-Aware Memory for Visual Object Tracking with SAM2 (CVPR2025)
  14. © DeNA Co., Ltd. 16 2 • Distractor-aware memory (DAM)

    ◦ SAM2のメモリに加えて、見分けがつきづらいオブジェクト(Distractor)が 存在するフレームのメモリ(Distractor-Resolving Memory)を保持するように変更 ◦ 直近のフレームのメモリはそこまで多くいらないので、その分をDRMに割当 A Distractor-Aware Memory for Visual Object Tracking with SAM2 (CVPR2025)
  15. © DeNA Co., Ltd. 17 3 • Distractorが存在するフレームはどうやって見つける? ◦ Distractorにターゲットが移動する前のフレームで

    SAM2の3つの出力マスクのうちのどれかに Distractorの予測が含まれることが実験でわかった →3つの出力マスクが大きく異なるとき(重なってないとき) のフレームをDRMとする! (実際にはもう少し複雑なアルゴリズム) A Distractor-Aware Memory for Visual Object Tracking with SAM2 (CVPR2025)
  16. © DeNA Co., Ltd. 18 4 • DiDi Dataset作成 ◦

    既存のトラッキングベンチマークデータセットは簡単な例が多く Distractorが存在するような状況のデータが過小評価される ◦ 以下のようにDistractorが存在するようなデータを既存のデータセットから 半自動的に抽出 A Distractor-Aware Memory for Visual Object Tracking with SAM2 (CVPR2025)
  17. © DeNA Co., Ltd. 19 5 • 実験結果 ◦ DiDiデータセットにおいて高い性能

    ▪ Quality: 動画全体のAUC平均 ▪ Accuracy: IoU>0のフレームにおけるIoU平均 ▪ Robustness: targetがあるフレームのうち IoU>0のフレームの割合(Recall) ◦ 速度は20%の低下(13.3fps->11fps) ◦ 既存データセットに対しても高い性能を維持 ▪ 比較的簡単なオブジェクトの推論の精度は 維持されたまま、Distractorに強い推論に A Distractor-Aware Memory for Visual Object Tracking with SAM2 (CVPR2025)
  18. © DeNA Co., Ltd. 21 1 SAMWISE: Infusing Wisdom in

    SAM2 for Text-Driven Video Segmentation (CVPR2025 Highlight) • オープンソース (Apache 2.0 license) ◦ https://github.com/ClaudiaCuttano/SAMWISE • SAM2をテキスト指定に対応
  19. © DeNA Co., Ltd. 22 2 SAMWISE: Infusing Wisdom in

    SAM2 for Text-Driven Video Segmentation (CVPR2025 Highlight) • SAM2の重みは更新せず、軽量なアダプタのみ学習
  20. © DeNA Co., Ltd. 23 3 SAMWISE: Infusing Wisdom in

    SAM2 for Text-Driven Video Segmentation (CVPR2025 Highlight) • SAM2の重みは更新せず、軽量なアダプタのみ学習 「登る」といった動作は1フレームでは 認識できないため、 Tフレームを同時に入力するように変更
  21. © DeNA Co., Ltd. 24 4 SAMWISE: Infusing Wisdom in

    SAM2 for Text-Driven Video Segmentation (CVPR2025 Highlight) • SAM2の重みは更新せず、軽量なアダプタのみ学習
  22. © DeNA Co., Ltd. 25 4 SAMWISE: Infusing Wisdom in

    SAM2 for Text-Driven Video Segmentation (CVPR2025 Highlight) • SAM2の重みは更新せず、軽量なアダプタのみ学習
  23. © DeNA Co., Ltd. 26 5 SAMWISE: Infusing Wisdom in

    SAM2 for Text-Driven Video Segmentation (CVPR2025 Highlight) • Cross-Modal Temporal Adapter (CMT) ◦ テキストプロンプトのために、画像と言語の特徴を融合した特徴量を作成 ◦ 別モダリティの特徴量に対してCross Attentionを計算 CMT
  24. © DeNA Co., Ltd. 27 6 SAMWISE: Infusing Wisdom in

    SAM2 for Text-Driven Video Segmentation (CVPR2025 Highlight) • Hierarchical selective attention (HSA) ◦ 画像特徴に動きの情報を埋め込むためのモジュール ◦ 全画素に対してAttentionを計算すると計算量が膨大なので、パッチ分割して計算 CMT ① TxHxW -> TxPxP に分割しtoken化 ② tokenに対して Self-Attentionを計算
  25. © DeNA Co., Ltd. 28 7 SAMWISE: Infusing Wisdom in

    SAM2 for Text-Driven Video Segmentation (CVPR2025 Highlight) • 実験結果 ◦ Ablation Study ▪ J:マスクのIoU ▪ F:輪郭のF1スコア ▪ J&F:上2つの平均 ◦ Text-Visual間のAttentionとHSAモジュールが大きい貢献 +5.1 +3.9
  26. © DeNA Co., Ltd. 29 8 SAMWISE: Infusing Wisdom in

    SAM2 for Text-Driven Video Segmentation (CVPR2025 Highlight) • 実験結果 ◦ 既存手法との比較 (3つのデータセット) VLMベースの手法
  27. © DeNA Co., Ltd. 30 9 SAMWISE: Infusing Wisdom in

    SAM2 for Text-Driven Video Segmentation (CVPR2025 Highlight) • 実際に動かしてみた ◦ バスケの映像ではあまりうまくいく例がなかった ▪ 学習データがそこまで多くないため、汎用的なモデルではない ◦ “Player”などの複数オブジェクトが存在する場合にIDを分けるなどの処理がほしい 映像提供:SoftBank “3 point line” “player”
  28. © DeNA Co., Ltd. 32 1 まとめ • アノテーションやトラッキングタスクで実用性の非常に高いSAM2 •

    SAM2の発展 ◦ 追加学習なしで、見分けづらいオブジェクトに対するトラッキングの精度改善 ◦ テキストプロンプトへの拡張 • SAM3 ◦ より汎用的なテキストプロンプトへの対応? ◦ waitlistに申し込み可能
  29. © DeNA Co., Ltd. 34 5 Segment Anything Model 2

    (SAM2) • Mask Decoder Input Output
  30. © DeNA Co., Ltd. 36 1 • DiDi Dataset作成 1.

    既存データセットの動画フレームに対して、DINOv2で特徴抽出 2. 特徴量におけるターゲットマスク内の画素のcos類似度の平均を計算(score1) 3. マスク内とマスク外の特徴量のcos類似度を計算しscore1より高いスコアの比率が 0.5以上の場合はDistractorを含むと判定 4. このようなフレームが1/3以上ある動画を残す A Distractor-Aware Memory for Visual Object Tracking with SAM2 (CVPR2025)
  31. © DeNA Co., Ltd. 37 6 • 実験結果 ◦ 既存データセットに対しても高い性能

    A Distractor-Aware Memory for Visual Object Tracking with SAM2 (CVPR2025)