Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

ICCV2025論文紹介:SAM2

Avatar for hinako0123 hinako0123
December 13, 2025
30

 ICCV2025論文紹介:SAM2

Avatar for hinako0123

hinako0123

December 13, 2025
Tweet

Transcript

  1. SAM2(ICLR2025) 4  2024年7月29日発表  Segment Anything Model(ICCV2023) からの変化 •

    動画に対応 • Image EncoderにHiera(ICML2023)を利用→精度と処理速度の向上 • Memory Attentionなどの過去の情報を利用する機構の追加
  2. SAM2の課題 5 特殊なドメインへの適応 • 自然画像による事前学習の影響  物体が混雑している場合の誤追跡 • 外観が似ている物体, 一定期間の遮蔽がある場合難しくなる

    エラーの蓄積 • Memory Bankによる影響 • 一度誤った情報が保存されると後続の予測も汚染されていく https://arxiv.org/pdf/2411.11922より引用
  3. 本日紹介する論文 6 ド キ ュ メ ン ト SAM2Long: Enhancing

    SAM 2 for Long Video Segmentation with a Training-Free Memory Tree Shuangrui Ding, Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Yuwei Guo, Dahua Lin, Jiaqi Wang
  4. 概要 7 SAM2Long: Enhancing SAM 2 for Long Video Segmentation

    with a Training-Free Memory Tree  タスク:Video Object Segmentation (VOS)  学習不要, SAM2が保存する過去の情報の選び方を変える  SAM2がエラーを蓄積させてしまう課題に対処 ド キ ュ メ ン ト
  5. 研究背景 8 SAM2Long: Enhancing SAM 2 for Long Video Segmentation

    with a Training-Free Memory Tree  SAM2のMask Decoderは現在のフレームについて3つの予測マスクを生成 → 3つのうちIoUスコアの最も高いマスクが最終出力となりメモリとして使用される  一度でも最終出力の選定を誤ると修正できない ド キ ュ メ ン ト 対象物体が 見えるかどうか
  6. 提案手法 9 SAM2Long: Enhancing SAM 2 for Long Video Segmentation

    with a Training-Free Memory Tree  P個の経路を用意し各フレームに対し経路毎に3つのマスクを出力 ド キ ュ メ ン ト 経路① 経路②
  7. 提案手法 10 SAM2Long: Enhancing SAM 2 for Long Video Segmentation

    with a Training-Free Memory Tree  各経路において累計スコアSが上位P個の経路のマスクをメモリとして採用→繰り返し ド キ ュ メ ン ト
  8. 提案手法 11 SAM2Long: Enhancing SAM 2 for Long Video Segmentation

    with a Training-Free Memory Tree  Occlusionスコアが閾値を下回る場合=物体が見えていない状態のためミスしやすい → 位置や形状が異なるマスクをあえて採用 ミスが伝播していくのを防ぐ ド キ ュ メ ン ト
  9. 提案手法 12 SAM2Long: Enhancing SAM 2 for Long Video Segmentation

    with a Training-Free Memory Tree  全フレームを処理し終えた後, 最も累計スコアSが高い経路のマスクの履歴を最終出力とする → 長期的な品質を重視するため長時間動画に強い ド キ ュ メ ン ト
  10. 実験結果 13 SAM2Long: Enhancing SAM 2 for Long Video Segmentation

    with a Training-Free Memory Tree  主要ベンチマークにおいてSAM2よりも高精度  長時間の動画への耐性も向上 ド キ ュ メ ン ト J:Jaccard係数(領域精度), F:F score(輪郭の精度)
  11. 実験結果 14 SAM2Long: Enhancing SAM 2 for Long Video Segmentation

    with a Training-Free Memory Tree  物体の遮蔽・重なりに強い ド キ ュ メ ン ト
  12. まとめ 16  SAM2Longを紹介 • 学習不要でSAM2のVOS性能を強化 • 長時間の動画や物体の重なりに強い  先月SAM3が登場

    • 基盤モデル系の研究は新モデルが出るとまたそれを追う形になりがち • 新しいモデルにも使える汎用的な機構の方が生き残りやすいか • ECCV2026あたりからSAM3ベースの手法が出てきそう