ICCV2025論文紹介：SAM2Long

第63回名古屋CV・PRML勉強会 ICCV2025論文読み名城大学堀田研M2 光岡日菜子

自己紹介光岡日菜子 • 名城大学堀田研究室M2 • 名古屋CV・PRML勉強会幹事(2024/4～) 趣味：イラスト/ MT車研究：Action
Segmentation/ SemSeg 2 @ramentabetai__1 @nagoyacv conpass HP

今回の発表内容 3  ICCV2025で発表されたSAM2関連の論文について • 「SAM」とタイトルにある本会議採択論文は15件ほど • CVPR2025以降SAM2ベースの論文も増加傾向 MedSAM2 DAM4SAM(CVPR2025)
SAMWISE(CVPR2025)

SAM2(ICLR2025) 4  2024年7月29日発表  Segment Anything Model(ICCV2023) からの変化 •
動画に対応 • Image EncoderにHiera(ICML2023)を利用→精度と処理速度の向上 • Memory Attentionなどの過去の情報を利用する機構の追加

SAM2の課題 5 特殊なドメインへの適応 • 自然画像による事前学習の影響  物体が混雑している場合の誤追跡 • 外観が似ている物体, 一定期間の遮蔽がある場合難しくなる
エラーの蓄積 • Memory Bankによる影響 • 一度誤った情報が保存されると後続の予測も汚染されていく https://arxiv.org/pdf/2411.11922より引用

本日紹介する論文 6 ドキュメント SAM2Long: Enhancing
SAM 2 for Long Video Segmentation with a Training-Free Memory Tree Shuangrui Ding, Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Yuwei Guo, Dahua Lin, Jiaqi Wang

概要 7 SAM2Long: Enhancing SAM 2 for Long Video Segmentation
with a Training-Free Memory Tree  タスク：Video Object Segmentation (VOS)  学習不要, SAM2が保存する過去の情報の選び方を変える  SAM2がエラーを蓄積させてしまう課題に対処ドキュメント

研究背景 8 SAM2Long: Enhancing SAM 2 for Long Video Segmentation
with a Training-Free Memory Tree  SAM2のMask Decoderは現在のフレームについて3つの予測マスクを生成 → 3つのうちIoUスコアの最も高いマスクが最終出力となりメモリとして使用される  一度でも最終出力の選定を誤ると修正できないドキュメント対象物体が見えるかどうか

提案手法 9 SAM2Long: Enhancing SAM 2 for Long Video Segmentation
with a Training-Free Memory Tree  P個の経路を用意し各フレームに対し経路毎に3つのマスクを出力ドキュメント経路① 経路②

with a Training-Free Memory Tree  各経路において累計スコアSが上位P個の経路のマスクをメモリとして採用→繰り返しドキュメント

with a Training-Free Memory Tree  Occlusionスコアが閾値を下回る場合＝物体が見えていない状態のためミスしやすい → 位置や形状が異なるマスクをあえて採用 ミスが伝播していくのを防ぐドキュメント

with a Training-Free Memory Tree  全フレームを処理し終えた後, 最も累計スコアSが高い経路のマスクの履歴を最終出力とする → 長期的な品質を重視するため長時間動画に強いドキュメント

実験結果 13 SAM2Long: Enhancing SAM 2 for Long Video Segmentation
with a Training-Free Memory Tree  主要ベンチマークにおいてSAM2よりも高精度  長時間の動画への耐性も向上ドキュメント J：Jaccard係数(領域精度), F：F score(輪郭の精度)

実験結果 14 SAM2Long: Enhancing SAM 2 for Long Video Segmentation
with a Training-Free Memory Tree  物体の遮蔽・重なりに強いドキュメント

まとめ 16  SAM2Longを紹介 • 学習不要でSAM2のVOS性能を強化 • 長時間の動画や物体の重なりに強い  先月SAM3が登場
• 基盤モデル系の研究は新モデルが出るとまたそれを追う形になりがち • 新しいモデルにも使える汎用的な機構の方が生き残りやすいか • ECCV2026あたりからSAM3ベースの手法が出てきそう

ICCV2025論文紹介：SAM2Long

ICCV2025論文紹介：SAM2Long

hinako0123

More Decks by hinako0123

Featured

Transcript

第63回名古屋CV・PRML勉強会 ICCV2025論文読み名城大学堀田研M2 光岡日菜子

自己紹介光岡日菜子 • 名城大学堀田研究室M2 • 名古屋CV・PRML勉強会幹事(2024/4～) 趣味：イラスト/ MT車研究：Action

今回の発表内容 3  ICCV2025で発表されたSAM2関連の論文について • 「SAM」とタイトルにある本会議採択論文は15件ほど • CVPR2025以降SAM2ベースの論文も増加傾向 MedSAM2 DAM4SAM(CVPR2025)

SAM2(ICLR2025) 4  2024年7月29日発表  Segment Anything Model(ICCV2023) からの変化 •

SAM2の課題 5 特殊なドメインへの適応 • 自然画像による事前学習の影響  物体が混雑している場合の誤追跡 • 外観が似ている物体, 一定期間の遮蔽がある場合難しくなる

本日紹介する論文 6 ドキュメント SAM2Long: Enhancing

概要 7 SAM2Long: Enhancing SAM 2 for Long Video Segmentation

研究背景 8 SAM2Long: Enhancing SAM 2 for Long Video Segmentation

提案手法 9 SAM2Long: Enhancing SAM 2 for Long Video Segmentation

提案手法 10 SAM2Long: Enhancing SAM 2 for Long Video Segmentation

提案手法 11 SAM2Long: Enhancing SAM 2 for Long Video Segmentation

提案手法 12 SAM2Long: Enhancing SAM 2 for Long Video Segmentation

実験結果 13 SAM2Long: Enhancing SAM 2 for Long Video Segmentation

実験結果 14 SAM2Long: Enhancing SAM 2 for Long Video Segmentation

まとめ 16  SAM2Longを紹介 • 学習不要でSAM2のVOS性能を強化 • 長時間の動画や物体の重なりに強い  先月SAM3が登場