Slide 21
Slide 21 text
(TAM) Track Anything: Segment Anything Meets Videos (2/3)
モデルと学習パイプライン
最初のフレームのマスクが得られたら、トラッキングするモデル
弱プロンプト(BBox, Points)を
与えてSAMでセグメンテーショ
ン
=初期マスクを得る
XMemの結果が悪かったら
SAMでRefine
これらをPoint Promptsに変換して、SAMに入力
[Optional]
人が間に入って、マスクを修正
XMemは半教師ありモデルなので、初期のマスクが良いものである必要がある
XMemは長時間のトラッキング
になるとマスクの品質が落ちる