Segment Anything + Alpha

Segment Anything 2023/04/28 飯田啄巳

時系列と関係性 SAM SEEM 5 13 SA3D 26 TAM 24 NOW!
28 相補的なプロンプト利用メモリプロンプト NeRFでSAM トラッキングでSAM April 今日のメイン

手法概要 • タスク：様々なSegmentation Promptを入力として受け付ける。 • モデル：一回重たい画像エンコーダでEmbedding特徴に変換した後、それを使いまわして結果をRefineしていく。 • データ：次の3段階でデータを生成 ① 手動アノテーション
② 半自動アノテーション ③ 完全自動アノテーション SAMの学習に使うのはココ論文ではmodel-in-the-loopとか言ってる

タスク曖昧性のあるセグメンテーションを行う。＝一点の選択でもセグメンテーションの候補はいくつもある（右図）様々な条件入力を受け入れられるようにする。 (Promptable Segmentation Task)

モデル ViT(MAE) ① 画像に対して大きめの画像エンコーダ (ViT) を適用 ② 各条件入力に対して、適切なエンコードを行う • mask
：浅めのCNN • points ：Positional Encoding • box ：Positional Encoding • text ：CLIP Text Encoder scoreでNMS 3つの候補出力 ~50ms, CPU 1500

[Appendix] Mask Decoder [CLS] token的なやつらしい（学習可能）コードを見ると以下の様になっている。 token毎各output tokensの取り出し

データ（１） ① 手動アノテーション • 「ブラシ」と「消しゴム」の機能を持つウェブツールでアノテーション。 • セマンティックな制約を何も設けずにアノテーションしてもらった。 Ex. “stuff”と”things”でどっちかに統一する必要はない。 •
目立つオブジェクトをアノテーション。 ② 半自動アノテーション i. ①のアノテーションデータでSAMを学習。 ii. SAMを使って、学習データをセグメンテーション。 iii. セグメンテーションされていないもの（目立たないもの）に対して、手動でアノテーション。 iv. 新たにアノテーションしたデータでSAMを再学習 ViT-BからViT-Hにスケールアップしていく。 ③ 完全自動アノテーション • SAMの学習自体は②で完成。一般公開する用のデータセットをSAMで作る。 • 32x32のグリッド点で自動アノテーション。 6回繰り返すステップデータ量画像枚数マスク枚数 mask/image ① 手動 120k 4.3M 44 ② 半自動 180k 5.9M 72 ③ 完全自動 11M 1.1B 100

データ（２）完全自動アノテーションされたデータの一部他のデータセットでは、アノテーションされているオブジェクトが画像中心に偏る傾向があるどれだけギザギザしたアノテーションになっているか一枚あたりのマスク数が多い • 他にもFairnessについてかかれてましたが、省略します。 • 右側の画像は写真家から直接3300x4950サイズの画像を大量
に集めたらしく、「プライバシーを尊重した画像」とのこと。（ｽｺﾞｲ…）

【実験】Zero-shot Single Point Valid Mask Evaluation 様々なセグメンテーションタスク（右図）で検証サブセットを作って、検証している。インタラクティブにセグメンテーションする手法（SAMの対抗馬）オラクル
＝最もGTと高いIoUのあるマスク人が10段階で採点する

【実験】Zero-shot Edge Detection 16x16グリッドに対してSAMをかけて、ソーベルフィルタを適用教師あり手法に匹敵している

【実験】Zero-shot Instance Segmentation GTとの定量評価では負けるが、マスクの質は悪くない 10段階でマスクの質（横軸）を評価＝右側に棒がある方が良い（COCO GT悪いな…）プロンプトだけだと駄目なケースがあるが点を与えると良くなる

Ablation Study 各ステージでの効果？学習データ量でのSAMの性能比較画像のエンコーダ部分の比較

Application こんな動画が公式にあった。 AR/VRヘッドセットから視線（Gaze）を取り出して、見ている箇所の説明やディテクションをするらしい。盲目の人とかに使えれば、すごく便利そう。

派生論文

(SEEM) Segment Everything Everywhere All at Once (1/3) • Versatility
：いろんな形式の情報を共通の特徴空間に埋め込むことで、シームレスに動かす • Compositionality：色々組み合わせられる • Interactivity ：メモリプロンプトを持っているので、過去のやり取りも利用して指示ができる • Semantic-awareness ：オープンセットに認識可能概要

(SEEM) Segment Everything Everywhere All at Once (2/3) モデル learnable
共通 512 point feature 異なるモーダルでもクロスアテンションすることで相補的になる 𝑶ℎ 𝑚 𝑶ℎ 𝑐 メモリプロンプトの求め方前回のマスクどう対応しているのかを判定する機構も入れているらしい

(SEEM) Segment Everything Everywhere All at Once (3/3) 結果

(SA3D) Segment Anything in 3D with NeRFs (1/2) 見た目的にはこんなやつです。 SAMを2D
→ 3Dでする研究概要

(SA3D) Segment Anything in 3D with NeRFs (2/2) • Mask
Inverse Rendering • Cross-view Self-prompting Viewが変わる度に毎回SAMでプロンプトを与えるのはめんどい → 一回プロンプトを与えたら、あとはNovel Viewに対して自動でプロンプトを与えられるようにする一個前のSAMマスクからサンプリングする。 Rendering (NeRF → 2D) Rendering (Voxel → 2D) 色重み× 1 ※ 最終的なロスとは異なります高速化 𝐿𝑝𝑟𝑜𝑗 モデルと学習パイプライン

(TAM) Track Anything: Segment Anything Meets Videos (1/3) SAMをビデオに適用したもの └
マルチオブジェクトトラッキングインペインティングモデルと組み合わせることでこんなこともできる。概要

(TAM) Track Anything: Segment Anything Meets Videos (2/3) モデルと学習パイプライン最初のフレームのマスクが得られたら、トラッキングするモデル
弱プロンプト（BBox, Points）を与えてSAMでセグメンテーション＝初期マスクを得る XMemの結果が悪かったら SAMでRefine これらをPoint Promptsに変換して、SAMに入力 [Optional] 人が間に入って、マスクを修正 XMemは半教師ありモデルなので、初期のマスクが良いものである必要がある XMemは長時間のトラッキングになるとマスクの品質が落ちる

(TAM) Track Anything: Segment Anything Meets Videos (3/3) 良くもなく、悪くもなくという感じ。論文中でも言及ほぼなし。
「困難で複雑なシナリオではうまくいくことを確認した」とのこと対象物体の動き、スケール変化、カメラモーションに強い • 長い動画 • ビデオセグメンテーションモデルが短い動画で学習されている • SAMでうまくRefineできない → プロンプトを複数にしたりすれば改善できるかも • トラッキングする物体が複雑である場合

Segment Anything + Alpha

Segment Anything + Alpha

frkake

More Decks by frkake

Other Decks in Research

Featured

Transcript

Segment Anything 2023/04/28 飯田啄巳

時系列と関係性 SAM SEEM 5 13 SA3D 26 TAM 24 NOW!

タスク曖昧性のあるセグメンテーションを行う。＝一点の選択でもセグメンテーションの候補はいくつもある（右図）様々な条件入力を受け入れられるようにする。 (Promptable Segmentation Task)

モデル ViT(MAE) ① 画像に対して大きめの画像エンコーダ (ViT) を適用 ② 各条件入力に対して、適切なエンコードを行う • mask

[Appendix] Mask Decoder [CLS] token的なやつらしい（学習可能）コードを見ると以下の様になっている。 token毎各output tokensの取り出し

【実験】Zero-shot Single Point Valid Mask Evaluation 様々なセグメンテーションタスク（右図）で検証サブセットを作って、検証している。インタラクティブにセグメンテーションする手法（SAMの対抗馬）オラクル

【実験】Zero-shot Edge Detection 16x16グリッドに対してSAMをかけて、ソーベルフィルタを適用教師あり手法に匹敵している

Ablation Study 各ステージでの効果？学習データ量でのSAMの性能比較画像のエンコーダ部分の比較

Application こんな動画が公式にあった。 AR/VRヘッドセットから視線（Gaze）を取り出して、見ている箇所の説明やディテクションをするらしい。盲目の人とかに使えれば、すごく便利そう。

派生論文

(SEEM) Segment Everything Everywhere All at Once (1/3) • Versatility

(SEEM) Segment Everything Everywhere All at Once (2/3) モデル learnable

(SEEM) Segment Everything Everywhere All at Once (3/3) 結果

(SA3D) Segment Anything in 3D with NeRFs (1/2) 見た目的にはこんなやつです。 SAMを2D

(SA3D) Segment Anything in 3D with NeRFs (2/2) • Mask

(TAM) Track Anything: Segment Anything Meets Videos (1/3) SAMをビデオに適用したもの └

(TAM) Track Anything: Segment Anything Meets Videos (2/3) モデルと学習パイプライン最初のフレームのマスクが得られたら、トラッキングするモデル

(TAM) Track Anything: Segment Anything Meets Videos (3/3) 良くもなく、悪くもなくという感じ。論文中でも言及ほぼなし。