Slide 23
Slide 23 text
開発中モデルの積極活用によるスケーリング
23
SAMシリーズ (Meta)
● 画像セグメンテーションモデルSAMのためのアノテー
ションでは、開発中のモデルが生成したラベルを人間
が修正するという流れを複数の段階に分け、段階を経
るごとに人間の割合を減らして最終的に99%以上のラ
ベルをモデルが自動生成
● 1100万枚の画像と11億個のラベルを持つ人手のみで
はほぼ不可能なスケールのデータセットを構築
● SAM2では対象を静止画から動画に拡張し、5万本の
動画の各フレームにラベルを付与
● 3次元に拡張したSAM3Dではラベルとなる3D形状の
作成という困難な作業をスケールさせるため、まず一
般のアノテータがモデルが生成した複数の候補形状の
中から最良のものを選び、うまく候補が生成できない
形状だけを3Dアーティストに任せることで100万枚の
画像に対して300万個以上の3D形状を付与
SAM2による動画中のオブジェクトセグメンテーション
SAM3Dによる静止画からの3Dモデル生成
A. Kirillov et al., “Segment Anything,” arXiv, 2023. [paper]
N. Ravi et al., “SAM 2: Segment Anything in Images and Videos,” arXiv, 2024. [paper]
SAM 3D Team, “SAM 3D: 3Dfy Anything in Images,” arXiv, 2025. [paper]
https://ai.meta.com/sam2/
https://github.com/facebookresearch/sam-3d-objects