Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第64回コンピュータビジョン勉強会@関東(後編)

 第64回コンピュータビジョン勉強会@関東(後編)

Avatar for TSUKAMOTO Kenji

TSUKAMOTO Kenji

August 20, 2025
Tweet

More Decks by TSUKAMOTO Kenji

Other Decks in Technology

Transcript

  1. 位置関係の解釈に関する取り組み • SpatialVLMやSpatialRGPT ◦ 物体間の距離や空間関係に関する質問に答えられよう VLMを学習して空間理解の向上 ▪ ネット上の画像・データセットで学習、実空間での利用に差異がある • RoboPointやMolmoなどのPointing

    Model ◦ VLMsをシーン内の物体の位置や空きスペースを特定する接地された 2次元座標を生成するように 訓練 ▪ 現実世界の制約の理解に課題:ボウルは車の前におけるサイズなのか? • 位置関係を課題にしたデータセットは現状ない ◦ 汎用的な画像、少ない 3Dスキャンデータ ◦ アノテーション(Question・Answer)が自由形式 ▪ 空間関係は言及されていない
  2. 3D Spatial Relation Extraction 空間関係は次で定義: • relationの例:in front of (anchor

    object) (object frame) • anchor objectの向き(3D bboxと向き)、参照フレームから空間関係の結果を2値 (True/False)でオブジェクトペアの空間関係が成立するか判定 : source image : anchor object : target object or sampled point in free space :参照フレーム
  3. 2D Spatial Point and Region Sampling ContextとCompatibilityタスクのための2次元画像空間でのアノテーションを生成 • 3D bboxとカメラパラメーターを利用して、occupancy

    mapを作成 • スペースにあるサンプリングした点をレイキャスティングで選択 • サンプリングした点の領域に対象物体が収まるか判定
  4. Question Answer generation Questionの生成 • 空間関係   が抽出されると、対応する質問回答ペア  を生成 • 各質問は次の形式: Answerの生成

    • Compatibility, Configuration ◦ 二値(True/False)の回答を生成 • Context ◦ 画像空間内の有効な 2次元座標のリストを生成
  5. 実験 • データセット ◦ Indoor ▪ ScanNet ▪ Matterort3D ▪

    3Rscan ◦ TableTop ▪ HOPE ▪ GraspNet-1B ◦ 3D bboxはEMbodiedScanから検索して使用 • VLM ◦ 2D: VILA-1.5-8B, LLaVA-NeXT-8B, SpaceLLaVA-13Bm Robopoint-13B, GPT-4o, SpatialRGPT ◦ 3D: 3D-LLM(マルチビュー画像から色付き 3D点群を再構築)、LEOを使用 ◦ Molmo、GPT-4o(Fine Tuningなし) • VLMのFine -Tuning ◦ zero-shot, Fine-Tuningの両方でOSSモデルをFine-Tune ◦ 学習コストは不記載
  6. 考察・まとめ • 考察:データセットによる空間推論が出来るのか? ◦ 「上に、下に」など空間マッピング、「隣に、そばに」など物体間の近接性の理解が向上 ◦ 視点の理解:参照フレームの導入により推論が向上し、物体の幾何・方向と空間言語の関連付け を学習できている ◦ 3D

    VLMでは自己座標系、物体座標系で効果がある • まとめ:Robospatialデータセットの提案 ◦ 空間位置関係の理解が必要なタスクへの応用が可能 ▪ 物体の位置関係、参照フレームの違いに対応した推論が可能 ◦ 新たなデータセットに対しても拡張可能