Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第64回コンピュータビジョン勉強会@関東(後編)
Search
TSUKAMOTO Kenji
August 20, 2025
Technology
330
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
第64回コンピュータビジョン勉強会@関東(後編)
TSUKAMOTO Kenji
August 20, 2025
More Decks by TSUKAMOTO Kenji
See All by TSUKAMOTO Kenji
第65回コンピュータビジョン勉強会
tsukamotokenji
0
240
DynIBaR (第60回CV勉強会@関東)
tsukamotokenji
0
270
DeepSFM: Structure from Motion Via Deep Bundle Adjustment
tsukamotokenji
2
650
第三回 全日本コンピュータビジョン勉強会(後編)
tsukamotokenji
1
1k
Other Decks in Technology
See All in Technology
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
480
連合学習と機密コンピューティング
lycorptech_jp
PRO
0
120
日本 Fintech 未来予測レポート 2027〜2028年(手動編集版)
8maki
0
2.3k
On-behalf-of Token exchange with AgentCore Identity
hironobuiga
2
220
LayerXにおけるセキュリティ管理の現在地と次の一手
tosho
0
200
Agent Skills設計で柔軟性と硬さのバランスが難しい話
nassy20
0
130
AGENTS.mdとSkillsで始めるAIエージェント活用
sonoda_mj
3
210
2026 TECHFRESH 畢業分享會 - 開發日常大解密!從領域驅動到企業級上線
line_developers_tw
PRO
0
1.1k
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
2k
Android の公式 Skill / Android skills
yanzm
0
150
AI駆動開発を通して感じた、 AI時代のデザイナーの役割変化
whisaiyo
3
2.1k
気づかぬうちにセキュリティ負債を生むAPIキー運用
sgwrmctk
0
130
Featured
See All Featured
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.9k
Writing Fast Ruby
sferik
630
63k
Code Review Best Practice
trishagee
74
20k
My Coaching Mixtape
mlcsv
0
150
How STYLIGHT went responsive
nonsquared
100
6.2k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
240
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Balancing Empowerment & Direction
lara
6
1.2k
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
230
YesSQL, Process and Tooling at Scale
rocio
174
15k
Code Reviewing Like a Champion
maltzj
528
40k
Transcript
第64回コンピュータビジョン勉強会@関東(後編) 2025/08/24
発表論文 ロボットが空間理解するためのタスクに対するデータセットの提案 • Github
RobotにおけるTeaching Teaching:ロボットに特定の作業や動きを教え込むプロセス • 特定の動作・作業を行わせるよう設定するため、 人側の作業負荷が大きい • ある程度環境が変わらない状態で動作 → VLMで動作指示をするという流れ
関連研究 • OpenVLA:ロボットが複雑な指示を解釈して実行する。 • GPT-4v for robotics:自然言語の指示から詳細な動作シーケンスを生成 • CoPa:指示から物の把持位置・動作シーケンスを生成 他多数の応用がある
OpenVLA GPT-4v for robotics CoPa
VLMでのタスク指示の課題 タスク:灰色のボウルを車の前に置く VLMは物体認識、シーン分類できるが、物体間の空間的解釈などのタスクは不得意
位置関係の解釈に関する取り組み • SpatialVLMやSpatialRGPT ◦ 物体間の距離や空間関係に関する質問に答えられよう VLMを学習して空間理解の向上 ▪ ネット上の画像・データセットで学習、実空間での利用に差異がある • RoboPointやMolmoなどのPointing
Model ◦ VLMsをシーン内の物体の位置や空きスペースを特定する接地された 2次元座標を生成するように 訓練 ▪ 現実世界の制約の理解に課題:ボウルは車の前におけるサイズなのか? • 位置関係を課題にしたデータセットは現状ない ◦ 汎用的な画像、少ない 3Dスキャンデータ ◦ アノテーション(Question・Answer)が自由形式 ▪ 空間関係は言及されていない
本論文の提案 • Robospatial データセット・パイプライン構築 ◦ 画像:100万、3Dスキャンデータ:5000、空間関係のアノテーション: 300万セット • 空間的指示を異なる視点から解釈するモデルの能力を向上させるため、3つの異 なる参照視点/フレームから提示
◦ Ego-centric Observer’s View(自視点) ◦ Object-centric based on a reference frame(物体視点) ◦ World-centric global world frame (外部視点)
Robospatial Dataset • Context:物体とその周囲の空間との関係を評価 (経路計画や障害物回避 ) • Compatibility:空間内で物体が衝突せずに共存・相互作用できるか(組み立て、操作安全性) • Configuration:ロボットが物体の相対的な位置関係を理解・解釈、
◦ 複雑な環境におけるナビゲーション、操作、相互作用の制御
データ生成 入力:画像、カメラ姿勢(内部・外部パラメータ)、方向つき 3D bbox、アノテーションを含むシーン データセット データ生成のパイプラインは2段階に分けている • 3D Spatial Relation
Extraction • 2D Spatial Point and Region Samping :reference frame label :answer :question :image
3D Spatial Relation Extraction 空間関係は次で定義: • relationの例:in front of (anchor
object) (object frame) • anchor objectの向き(3D bboxと向き)、参照フレームから空間関係の結果を2値 (True/False)でオブジェクトペアの空間関係が成立するか判定 : source image : anchor object : target object or sampled point in free space :参照フレーム
2D Spatial Point and Region Sampling ContextとCompatibilityタスクのための2次元画像空間でのアノテーションを生成 • 3D bboxとカメラパラメーターを利用して、occupancy
mapを作成 • スペースにあるサンプリングした点をレイキャスティングで選択 • サンプリングした点の領域に対象物体が収まるか判定
Question Answer generation Questionの生成 • 空間関係 が抽出されると、対応する質問回答ペア を生成 • 各質問は次の形式: Answerの生成
• Compatibility, Configuration ◦ 二値(True/False)の回答を生成 • Context ◦ 画像空間内の有効な 2次元座標のリストを生成
実験 • データセット ◦ Indoor ▪ ScanNet ▪ Matterort3D ▪
3Rscan ◦ TableTop ▪ HOPE ▪ GraspNet-1B ◦ 3D bboxはEMbodiedScanから検索して使用 • VLM ◦ 2D: VILA-1.5-8B, LLaVA-NeXT-8B, SpaceLLaVA-13Bm Robopoint-13B, GPT-4o, SpatialRGPT ◦ 3D: 3D-LLM(マルチビュー画像から色付き 3D点群を再構築)、LEOを使用 ◦ Molmo、GPT-4o(Fine Tuningなし) • VLMのFine -Tuning ◦ zero-shot, Fine-Tuningの両方でOSSモデルをFine-Tune ◦ 学習コストは不記載
実験結果 各VLMをRobospatialでFine-Tuneした結果、 Valセットに対する正答率が改善
実験結果 各VLMをRobospatialでFine-Tuneした結果、 Valセットに対する正答率・座標指定の精 度が改善
実験結果 Q:ゴミ箱の後ろにある空きスペースをいくつか指定する Q:ポットの左側にある空きスペースを複数指定する Q:椅子はベッドの後ろにある? Q:ランプは棚の上にある?
Robot Experiment • テーブルトップ環境でのPick&Placeタスク ◦ Kinova Jacoロボット、RGBDカメラ:ZED2、cuRoboでの動作計画 • 2D VLMはROBOSPATIALで訓練により大きく改善
◦ 数ピクセルの誤差でも 5-10cmズレることもあり、それらに対して改善効果がある
Robot experiment: result
Robot experiment: result Q:2つの物が積み重なったところか ら、最も上にある物を取ってください Q:cheez-itの箱(赤い箱)の上に缶を 置くスペースはありますか? Questionの詳細度、タスクの難易度によっては難しい
考察・まとめ • 考察:データセットによる空間推論が出来るのか? ◦ 「上に、下に」など空間マッピング、「隣に、そばに」など物体間の近接性の理解が向上 ◦ 視点の理解:参照フレームの導入により推論が向上し、物体の幾何・方向と空間言語の関連付け を学習できている ◦ 3D
VLMでは自己座標系、物体座標系で効果がある • まとめ:Robospatialデータセットの提案 ◦ 空間位置関係の理解が必要なタスクへの応用が可能 ▪ 物体の位置関係、参照フレームの違いに対応した推論が可能 ◦ 新たなデータセットに対しても拡張可能