Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第64回コンピュータビジョン勉強会@関東(後編)
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
TSUKAMOTO Kenji
August 20, 2025
Technology
330
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
第64回コンピュータビジョン勉強会@関東(後編)
TSUKAMOTO Kenji
August 20, 2025
More Decks by TSUKAMOTO Kenji
See All by TSUKAMOTO Kenji
第65回コンピュータビジョン勉強会
tsukamotokenji
0
240
DynIBaR (第60回CV勉強会@関東)
tsukamotokenji
0
270
DeepSFM: Structure from Motion Via Deep Bundle Adjustment
tsukamotokenji
2
650
第三回 全日本コンピュータビジョン勉強会(後編)
tsukamotokenji
1
1k
Other Decks in Technology
See All in Technology
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
310
LayerX コーポレートエンジニアリング室におけるサプライチェーンセキュリティへの取り組み / Supply Chain Security at LayerX Corporate Engineering
yuyatakeyama
2
410
非エンジニアがClaudeと挑んだ「1ヶ月間プロダクト30本ノック」
askokc
0
540
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
480
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
1.1k
気軽に使える"情報のハブ"としてのNotion活用 〜フロー情報の集積点 と、 Claude Code × Notion AI〜
syucream
1
130
RAG を使わないという選択肢
tatsutaka
1
250
Claude Codeとのおしゃべりでセマンティックモデルの定義からダッシュボード作成まで完成させる
nic_sugiyama
0
110
AIっぽい文章を採点して人間らしく直すアプリを作ってみた
yama3133
2
190
現地で盛り上がった WWDC26 Keynote
zozotech
PRO
1
250
Chainlitで作るお手軽チャットUI
ynt0485
0
250
エラーバジェットのアラートのタイミングを考える.pdf
kairim0
0
150
Featured
See All Featured
Bash Introduction
62gerente
615
220k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.3k
Designing for Timeless Needs
cassininazir
1
250
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
230
The Invisible Side of Design
smashingmag
302
52k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
160
Accessibility Awareness
sabderemane
1
140
Building Adaptive Systems
keathley
44
3.1k
Navigating Team Friction
lara
192
16k
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
380
Side Projects
sachag
455
43k
Building the Perfect Custom Keyboard
takai
2
790
Transcript
第64回コンピュータビジョン勉強会@関東(後編) 2025/08/24
発表論文 ロボットが空間理解するためのタスクに対するデータセットの提案 • Github
RobotにおけるTeaching Teaching:ロボットに特定の作業や動きを教え込むプロセス • 特定の動作・作業を行わせるよう設定するため、 人側の作業負荷が大きい • ある程度環境が変わらない状態で動作 → VLMで動作指示をするという流れ
関連研究 • OpenVLA:ロボットが複雑な指示を解釈して実行する。 • GPT-4v for robotics:自然言語の指示から詳細な動作シーケンスを生成 • CoPa:指示から物の把持位置・動作シーケンスを生成 他多数の応用がある
OpenVLA GPT-4v for robotics CoPa
VLMでのタスク指示の課題 タスク:灰色のボウルを車の前に置く VLMは物体認識、シーン分類できるが、物体間の空間的解釈などのタスクは不得意
位置関係の解釈に関する取り組み • SpatialVLMやSpatialRGPT ◦ 物体間の距離や空間関係に関する質問に答えられよう VLMを学習して空間理解の向上 ▪ ネット上の画像・データセットで学習、実空間での利用に差異がある • RoboPointやMolmoなどのPointing
Model ◦ VLMsをシーン内の物体の位置や空きスペースを特定する接地された 2次元座標を生成するように 訓練 ▪ 現実世界の制約の理解に課題:ボウルは車の前におけるサイズなのか? • 位置関係を課題にしたデータセットは現状ない ◦ 汎用的な画像、少ない 3Dスキャンデータ ◦ アノテーション(Question・Answer)が自由形式 ▪ 空間関係は言及されていない
本論文の提案 • Robospatial データセット・パイプライン構築 ◦ 画像:100万、3Dスキャンデータ:5000、空間関係のアノテーション: 300万セット • 空間的指示を異なる視点から解釈するモデルの能力を向上させるため、3つの異 なる参照視点/フレームから提示
◦ Ego-centric Observer’s View(自視点) ◦ Object-centric based on a reference frame(物体視点) ◦ World-centric global world frame (外部視点)
Robospatial Dataset • Context:物体とその周囲の空間との関係を評価 (経路計画や障害物回避 ) • Compatibility:空間内で物体が衝突せずに共存・相互作用できるか(組み立て、操作安全性) • Configuration:ロボットが物体の相対的な位置関係を理解・解釈、
◦ 複雑な環境におけるナビゲーション、操作、相互作用の制御
データ生成 入力:画像、カメラ姿勢(内部・外部パラメータ)、方向つき 3D bbox、アノテーションを含むシーン データセット データ生成のパイプラインは2段階に分けている • 3D Spatial Relation
Extraction • 2D Spatial Point and Region Samping :reference frame label :answer :question :image
3D Spatial Relation Extraction 空間関係は次で定義: • relationの例:in front of (anchor
object) (object frame) • anchor objectの向き(3D bboxと向き)、参照フレームから空間関係の結果を2値 (True/False)でオブジェクトペアの空間関係が成立するか判定 : source image : anchor object : target object or sampled point in free space :参照フレーム
2D Spatial Point and Region Sampling ContextとCompatibilityタスクのための2次元画像空間でのアノテーションを生成 • 3D bboxとカメラパラメーターを利用して、occupancy
mapを作成 • スペースにあるサンプリングした点をレイキャスティングで選択 • サンプリングした点の領域に対象物体が収まるか判定
Question Answer generation Questionの生成 • 空間関係 が抽出されると、対応する質問回答ペア を生成 • 各質問は次の形式: Answerの生成
• Compatibility, Configuration ◦ 二値(True/False)の回答を生成 • Context ◦ 画像空間内の有効な 2次元座標のリストを生成
実験 • データセット ◦ Indoor ▪ ScanNet ▪ Matterort3D ▪
3Rscan ◦ TableTop ▪ HOPE ▪ GraspNet-1B ◦ 3D bboxはEMbodiedScanから検索して使用 • VLM ◦ 2D: VILA-1.5-8B, LLaVA-NeXT-8B, SpaceLLaVA-13Bm Robopoint-13B, GPT-4o, SpatialRGPT ◦ 3D: 3D-LLM(マルチビュー画像から色付き 3D点群を再構築)、LEOを使用 ◦ Molmo、GPT-4o(Fine Tuningなし) • VLMのFine -Tuning ◦ zero-shot, Fine-Tuningの両方でOSSモデルをFine-Tune ◦ 学習コストは不記載
実験結果 各VLMをRobospatialでFine-Tuneした結果、 Valセットに対する正答率が改善
実験結果 各VLMをRobospatialでFine-Tuneした結果、 Valセットに対する正答率・座標指定の精 度が改善
実験結果 Q:ゴミ箱の後ろにある空きスペースをいくつか指定する Q:ポットの左側にある空きスペースを複数指定する Q:椅子はベッドの後ろにある? Q:ランプは棚の上にある?
Robot Experiment • テーブルトップ環境でのPick&Placeタスク ◦ Kinova Jacoロボット、RGBDカメラ:ZED2、cuRoboでの動作計画 • 2D VLMはROBOSPATIALで訓練により大きく改善
◦ 数ピクセルの誤差でも 5-10cmズレることもあり、それらに対して改善効果がある
Robot experiment: result
Robot experiment: result Q:2つの物が積み重なったところか ら、最も上にある物を取ってください Q:cheez-itの箱(赤い箱)の上に缶を 置くスペースはありますか? Questionの詳細度、タスクの難易度によっては難しい
考察・まとめ • 考察:データセットによる空間推論が出来るのか? ◦ 「上に、下に」など空間マッピング、「隣に、そばに」など物体間の近接性の理解が向上 ◦ 視点の理解:参照フレームの導入により推論が向上し、物体の幾何・方向と空間言語の関連付け を学習できている ◦ 3D
VLMでは自己座標系、物体座標系で効果がある • まとめ:Robospatialデータセットの提案 ◦ 空間位置関係の理解が必要なタスクへの応用が可能 ▪ 物体の位置関係、参照フレームの違いに対応した推論が可能 ◦ 新たなデータセットに対しても拡張可能