Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第65回コンピュータビジョン勉強会

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

 第65回コンピュータビジョン勉強会

Avatar for TSUKAMOTO Kenji

TSUKAMOTO Kenji

November 14, 2025
Tweet

More Decks by TSUKAMOTO Kenji

Other Decks in Technology

Transcript

  1. 関連研究 RobotにおけるAffordance • 典型的な例ではアフォーダンスは対象物の機能として定義され、対象物の本質、操作方法、目標物と の空間的関係を含み、観察と行動を直接的に関連付ける。 ◦ セグメンテーション、キーポイント、画像特徴量から 6DOF把持推定 ◦ Robopoint:画像+指示文からVLMで動作(掴む・置く場所)を出力

    ◦ RT-Affordance:ロボットのPoseを事前に推定し、VLMに用いる ◦ TraceVLA:視覚的な軌跡(トレース)を画像上に追加入力として取り込む 言語と制御 • 中間ステップを出力する LLMをロボット制御(サブタスクへの分解・動作生成)に活用 ◦ Chain-of-Thougt:いくつかの「途中式 (step-by-stepの思考過程)」を例示してモデルに与える ◦ Embodied CoT:動作生成前に複数ステップの思考過程を階層的テキストで生成。「掴む物体の 座標はどこか」などを言語で明示 7
  2. Chain-of-Affordance VLMとPick&PlaceにおいてAffordanceを統合 1. Object Affordance:2つの機能を統合 意味的識別:Text Tokenからオブジェクト名解決(お茶を注ぐ→ポット) 空間的グラウンディング:画像中のオブジェクト位置 2. Grasp

    Affordance:物体が操作可能な機能や方法を包括する概念で、物体の 把持点を表す 3. Spatial Affordance:ロボットが3D環境内の空間的関係を解釈・推論する能力 で、物体配置やナビゲーションのための衝突フリー領域の特定などを実現 4. Movement Affordance:タスク遂行中の軌道を定義、障害物などの環境変化 に動的に対応してタスクを完了させる Dynamic Affordance selection:objectとgraspは状況に応じて推論しない アフォーダンスをTextとVisualの組み合わせで中間出力する 9
  3. Visual-Textual Affordance • Textual Affordance:物体の情報、把持位置、空きスペース座標等の情報を自然言語記述子にマッピ ング • Visual Affordance:座標マーカーや運動軌跡を過去の観測フレーム上に重ねて符号化 •

    Visual-Textual Co-injection:各affordanceをトークン化してDiffusionModelの入力とする ◦ Text:VLMモデルの最終埋め込みを用い、 MLP層を追加してトークン化 ◦ Visual:ViTでパッチトークン化 11
  4. 学習データ生成 各シナリオシーンをモデル化 • 物体情報 • 空間データとそれに対応するコンテキスト • グリッパの軌跡をデータ化 データ生成パイプライン 1.

    LLM(GPT-4o)で言語指示からシーンの詳細なコンテキストを作成 2. Grounding DINOv2とSAMでObjectのbounding boxを作成、グリッパ位置もデータ化 3. RoboPointで空間アフォーダンスの作成。 4. 空間アフォーダンスとシーンコンテキストのラベル対応をつけ、外れ値は除去 5. グリッパ位置をCoTrackerで追跡して軌跡データとする 12
  5. 実験 • 実験環境:Franka6自由度アーム、ステレオカメラ (ZED)2台、手首カメラ(D435i)1台 • 学習データ:Droid Dataset(39Kセットの軌跡データ)と CoA用の軌跡データ692セット • アルゴリズム:Diffusion

    VLAをベース • 比較:Diffusion Policy, Octo, OpenVLA, TinyVLA, Diffusion VLA ◦ 全モデルは同一データセットで Fine-Tuning アームとステレオカメラ(赤と青)と手首カメラ 13
  6. 実験タスク7種 1. PlaceCar:車を引き出しにいれ、引き出しを閉める 2. PlaceBread:パンを皿の空きスペースに置く 3. CleanTrash:ゴミをゴミ箱に捨てる。植木鉢の有無 の2シナリオ 4. NailHammer:ハンマーで釘を打つ。

    5. PlaceCup:コップをラックにかける。 6. PourTea:ティーカップをトレイに置き、ティーポット を持ち上げてティーカップにお茶を注ぐ。 7. WipeWater:スポンジを使用し、多数の障害物を 回避しながらテーブルを拭く。 14 Video
  7. まとめ 論文の内容 • CoA-VLAはアフォーダンスによる推論・VisualとText情報を中間出力し、それらを用いて動作 生成を行う ◦ シーンへの汎化性があり、把持・障害物回避などの改善もできる 感想 • step-by-stepで推論・動作生成をした方ががよくなるのはわかる

    • Affordanceと言ってるが事前知識を取り入れているのと変わらない ◦ Affordanceや中間出力に引きずられる可能性がありそう(トレードオフ?) • 学習データが複雑化・多様化するのが懸念点 ◦ BBox、空間データ、コンテキストが必要になっている 18