Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ロボット学習における大規模検索技術の展開と応用

Avatar for Mai Nishimura Mai Nishimura
September 16, 2025

 ロボット学習における大規模検索技術の展開と応用

WebDB 夏のワークショップ「超高速データサイエンス」招待講演
https://amagata-daichi.notion.site/20ab718c179d80d9aa83d1962eb64283

Avatar for Mai Nishimura

Mai Nishimura

September 16, 2025
Tweet

Other Decks in Research

Transcript

  1. Mai Nishimura OMRON SINIC X / Senior Researcher ロボット学習における大規模検索技術の 展開と応用

    WebDB 夏のワークショップ2025「超高速データサイエンス」招待講演
  2. Mai Nishimura 1 • オムロン サイニックエックス株式会社 シニアリサーチャー • 京都大学 工学部電気電子工学科

    > 情報学大学院 > 博士(情報学) • Computer Vision | Robotics | GPGPU • denkiwakame.github.io • @denkivvakame • 最近双子を出産しました ※ 社会人博士 Crowd Modeling [BMVC’21, RA-L22, IJCV] Crowd / Multi-Robot Navigation [IROS’20, AAMAS’22-23] Vector DB x Multi-Robot Control [IROS’24, CHI’24] 本日のトピック
  3. 基礎知識:(かなり抽象的な)ロボットラーニングの世界 3 観測 行動 方策 𝜋𝜋: 𝒔𝒔 ↦ 𝒂𝒂 𝒂𝒂

    𝒔𝒔 • 各種センサデータ • 動画データ • 制御指令 環境 行動主体 (ロボット) [Physical Intelligence, π0] [D.Shah+,CoRL’23]
  4. 基礎知識:(かなり抽象的な)ロボットラーニングの世界 4 観測 行動 方策 𝜋𝜋: 𝒔𝒔 ↦ 𝒂𝒂 𝒂𝒂

    𝒔𝒔 環境 行動主体 (ロボット) 学習したい • 模倣学習 • 強化学習 • 基盤モデル(LLM/VLM) • …
  5. 最大の関心: Sample-Efficient Training 5 観測 行動 方策 𝜋𝜋: 𝒔𝒔 ↦

    𝒂𝒂 𝒂𝒂 𝒔𝒔 環境 行動主体 (ロボット) 観測 𝒔𝒔 行動 𝒂𝒂 学習データ とても希少 • 実機データ収集は大変 • 実機は壊れる • ノイズが多い • 熟練の操作技術 • …
  6. Why 検索 × ロボットラーニング? 6 観測 𝒔𝒔 行動 𝒂𝒂 学習データ

    過去の経験をDBに蓄積 状況に応じて発掘したい! R+X [G.Papagiannis+,ICRA’25] SAILOR [S.Nasiriany+,CoRL’22] ❶ シミュレーション ❷ 実機データ(希少) ❸ 比較的 集めやすい 別タスクや 別ドメイン のデータ (再利用)
  7. 2.判断する (過去の記憶の検索を通じて) • 状況に応じて判断する • 最適な行動を選択する ロボット学習における大規模検索の応用 7 1.記憶する •

    センサ(目,耳)を通じて 得た情報を加工(圧縮) • 情報を整理整頓して保管 3.学習する (過去の記憶を活用して) • 少ない経験で新しいタスク に素早く適応する 研究成果の紹介 最新動向の紹介
  8. Unlabeled: ラベル付けされていない,或いはできない Task-agnostic: 単一のタスクでない,多様なタスクを含む Suboptimal: 最適方策で収集されていない(非最適行動も含む) Noisy: 人手の操作等によるノイズを含む • 経験

    𝝉𝝉 = ( 𝒔𝒔0 , 𝒂𝒂0 , 𝒔𝒔1 , 𝒂𝒂1 , … , {𝒔𝒔𝑇𝑇 , 𝒂𝒂𝑇𝑇 }) | 𝒔𝒔: 状態, 𝒂𝒂: 行動 (+ 報酬を含むこともある) • unlabeled, task-agnostic, suboptimal, noisy な過去の経験の集合を対象 経験データベース 9 実世界のタスクはラベル付けが自明でない(囲碁,物体操作)
  9. Unlabeled: ラベル付けされていない,或いはできない Task-agnostic: 単一のタスクでない,多様なタスクを含む Suboptimal: 最適方策で収集されていない(非最適行動も含む) Noisy: 人手の操作等によるノイズを含む 経験データベース 10

    実世界のタスクはラベル付けが自明でない(囲碁,物体操作) 従来は タスク | ドメイン毎にクリーンなデータを都度収集 (人手によるアノテーション,データクレンジング) 検索エンジンがあれば 賢い検索エンジンが必要なデータを整理し, 必要に応じてあとから取り出せればOK • 経験 𝝉𝝉 = ( 𝒔𝒔0 , 𝒂𝒂0 , 𝒔𝒔1 , 𝒂𝒂1 , … , {𝒔𝒔𝑇𝑇 , 𝒂𝒂𝑇𝑇 }) | 𝒔𝒔: 状態, 𝒂𝒂: 行動 (+ 報酬を含むこともある) • unlabeled, task-agnostic, suboptimal, noisy な過去の経験の集合を対象
  10. 実は生でも使える(?)経験データベース 11 • 優れたDB&検索エンジンは,それ自体 行動方策 (Policy) にもなる 𝝅𝝅: 𝒔𝒔 ↦

    {𝒂𝒂𝟎𝟎 … 𝒂𝒂𝒌𝒌 } query top-k actions Non-parametric Policy Parametric Policy 𝝅𝝅: 𝒔𝒔 ↦ {𝒂𝒂𝟎𝟎 … 𝒂𝒂𝒌𝒌 } query distribution 状態𝒔𝒔に対して適切な Next-step Actinon を返せれば, 方策として機能する
  11. 方策としてのDB検索 ① 12 • MimicTouch [K.Yu+,CoRL’24] 人間のデモンストレーションからDBを構築し,検索実行 [K.Yu+,CoRL’24] MimicTouch: Leveraging

    Multi-modal Human Tactile Demonstrations for Contact-rich Manipulation 触覚/音データから成るマルチモーダルDBを作成 人の手でデモンストレーション (経験データ)を収集 残差を吸収 ロボットアームで実行 最新動向の紹介
  12. 方策としてのDB検索 ② 13 • R+X [Papagiannis+,ICRA’25] VLMを介してDBを検索し, ターゲットと類似する行動を再生 [G.Papagiannis+,ICRA’25] R+X

    Retrieval and Execution from Everyday Human Videos 人の手によるタスクDB を自然言語で検索 ロボットアームで実行 最新動向の紹介
  13. DB検索によって推論能力を拡張する① • 推論時に「観測を拡張するもの」として使うアイデア 15 [P.Humphreys+,NeurIPS’22] Large-scale Retrieval for Offline Reinforcement

    Learning 過去の経験と 似たような局面では こう判断(行動) するとよさそう! 1つの観測では 心許ない… 記憶を外部領域に分け, モデルは計算に集中(軽く)できる 最新動向の紹介
  14. DB検索によって推論能力を拡張する② 16 • Retrieval-Augmented Generation (RAG) の仲間としてアイデアが再訪 [T.Schmied+,CoLLAs ‘25] Retrieval-Augmented

    Decision Transformer: External Memory for In-Context RL ❸ Transformer Policy の 推論を拡張 最新動向の紹介 ❶ 行動軌跡のVector DBを事前構築 ❷ 類似する経験 の断片を検索 ↓ Cross- Attention による検索 結果の取り込み 方を学習
  15. コンテキストをGET DB検索によって推論能力を拡張する③ 17 [arXiv, 2025] RANa: Retrieval-Augmented Navigation • Retrieval-Augmented

    Generation (RAG) の仲間としてアイデアが再訪 タスクに関連する コンテキストを検索 地図コンテキストを DBに委譲する ことで方策は ナビゲーションに 集中できる 最新動向の紹介 単独で動作する 必要はない!
  16. 検索の恩恵: 後段でシンプルなアルゴリズムを選択できる 19 “Should I Use Offline RL or Imitation

    Learning?” https://bair.berkeley.edu/blog/2022/04/25/rl-or-bc/ 検索によって ココに持ってくる
  17. DB検索 × 複数ロボットによる物体操作学習 [S.Kuroki+,IROS’24] 20 研究成果の紹介 [S.Kuroki+,IROS’24] Multi-Agent Behavior Retrieval:

    Retrieval-Augmented Policy Training for Cooperative Manipulation by Mobile Robots • 群ロボットによる物体操作スキルをシミュレーションDBの検索を通じて効率学習 複数タスクでの高品質なデータ収集が困難
  18. 提案: Retrieval-Augmented Policy Training (RAT) 21 研究成果の紹介 ❶ 協調スキルのデータベースを構築 ❷

    ターゲットと類似するスキルの検索 ❸ 検索データでターゲットを拡張して学習
  19. 22 Query search Retrieved Demonstrations Multi-Agent Coordination Skill Database REAL

    DEMONSTRAIONTS SIMULATED DEMONSTRATIONS in DATABASE (※ SELECTED) 研究成果の紹介 シミュレーションDBからのスキル検索 • 少量の実機データをクエリとして与え,類似するスキルを協調スキルDBから発掘
  20. • 少量の実機データをクエリとして与え,類似するスキルを協調スキルDBから発掘 23 Query search Retrieved Demonstrations Multi-Agent Coordination Skill

    Database REAL DEMONSTRAIONTS SIMULATED DEMONSTRATIONS in DATABASE (※ SELECTED) Different domain, object, and task; Similar coordination movements. (sim/real) (shape) (manipulation direction) 研究成果の紹介 シミュレーションDBからのスキル検索
  21. 24 Ours (target+retrieved data) Baseline (target data only) Query (target)

    3x 3x fails to complete the task successfully push an object closer to the goal state … 研究成果の紹介 検索拡張学習による実ロボットの訓練結果
  22. Swarm Body: 身体の一部のように操作する群ロボット [S.Ichihashi+,CHI’24] 25 [S.Ichihashi+,CHI’24] Swarm Body: Embodied Swarm

    Robots 研究成果の紹介 • 実機データ収集に用いたプラットフォーム「maru」https://omron-sinicx.github.io/maru/ HCIのテーマと連携してプロジェクトを進める
  23. • CV / ML / Robotics / HCI 異分野の専門家が連携してプロジェクトを進める プラットフォームを共有

    (シミュレータ・実機) 連携してプランナを改善 プロジェクトの特色 26 インターン ① インターン ② HCI RO 私 HCI ML 私 4-5 months project 6-months project … … maru の開発 CHI 2024 採択 IROS 2024 採択 群ロボット × 身体化! 群ロボット × DB学習! 2 intern × 2 submission を目指した
  24. 28 AI は「経験データベースの時代」に向かう?! • 人間由来の高品質データは既に枯渇 • 人間の知識や経験の範囲を超える新発 見は既存のデータからは到達できない • AIは

    生涯にわたる経験のストリームの 中で生き, 過去の経験から学び続ける • 経験は潜在的に無限であり, 自律的に 生成し続けられる 静的な人間由来データで訓練する時代の終わり
  25. OMRON SINIC X では通年でインターンを募集しています 30 • 募集領域:ロボティクス / 機械学習 /

    自然言語処理 / 情報検索 – インターン期間 4~6か月 / フルタイム・パートタイム勤務有 / リモート勤務可 – https://www.omron.com/sinicx/internship/ • 非公開のテーマもあるため,もし興味があれば @denkivvakame まで DM 下さい – https://x.com/denkivvakame DB検索を応用した Robotics / LLM 関連テーマで募集中 - スキルデータベース構築の研究 - LLMの蒸留 / LLM agent の研究 - Taichi / Triton を用いた開発