ロボット学習における大規模検索技術の展開と応用

Mai Nishimura OMRON SINIC X / Senior Researcher ロボット学習における大規模検索技術の展開と応用
WebDB 夏のワークショップ2025「超高速データサイエンス」招待講演

Mai Nishimura 1 • オムロンサイニックエックス株式会社シニアリサーチャー • 京都大学工学部電気電子工学科
> 情報学大学院 > 博士（情報学） • Computer Vision | Robotics | GPGPU • denkiwakame.github.io • @denkivvakame • 最近双子を出産しました ※ 社会人博士 Crowd Modeling [BMVC’21, RA-L22, IJCV] Crowd / Multi-Robot Navigation [IROS’20, AAMAS’22-23] Vector DB x Multi-Robot Control [IROS’24, CHI’24] 本日のトピック

2 検索 × ロボット

基礎知識:（かなり抽象的な）ロボットラーニングの世界 3 観測行動方策 𝜋𝜋: 𝒔𝒔 ↦ 𝒂𝒂 𝒂𝒂
𝒔𝒔 • 各種センサデータ • 動画データ • 制御指令環境行動主体（ロボット） [Physical Intelligence, π0] [D.Shah+,CoRL’23]

基礎知識:（かなり抽象的な）ロボットラーニングの世界 4 観測行動方策 𝜋𝜋: 𝒔𝒔 ↦ 𝒂𝒂 𝒂𝒂
𝒔𝒔 環境行動主体（ロボット）学習したい • 模倣学習 • 強化学習 • 基盤モデル（LLM/VLM） • …

最大の関心: Sample-Efficient Training 5 観測行動方策 𝜋𝜋: 𝒔𝒔 ↦
𝒂𝒂 𝒂𝒂 𝒔𝒔 環境行動主体（ロボット）観測 𝒔𝒔 行動 𝒂𝒂 学習データとても希少 • 実機データ収集は大変 • 実機は壊れる • ノイズが多い • 熟練の操作技術 • …

Why 検索 × ロボットラーニング？ 6 観測 𝒔𝒔 行動 𝒂𝒂 学習データ
過去の経験をDBに蓄積状況に応じて発掘したい！ R+X [G.Papagiannis+,ICRA’25] SAILOR [S.Nasiriany+,CoRL’22] ❶ シミュレーション ❷ 実機データ（希少） ❸ 比較的集めやすい別タスクや別ドメインのデータ（再利用）

2．判断する（過去の記憶の検索を通じて） • 状況に応じて判断する • 最適な行動を選択するロボット学習における大規模検索の応用 7 １．記憶する •
センサ（目，耳）を通じて得た情報を加工（圧縮） • 情報を整理整頓して保管 3．学習する（過去の記憶を活用して） • 少ない経験で新しいタスクに素早く適応する研究成果の紹介最新動向の紹介

1. 記憶する生の経験をスキルとして保管する 8 最新動向の紹介

Unlabeled: ラベル付けされていない，或いはできない Task-agnostic: 単一のタスクでない，多様なタスクを含む Suboptimal: 最適方策で収集されていない（非最適行動も含む） Noisy: 人手の操作等によるノイズを含む • 経験
𝝉𝝉 = ( 𝒔𝒔0 , 𝒂𝒂0 , 𝒔𝒔1 , 𝒂𝒂1 , … , {𝒔𝒔𝑇𝑇 , 𝒂𝒂𝑇𝑇 }) | 𝒔𝒔: 状態, 𝒂𝒂: 行動（+ 報酬を含むこともある） • unlabeled, task-agnostic, suboptimal, noisy な過去の経験の集合を対象経験データベース 9 実世界のタスクはラベル付けが自明でない（囲碁，物体操作）

Unlabeled: ラベル付けされていない，或いはできない Task-agnostic: 単一のタスクでない，多様なタスクを含む Suboptimal: 最適方策で収集されていない（非最適行動も含む） Noisy: 人手の操作等によるノイズを含む経験データベース 10
実世界のタスクはラベル付けが自明でない（囲碁，物体操作）従来はタスク | ドメイン毎にクリーンなデータを都度収集（人手によるアノテーション，データクレンジング）検索エンジンがあれば賢い検索エンジンが必要なデータを整理し，必要に応じてあとから取り出せればOK • 経験 𝝉𝝉 = ( 𝒔𝒔0 , 𝒂𝒂0 , 𝒔𝒔1 , 𝒂𝒂1 , … , {𝒔𝒔𝑇𝑇 , 𝒂𝒂𝑇𝑇 }) | 𝒔𝒔: 状態, 𝒂𝒂: 行動（+ 報酬を含むこともある） • unlabeled, task-agnostic, suboptimal, noisy な過去の経験の集合を対象

実は生でも使える（？）経験データベース 11 • 優れたDB&検索エンジンは，それ自体行動方策 (Policy) にもなる 𝝅𝝅: 𝒔𝒔 ↦
{𝒂𝒂𝟎𝟎 … 𝒂𝒂𝒌𝒌 } query top-k actions Non-parametric Policy Parametric Policy 𝝅𝝅: 𝒔𝒔 ↦ {𝒂𝒂𝟎𝟎 … 𝒂𝒂𝒌𝒌 } query distribution 状態𝒔𝒔に対して適切な Next-step Actinon を返せれば，方策として機能する

方策としてのDB検索 ① 12 • MimicTouch [K.Yu+,CoRL’24] 人間のデモンストレーションからDBを構築し，検索実行 [K.Yu+,CoRL’24] MimicTouch: Leveraging
Multi-modal Human Tactile Demonstrations for Contact-rich Manipulation 触覚/音データから成るマルチモーダルDBを作成人の手でデモンストレーション（経験データ）を収集残差を吸収ロボットアームで実行最新動向の紹介

方策としてのDB検索 ② 13 • R+X [Papagiannis+,ICRA’25] VLMを介してDBを検索し, ターゲットと類似する行動を再生 [G.Papagiannis+,ICRA’25] R+X
Retrieval and Execution from Everyday Human Videos 人の手によるタスクDB を自然言語で検索ロボットアームで実行最新動向の紹介

2. 判断する過去の経験を判断の根拠に利用する 14 最新動向の紹介

DB検索によって推論能力を拡張する① • 推論時に「観測を拡張するもの」として使うアイデア 15 [P.Humphreys+,NeurIPS’22] Large-scale Retrieval for Oﬄine Reinforcement
Learning 過去の経験と似たような局面ではこう判断（行動）するとよさそう！ 1つの観測では心許ない… 記憶を外部領域に分け，モデルは計算に集中（軽く）できる最新動向の紹介

DB検索によって推論能力を拡張する② 16 • Retrieval-Augmented Generation (RAG) の仲間としてアイデアが再訪 [T.Schmied+,CoLLAs ‘25] Retrieval-Augmented
Decision Transformer: External Memory for In-Context RL ❸ Transformer Policy の推論を拡張最新動向の紹介 ❶ 行動軌跡のVector DBを事前構築 ❷ 類似する経験の断片を検索 ↓ Cross- Attention による検索結果の取り込み方を学習

コンテキストをGET DB検索によって推論能力を拡張する③ 17 [arXiv, 2025] RANa: Retrieval-Augmented Navigation • Retrieval-Augmented
Generation (RAG) の仲間としてアイデアが再訪タスクに関連するコンテキストを検索地図コンテキストを DBに委譲することで方策はナビゲーションに集中できる最新動向の紹介単独で動作する必要はない！

3. 学習する経験を検索して新しいスキルを効率的に習得する 18 研究成果の紹介

検索の恩恵: 後段でシンプルなアルゴリズムを選択できる 19 “Should I Use Offline RL or Imitation
Learning?” https://bair.berkeley.edu/blog/2022/04/25/rl-or-bc/ 検索によってココに持ってくる

DB検索 × 複数ロボットによる物体操作学習 [S.Kuroki+,IROS’24] 20 研究成果の紹介 [S.Kuroki+,IROS’24] Multi-Agent Behavior Retrieval:
Retrieval-Augmented Policy Training for Cooperative Manipulation by Mobile Robots • 群ロボットによる物体操作スキルをシミュレーションDBの検索を通じて効率学習複数タスクでの高品質なデータ収集が困難

提案: Retrieval-Augmented Policy Training (RAT) 21 研究成果の紹介 ❶ 協調スキルのデータベースを構築 ❷
ターゲットと類似するスキルの検索 ❸ 検索データでターゲットを拡張して学習

22 Query search Retrieved Demonstrations Multi-Agent Coordination Skill Database REAL
DEMONSTRAIONTS SIMULATED DEMONSTRATIONS in DATABASE (※ SELECTED) 研究成果の紹介シミュレーションDBからのスキル検索 • 少量の実機データをクエリとして与え，類似するスキルを協調スキルDBから発掘

• 少量の実機データをクエリとして与え，類似するスキルを協調スキルDBから発掘 23 Query search Retrieved Demonstrations Multi-Agent Coordination Skill
Database REAL DEMONSTRAIONTS SIMULATED DEMONSTRATIONS in DATABASE (※ SELECTED) Different domain, object, and task; Similar coordination movements. (sim/real) (shape) (manipulation direction) 研究成果の紹介シミュレーションDBからのスキル検索

24 Ours (target+retrieved data) Baseline (target data only) Query (target)
3x 3x fails to complete the task successfully push an object closer to the goal state … 研究成果の紹介検索拡張学習による実ロボットの訓練結果

Swarm Body: 身体の一部のように操作する群ロボット [S.Ichihashi+,CHI’24] 25 [S.Ichihashi+,CHI’24] Swarm Body: Embodied Swarm
Robots 研究成果の紹介 • 実機データ収集に用いたプラットフォーム「maru」https://omron-sinicx.github.io/maru/ HCIのテーマと連携してプロジェクトを進める

• CV / ML / Robotics / HCI 異分野の専門家が連携してプロジェクトを進めるプラットフォームを共有
（シミュレータ・実機）連携してプランナを改善プロジェクトの特色 26 インターン ① インターン ② HCI RO 私 HCI ML 私 4-5 months project 6-months project … … maru の開発 CHI 2024 採択 IROS 2024 採択群ロボット × 身体化！群ロボット × DB学習！ 2 intern × 2 submission を目指した

AI は「経験の時代」に向かう [R.Sutton,2025.04] 27

28 AI は「経験データベースの時代」に向かう?! • 人間由来の高品質データは既に枯渇 • 人間の知識や経験の範囲を超える新発見は既存のデータからは到達できない • AIは
生涯にわたる経験のストリームの中で生き, 過去の経験から学び続ける • 経験は潜在的に無限であり, 自律的に生成し続けられる静的な人間由来データで訓練する時代の終わり

29 20xx年自律エージェントによる生成データが世界の情報の大半を占めるようになった世界データマイニングが重要トピックとなる（かも）

OMRON SINIC X では通年でインターンを募集しています 30 • 募集領域：ロボティクス / 機械学習 /
自然言語処理 / 情報検索 – インターン期間 4～6か月 / フルタイム・パートタイム勤務有 / リモート勤務可 – https://www.omron.com/sinicx/internship/ • 非公開のテーマもあるため，もし興味があれば @denkivvakame まで DM 下さい – https://x.com/denkivvakame DB検索を応用した Robotics / LLM 関連テーマで募集中 - スキルデータベース構築の研究 - LLMの蒸留 / LLM agent の研究 - Taichi / Triton を用いた開発

ロボット学習における大規模検索技術の展開と応用

ロボット学習における大規模検索技術の展開と応用

Mai Nishimura

Other Decks in Research

Featured

Transcript

Mai Nishimura OMRON SINIC X / Senior Researcher ロボット学習における大規模検索技術の展開と応用

Mai Nishimura 1 • オムロンサイニックエックス株式会社シニアリサーチャー • 京都大学工学部電気電子工学科

2 検索 × ロボット

基礎知識:（かなり抽象的な）ロボットラーニングの世界 3 観測行動方策 𝜋𝜋: 𝒔𝒔 ↦ 𝒂𝒂 𝒂𝒂

基礎知識:（かなり抽象的な）ロボットラーニングの世界 4 観測行動方策 𝜋𝜋: 𝒔𝒔 ↦ 𝒂𝒂 𝒂𝒂

最大の関心: Sample-Efficient Training 5 観測行動方策 𝜋𝜋: 𝒔𝒔 ↦

Why 検索 × ロボットラーニング？ 6 観測 𝒔𝒔 行動 𝒂𝒂 学習データ

2．判断する（過去の記憶の検索を通じて） • 状況に応じて判断する • 最適な行動を選択するロボット学習における大規模検索の応用 7 １．記憶する •

1. 記憶する生の経験をスキルとして保管する 8 最新動向の紹介

Unlabeled: ラベル付けされていない，或いはできない Task-agnostic: 単一のタスクでない，多様なタスクを含む Suboptimal: 最適方策で収集されていない（非最適行動も含む） Noisy: 人手の操作等によるノイズを含む • 経験

実は生でも使える（？）経験データベース 11 • 優れたDB&検索エンジンは，それ自体行動方策 (Policy) にもなる 𝝅𝝅: 𝒔𝒔 ↦

方策としてのDB検索 ① 12 • MimicTouch [K.Yu+,CoRL’24] 人間のデモンストレーションからDBを構築し，検索実行 [K.Yu+,CoRL’24] MimicTouch: Leveraging

方策としてのDB検索 ② 13 • R+X [Papagiannis+,ICRA’25] VLMを介してDBを検索し, ターゲットと類似する行動を再生 [G.Papagiannis+,ICRA’25] R+X

2. 判断する過去の経験を判断の根拠に利用する 14 最新動向の紹介

DB検索によって推論能力を拡張する① • 推論時に「観測を拡張するもの」として使うアイデア 15 [P.Humphreys+,NeurIPS’22] Large-scale Retrieval for Oﬄine Reinforcement

DB検索によって推論能力を拡張する② 16 • Retrieval-Augmented Generation (RAG) の仲間としてアイデアが再訪 [T.Schmied+,CoLLAs ‘25] Retrieval-Augmented

コンテキストをGET DB検索によって推論能力を拡張する③ 17 [arXiv, 2025] RANa: Retrieval-Augmented Navigation • Retrieval-Augmented

3. 学習する経験を検索して新しいスキルを効率的に習得する 18 研究成果の紹介

検索の恩恵: 後段でシンプルなアルゴリズムを選択できる 19 “Should I Use Offline RL or Imitation

DB検索 × 複数ロボットによる物体操作学習 [S.Kuroki+,IROS’24] 20 研究成果の紹介 [S.Kuroki+,IROS’24] Multi-Agent Behavior Retrieval:

提案: Retrieval-Augmented Policy Training (RAT) 21 研究成果の紹介 ❶ 協調スキルのデータベースを構築 ❷

22 Query search Retrieved Demonstrations Multi-Agent Coordination Skill Database REAL

• 少量の実機データをクエリとして与え，類似するスキルを協調スキルDBから発掘 23 Query search Retrieved Demonstrations Multi-Agent Coordination Skill

24 Ours (target+retrieved data) Baseline (target data only) Query (target)

Swarm Body: 身体の一部のように操作する群ロボット [S.Ichihashi+,CHI’24] 25 [S.Ichihashi+,CHI’24] Swarm Body: Embodied Swarm

• CV / ML / Robotics / HCI 異分野の専門家が連携してプロジェクトを進めるプラットフォームを共有

AI は「経験の時代」に向かう [R.Sutton,2025.04] 27

28 AI は「経験データベースの時代」に向かう?! • 人間由来の高品質データは既に枯渇 • 人間の知識や経験の範囲を超える新発見は既存のデータからは到達できない • AIは

29 20xx年自律エージェントによる生成データが世界の情報の大半を占めるようになった世界データマイニングが重要トピックとなる（かも）

OMRON SINIC X では通年でインターンを募集しています 30 • 募集領域：ロボティクス / 機械学習 /