Upgrade to Pro — share decks privately, control downloads, hide ads and more …

VLAモデル構築のための AIロボット向け模倣学習キット

VLAモデル構築のための AIロボット向け模倣学習キット

AI ROBOT JAPAN #1 ~ AIロボット持ち込み勉強会 ~
VLAモデル構築のための AIロボット向け模倣学習キット

Avatar for Ken Matsui

Ken Matsui

March 16, 2026
Tweet

More Decks by Ken Matsui

Other Decks in Technology

Transcript

  1. Ⓒ ugo, Inc. 2025. All rights reserved. Ⓡ AI ROBOT

    JAPAN #1 AIロボット持ち込み勉強会 VLAモデル構築のための AIロボット向け模倣学習キット ugo株式会社
  2. Ⓒ ugo, Inc. 2025. All rights reserved. 松井 健 スマホApp

    システム開発 2023年 東証グロース IPO #1 2006- 2011 ugo株式会社 代表取締役CEO IoT機器 受託開発・量産 事業会社へ売却 #2 2011- 2020 AIロボット #3 2018- Now Ⓡ 2 テクノロジー分野での 起業3回 システム開発 ▶ IoT機器開発 ▶ ロボティクス 6年 9年 8年〜
  3. Ⓒ ugo, Inc. 2025. All rights reserved. 所在地 東京都千代田区東神田 1-7-8

    設 立 2018年2月20日 代表者 代表取締役CEO 松井 健 従業員数 87名 資本金 1億円 事業内容 ・ugoソリューションの提供・運用 ・RaaSフレームワークの開発・提供・運用 ugo株式会社について ユーゴー 4 人とロボティクスの融合で、 新しい社会システムを構築し、 新しい価値観を創 する。 MISSION
  4. Ⓒ ugo, Inc. 2025. All rights reserved. Ⓡ SCALE-OUT HUMAN

    POSSIBILITY VLAモデル構築のための AIロボット向け 模倣学習キット
  5. Ⓒ ugo, Inc. 2025. All rights reserved. AIロボットを実現する「フィジカル AI」とは? 8

    ロボットや自動運転車などの物理的なシステムが、 認識・理解 思考 行動 現実世界を理解して “行動” に変えるAI 3D空間と物理世 界を踏まえて思 考し、 マルチモーダル なデータを取り込 み現実世界を認 識・理解し、 自律マシンが実 行可能な行動を 出力する このような基盤モデルを、 VLAモデル (Vision-Language-Action) と呼ぶ
  6. Ⓒ ugo, Inc. 2025. All rights reserved. 動向:AIロボット向けの基盤モデル / VLAモデル

    9 VLAモデルを構築するためには、大量のロボット動作データセットが必要 引用)米 Physical Intelligence社 https://www.physicalintelligence.company/research/real_time_chunking 様々なタスクを柔軟にこなせる AIロボットを実現しようと、あらゆる動作を学習させ汎化させた AIロボット向け基 盤モデル / VLAモデルを、米中スタートアップや大学研究機関が研究開発している。 引用)米 Figure AI社 https://youtu.be/Eu5mYMavctM?si=vc26_4SxdTgfHlxw
  7. Ⓒ ugo, Inc. 2025. All rights reserved. 動向:AIロボット・データファクトリー 10 「頭脳」訓練工場で黙々と働く、

    中国の人型ロボットたち 中国のの人型ロボットユニコーン「智元機器人( Agibot)」が上海市に巨大な「デー タ収集工場」を建設。( 広さ3000平方メートル、200名以上のオペレーターが常時 作業しデータ収集している) ヒューマノイドを遠隔操縦してあらゆるマニピュレーション動作を収集し、模倣学習 し、汎用的なAIロボット向けのVLAモデルを開発している。 引用)36KrJapan - https://36kr.jp/328562/ 寝室では、器用に洋服をたたむタスクを模倣学習する。 スーパーのレジでは、ハンドスキャナーを持って商品バーコードを 読み取る。
  8. Ⓒ ugo, Inc. 2025. All rights reserved. 模倣学習とは? 模倣学習( Imitation

    Learning) とは、専門家や熟練者の行動を観察し、それを模倣することで行動パター ンを学習する機械学習の一手法です。 強化学習のように試行錯誤を繰り返しながら報酬を最大化するのではなく、 人間などの熟練者が実際にど のように行動したかというデモンストレーションデータから直接学習する 点が特徴です。 11 模倣学習サイクル 引用)図: SO-ARMとACTで実践する模倣学習 https://zenn.dev/rktm/articles/894b2ffccaf11f 模倣学習
  9. Ⓒ ugo, Inc. 2025. All rights reserved. 13 AIロボット向け模倣学習キット 直感的に遠隔操縦できる

    専用バイラテラル コントローラ Bilateral 2ch ugo RobotConfig Library for LeRobot OSS模倣学習フレームワーク 専用充電器 ヘッドマウント カメラ ハンドカメラ
  10. Ⓒ ugo, Inc. 2025. All rights reserved. AIロボット向け模倣学習キットの動作構成 15 オペレーター

    コントローラ 操縦 デモンストレーション データセット ugo Pro R&D 学習させたい動きの データを収集 AIモデル学習・実行
  11. Ⓒ ugo, Inc. 2025. All rights reserved. LeRobot連携をオープンソースで提供 16 模倣学習環境は、オープンソースソフトウェアである

    “LeRobot” をベースに構築が可能です。本キットが対応す る LeRobot用のプラグイン及びユーティリティツールも、オープンソースで公開されております。 ugo RobotConfig Library for LeRobot https://github.com/ugo-plus/lerobot-robot-ugo-pro テレオペ用マルチカメラモニタリングツール https://github.com/ugo-plus/ugo_multicam_monitor
  12. Ⓒ ugo, Inc. 2025. All rights reserved. LeRobotとは 17 AIコミュニティのHugging

    Faceが開発・公開している、 ロボット学習のためのオープンソース・ライブラリおよび フレームワークです。 データ収集 モデルの トレーニング フィジカル AI 入門と実践 ~LeRobotで手を動かす   ロボット作製と模倣学習 ~ 著者:日本PhysicalAI協会秋葉原支部 実機での推論 ロボット学習のための統合パイプライン 模倣学習(IL) VLA 強化学習(RL) 報酬モデル
  13. Ⓒ ugo, Inc. 2025. All rights reserved. LeRobotがサポートする Policy /

    VLAモデル 18 Policy 概要 利点 制約 ACT (Action Chunking with Transformers) 行動クローニング型。 画像+状態から複数ステップの行動を一 括生成する軽量Transformer。 軽量・高 ・高精度。少量デモ (50件程度) で高成功率。 タスク汎化が弱く、マルチタスクや言語入 力に非対応。 Diffusion Policy 拡散モデルベースの行動生成。ノイズ除 去過程で連続制御を学習。 滑らかな動作・安定した学習。 計算負荷が高くリアルタイム制御は工夫 が必要。 SmolVLA (Small Vision-Language-Action) 小型VLMベースの模倣学習モデル。 視覚+言語+状態から低レベル行動を生 成。 軽量でGPU負荷小。多タスク対応・オープ ンソース。 長文指示や複雑推論は苦手。微調整が必 須。 π₀ (Pi-0) 大規模PaLI-Gemmaベースの汎用VLAモ デル。言語指示と画像から多ロボット制 御。 多ロボット・多タスク対応。高精度かつ 50Hz制御可。 巨大(3Bパラメータ)で推論に高 GPUメモ リ(約14GB)が必要。 π₀.₅ (Pi-0.5) π₀の改良版。Web・実ロボ混合学習による 汎化力強化モデル。 未知環境・新タスクへの適応性が高い。 計算・データ規模が非常に大きい。 NVIDIA GR00T N1.5 NVIDIA開発の汎用推論モデル。マルチロ ボットVLA。 言語追従・複雑マニピュレーションに強い。 高性能GPU必須。学習データ非公開部分 あり。 ※ここに紹介されているVLAモデルは、LeRobotでサポートされている、もしくは互換可能と想定されるVLAモデル群ですが、当社の模倣学習キットで動作を保証するものではありません。
  14. Ⓒ ugo, Inc. 2025. All rights reserved. BYOH 具体実装レイヤー CLI

    エントリポイント 抽象基底レイヤー LeRobotの内部アーキテクチャ 19 Robot - connect() - calibrate() - configure() - get_observation() → dict - send_action(action) → dict - disconnect() Teleoperator - connect() - calibrate() - configure() - get_action() → dict - send_feedback(feedback) - disconnect() lerobot-calibrate lerobot-teleoperate lerobot-record lerobot-train / eval プラグイン発見・共通処理 lerobot_robot_* lerobot_teleoperator_* lerobot_camera_* プレフィックスのパッケージを発見 record_loop()   : 制御ループ teleop.get_action() robot.send_action() robot.get_observation() dataset.save_frame() Robot Config MyCoolRobot MyCoolRobotConfig MyBilateralController ハードウェア I/O レイヤー Camera MotorsBus Teleoperator Config
  15. Ⓒ ugo, Inc. 2025. All rights reserved. AIロボット向け模倣学習の流れ 20 コントローラ

    デモンストレーション データセット ugo Pro R&D 学習させたい動きのデータを収集 ローカル GPU or クラウド GPU 環境で方策の学習 模 倣 学 習 キ ッ ト お 客 様 デモンストレーションの収集 方策の学習 実行と評価 性能の改善 PC環境 LeRobot環境が構築された カメラ ugo Pro R&D PC環境 動作方策 VLAモデル VLAモデルを実行 カメラ 評価 改善案 アーム動作 行動のカメラ(RGB)+センサ列(関節角/力トルク等)の時系列ログ
  16. Ⓒ ugo, Inc. 2025. All rights reserved. 模倣学習データ取得のコツ 23 Data

    is King データ品質が成功の鍵 ロボットのタスク実行精度はデータの良し悪しで決まります。 📷 カメラは全ての対象物が画角に収まる位置に 前方斜め上からの視点が望ましく、操作用のリーダーアームは映さないように 配置し、照明や背景にも配慮し、見やすい環境を意識する。 ⚠ 極端なバリエーションの過多 初期段階から条件を増やしすぎるとモデルがうまく学習できず、性能低下の 原因になります。バリエーションは段階的に拡大し、モデルの様子を見ながら 追加しましょう。 🎯 タスクは明確かつシンプルなものから 複雑な課題は成功デモが集めにくく精度も下がりやすいため、 まずはシンプルな作業から開始するのがお勧め。 🔄 データの多様性 あらゆる状況に対応できるモデルにするには、 データ収集時に適度なバリ エーションを持たせることが重要です。物体の形・色・向き・配置場所など条件 を変えたデータを集めて汎用性を高めます。徐々に種類を増やすよう心がけま しょう。目安として最初は50エピソードほど収集し、10エピソードごとに条件を 少しずつ変えると良い。 ⚠ 失敗データはやり直しましょう 人間の操作ミスやタスク未完了のエピソードをデータセットに含めると、モデル が誤学習する恐れがあります。失敗時はそのエピソードを保存せずやり直すよ うにしましょう。