Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
VLAモデル構築のための AIロボット向け模倣学習キット
Search
Ken Matsui
March 16, 2026
Technology
570
0
Share
VLAモデル構築のための AIロボット向け模倣学習キット
AI ROBOT JAPAN #1 ~ AIロボット持ち込み勉強会 ~
VLAモデル構築のための AIロボット向け模倣学習キット
Ken Matsui
March 16, 2026
More Decks by Ken Matsui
See All by Ken Matsui
サービスロボット最前線:ugoが挑むPhysical AI活用
kmatsuiugo
0
1.5k
Other Decks in Technology
See All in Technology
R&D 祭 2024 アニメエフェクト作成の効率化
olmdrd
PRO
0
100
エンタープライズの厳格な制約を開発者に意識させない:クラウドネイティブ開発基盤設計/cloudnative-kaigi-golden-path
mhrtech
0
460
実践 TanStack Start ― 新規プロダクトを開発して確立した、サーバーとクライアント境界の設計パターン / Practical TanStack Start Server-Client Boundary Patterns
kaminashi
1
120
ECSのTerraformモジュールにコントリビュートした話
harukasakihara
0
250
freeeで運用しているAIQAについて
qatonchan
1
650
PdM・Eng・QAで進めるAI駆動開発の現在地/aidd-with-pdm-eng-qa
shota_kusaba
0
260
JTCでRedmine利用者2700人を実現した手法 第二部
nobuonakamura
0
140
Purview 勉強会報告 Microsoft Purview 入門しようとしてみた
masakichixo
1
460
Directions Asia 2026 | Beyond Buildable AI Agents: Let’s Visualize Partner Value in the AI Era
ryoheig0405
0
120
CARTA HOLDINGS エンジニア向け 採用ピッチ資料 / CARTA-GUIDE-for-Engineers
carta_engineering
0
47k
なぜ、IAMロールのプリンシパルに*による部分マッチングが使えないのか? / 20260518-ssmjp-iam-role-principal
opelab
2
140
実例から学ぶ GuardDuty(SSH BruteForce)調査の全体フローと勘所【SecurityJAWS】
cscengineer
PRO
0
140
Featured
See All Featured
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
65
54k
Tell your own story through comics
letsgokoyo
1
920
Technical Leadership for Architectural Decision Making
baasie
3
370
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.2k
First, design no harm
axbom
PRO
2
1.2k
A Modern Web Designer's Workflow
chriscoyier
698
190k
So, you think you're a good person
axbom
PRO
2
2k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.6k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
180
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
10k
GraphQLの誤解/rethinking-graphql
sonatard
75
12k
Transcript
Ⓒ ugo, Inc. 2025. All rights reserved. Ⓡ AI ROBOT
JAPAN #1 AIロボット持ち込み勉強会 VLAモデル構築のための AIロボット向け模倣学習キット ugo株式会社
Ⓒ ugo, Inc. 2025. All rights reserved. 松井 健 スマホApp
システム開発 2023年 東証グロース IPO #1 2006- 2011 ugo株式会社 代表取締役CEO IoT機器 受託開発・量産 事業会社へ売却 #2 2011- 2020 AIロボット #3 2018- Now Ⓡ 2 テクノロジー分野での 起業3回 システム開発 ▶ IoT機器開発 ▶ ロボティクス 6年 9年 8年〜
Ⓒ ugo, Inc. 2025. All rights reserved. CONFIDENTIAL
Ⓒ ugo, Inc. 2025. All rights reserved. 所在地 東京都千代田区東神田 1-7-8
設 立 2018年2月20日 代表者 代表取締役CEO 松井 健 従業員数 87名 資本金 1億円 事業内容 ・ugoソリューションの提供・運用 ・RaaSフレームワークの開発・提供・運用 ugo株式会社について ユーゴー 4 人とロボティクスの融合で、 新しい社会システムを構築し、 新しい価値観を創 する。 MISSION
Ⓒ ugo, Inc. 2025. All rights reserved. 6
Ⓒ ugo, Inc. 2025. All rights reserved. Ⓡ SCALE-OUT HUMAN
POSSIBILITY VLAモデル構築のための AIロボット向け 模倣学習キット
Ⓒ ugo, Inc. 2025. All rights reserved. AIロボットを実現する「フィジカル AI」とは? 8
ロボットや自動運転車などの物理的なシステムが、 認識・理解 思考 行動 現実世界を理解して “行動” に変えるAI 3D空間と物理世 界を踏まえて思 考し、 マルチモーダル なデータを取り込 み現実世界を認 識・理解し、 自律マシンが実 行可能な行動を 出力する このような基盤モデルを、 VLAモデル (Vision-Language-Action) と呼ぶ
Ⓒ ugo, Inc. 2025. All rights reserved. 動向:AIロボット向けの基盤モデル / VLAモデル
9 VLAモデルを構築するためには、大量のロボット動作データセットが必要 引用)米 Physical Intelligence社 https://www.physicalintelligence.company/research/real_time_chunking 様々なタスクを柔軟にこなせる AIロボットを実現しようと、あらゆる動作を学習させ汎化させた AIロボット向け基 盤モデル / VLAモデルを、米中スタートアップや大学研究機関が研究開発している。 引用)米 Figure AI社 https://youtu.be/Eu5mYMavctM?si=vc26_4SxdTgfHlxw
Ⓒ ugo, Inc. 2025. All rights reserved. 動向:AIロボット・データファクトリー 10 「頭脳」訓練工場で黙々と働く、
中国の人型ロボットたち 中国のの人型ロボットユニコーン「智元機器人( Agibot)」が上海市に巨大な「デー タ収集工場」を建設。( 広さ3000平方メートル、200名以上のオペレーターが常時 作業しデータ収集している) ヒューマノイドを遠隔操縦してあらゆるマニピュレーション動作を収集し、模倣学習 し、汎用的なAIロボット向けのVLAモデルを開発している。 引用)36KrJapan - https://36kr.jp/328562/ 寝室では、器用に洋服をたたむタスクを模倣学習する。 スーパーのレジでは、ハンドスキャナーを持って商品バーコードを 読み取る。
Ⓒ ugo, Inc. 2025. All rights reserved. 模倣学習とは? 模倣学習( Imitation
Learning) とは、専門家や熟練者の行動を観察し、それを模倣することで行動パター ンを学習する機械学習の一手法です。 強化学習のように試行錯誤を繰り返しながら報酬を最大化するのではなく、 人間などの熟練者が実際にど のように行動したかというデモンストレーションデータから直接学習する 点が特徴です。 11 模倣学習サイクル 引用)図: SO-ARMとACTで実践する模倣学習 https://zenn.dev/rktm/articles/894b2ffccaf11f 模倣学習
Ⓒ ugo, Inc. 2025. All rights reserved. 12
Ⓒ ugo, Inc. 2025. All rights reserved. 13 AIロボット向け模倣学習キット 直感的に遠隔操縦できる
専用バイラテラル コントローラ Bilateral 2ch ugo RobotConfig Library for LeRobot OSS模倣学習フレームワーク 専用充電器 ヘッドマウント カメラ ハンドカメラ
Ⓒ ugo, Inc. 2025. All rights reserved. AIロボット向け模倣学習キットの動作デモ 14 https://www.youtube.com/watch?v=DLFMDuaDhho
Ⓒ ugo, Inc. 2025. All rights reserved. AIロボット向け模倣学習キットの動作構成 15 オペレーター
コントローラ 操縦 デモンストレーション データセット ugo Pro R&D 学習させたい動きの データを収集 AIモデル学習・実行
Ⓒ ugo, Inc. 2025. All rights reserved. LeRobot連携をオープンソースで提供 16 模倣学習環境は、オープンソースソフトウェアである
“LeRobot” をベースに構築が可能です。本キットが対応す る LeRobot用のプラグイン及びユーティリティツールも、オープンソースで公開されております。 ugo RobotConfig Library for LeRobot https://github.com/ugo-plus/lerobot-robot-ugo-pro テレオペ用マルチカメラモニタリングツール https://github.com/ugo-plus/ugo_multicam_monitor
Ⓒ ugo, Inc. 2025. All rights reserved. LeRobotとは 17 AIコミュニティのHugging
Faceが開発・公開している、 ロボット学習のためのオープンソース・ライブラリおよび フレームワークです。 データ収集 モデルの トレーニング フィジカル AI 入門と実践 ~LeRobotで手を動かす ロボット作製と模倣学習 ~ 著者:日本PhysicalAI協会秋葉原支部 実機での推論 ロボット学習のための統合パイプライン 模倣学習(IL) VLA 強化学習(RL) 報酬モデル
Ⓒ ugo, Inc. 2025. All rights reserved. LeRobotがサポートする Policy /
VLAモデル 18 Policy 概要 利点 制約 ACT (Action Chunking with Transformers) 行動クローニング型。 画像+状態から複数ステップの行動を一 括生成する軽量Transformer。 軽量・高 ・高精度。少量デモ (50件程度) で高成功率。 タスク汎化が弱く、マルチタスクや言語入 力に非対応。 Diffusion Policy 拡散モデルベースの行動生成。ノイズ除 去過程で連続制御を学習。 滑らかな動作・安定した学習。 計算負荷が高くリアルタイム制御は工夫 が必要。 SmolVLA (Small Vision-Language-Action) 小型VLMベースの模倣学習モデル。 視覚+言語+状態から低レベル行動を生 成。 軽量でGPU負荷小。多タスク対応・オープ ンソース。 長文指示や複雑推論は苦手。微調整が必 須。 π₀ (Pi-0) 大規模PaLI-Gemmaベースの汎用VLAモ デル。言語指示と画像から多ロボット制 御。 多ロボット・多タスク対応。高精度かつ 50Hz制御可。 巨大(3Bパラメータ)で推論に高 GPUメモ リ(約14GB)が必要。 π₀.₅ (Pi-0.5) π₀の改良版。Web・実ロボ混合学習による 汎化力強化モデル。 未知環境・新タスクへの適応性が高い。 計算・データ規模が非常に大きい。 NVIDIA GR00T N1.5 NVIDIA開発の汎用推論モデル。マルチロ ボットVLA。 言語追従・複雑マニピュレーションに強い。 高性能GPU必須。学習データ非公開部分 あり。 ※ここに紹介されているVLAモデルは、LeRobotでサポートされている、もしくは互換可能と想定されるVLAモデル群ですが、当社の模倣学習キットで動作を保証するものではありません。
Ⓒ ugo, Inc. 2025. All rights reserved. BYOH 具体実装レイヤー CLI
エントリポイント 抽象基底レイヤー LeRobotの内部アーキテクチャ 19 Robot - connect() - calibrate() - configure() - get_observation() → dict - send_action(action) → dict - disconnect() Teleoperator - connect() - calibrate() - configure() - get_action() → dict - send_feedback(feedback) - disconnect() lerobot-calibrate lerobot-teleoperate lerobot-record lerobot-train / eval プラグイン発見・共通処理 lerobot_robot_* lerobot_teleoperator_* lerobot_camera_* プレフィックスのパッケージを発見 record_loop() : 制御ループ teleop.get_action() robot.send_action() robot.get_observation() dataset.save_frame() Robot Config MyCoolRobot MyCoolRobotConfig MyBilateralController ハードウェア I/O レイヤー Camera MotorsBus Teleoperator Config
Ⓒ ugo, Inc. 2025. All rights reserved. AIロボット向け模倣学習の流れ 20 コントローラ
デモンストレーション データセット ugo Pro R&D 学習させたい動きのデータを収集 ローカル GPU or クラウド GPU 環境で方策の学習 模 倣 学 習 キ ッ ト お 客 様 デモンストレーションの収集 方策の学習 実行と評価 性能の改善 PC環境 LeRobot環境が構築された カメラ ugo Pro R&D PC環境 動作方策 VLAモデル VLAモデルを実行 カメラ 評価 改善案 アーム動作 行動のカメラ(RGB)+センサ列(関節角/力トルク等)の時系列ログ
Ⓒ ugo, Inc. 2025. All rights reserved. 模倣学習におけるデータ取得のデモ 21
Ⓒ ugo, Inc. 2025. All rights reserved. テレオペ用マルチカメラモニタリングツール 22 オープンソースで公開中
Ⓒ ugo, Inc. 2025. All rights reserved. 模倣学習データ取得のコツ 23 Data
is King データ品質が成功の鍵 ロボットのタスク実行精度はデータの良し悪しで決まります。 📷 カメラは全ての対象物が画角に収まる位置に 前方斜め上からの視点が望ましく、操作用のリーダーアームは映さないように 配置し、照明や背景にも配慮し、見やすい環境を意識する。 ⚠ 極端なバリエーションの過多 初期段階から条件を増やしすぎるとモデルがうまく学習できず、性能低下の 原因になります。バリエーションは段階的に拡大し、モデルの様子を見ながら 追加しましょう。 🎯 タスクは明確かつシンプルなものから 複雑な課題は成功デモが集めにくく精度も下がりやすいため、 まずはシンプルな作業から開始するのがお勧め。 🔄 データの多様性 あらゆる状況に対応できるモデルにするには、 データ収集時に適度なバリ エーションを持たせることが重要です。物体の形・色・向き・配置場所など条件 を変えたデータを集めて汎用性を高めます。徐々に種類を増やすよう心がけま しょう。目安として最初は50エピソードほど収集し、10エピソードごとに条件を 少しずつ変えると良い。 ⚠ 失敗データはやり直しましょう 人間の操作ミスやタスク未完了のエピソードをデータセットに含めると、モデル が誤学習する恐れがあります。失敗時はそのエピソードを保存せずやり直すよ うにしましょう。
Ⓒ ugo, Inc. 2025. All rights reserved. CONFIDENTIAL Let's start
learning robots!