Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Forklift Goal Condition Reinforcement Learning ...
Search
takeofuture
May 17, 2026
Technology
88
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Forklift Goal Condition Reinforcement Learning by Gazebo + ROS2 topic
takeofuture
May 17, 2026
More Decks by takeofuture
See All by takeofuture
BLUVIC(SportへのAI活用)ハッカソン発表資料
takeofuture
0
13
ROSAというLLM使ったROSエージェントをおもちゃに実装してみた話
takeofuture
0
220
2025/11/14 ロボセミでの発表資料
takeofuture
0
120
20240827_LLM発表
takeofuture
0
290
Other Decks in Technology
See All in Technology
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
2k
AIAU_UMEMOGU_ninomiya_slide
ninomiya_ii
0
260
レガシーな広告配信システムでのAI駆動開発/運用の挑戦
i16fujimoto
0
110
時期が悪い!それでもRaspberry Piを買って遊んで活用するには / 20260627-osc26do-rpi-jikigawarui
akkiesoft
0
720
AIはどのように 組織のアジリティを変えるのか?
junki
4
1.1k
[AWS Summit Japan 2026]迷っているあなたへ_小さな一歩が、やがて自分を助けてくれる
sh_fk2
1
380
秘密度ラベル初心者が第1歩でつまづかないための「設計・運用」ポイント
seafay
PRO
1
450
AI-DLCを “そのまま導入しなかった”話 ~組織に合わせてアジャストした 私たちの実践共有~
hiroramos4
PRO
1
400
Bucharest Tech Week 2026 - Guardians of the Cloud-Native Galaxy
edeandrea
PRO
0
130
WebGIS AI Agentの紹介
_shimizu
0
530
技術・能力を向上する原理原則 #きのこセッションa #きのこ2026
bash0c7
0
110
LayerX コーポレートエンジニアリング室におけるサプライチェーンセキュリティへの取り組み / Supply Chain Security at LayerX Corporate Engineering
yuyatakeyama
3
810
Featured
See All Featured
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.3k
The browser strikes back
jonoalderson
0
1.3k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Navigating Weather and Climate Data
rabernat
0
230
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Are puppies a ranking factor?
jonoalderson
1
3.6k
The #1 spot is gone: here's how to win anyway
tamaranovitovic
2
1.1k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
2k
エンジニアに許された特別な時間の終わり
watany
107
250k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.2k
Embracing the Ebb and Flow
colly
88
5.1k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
Transcript
0 仮想物理シミュレーション環境GAZEBO 強化学習は大変だった。 倉庫での自動運転への応用を夢見て フリーランサー 柴田たけお
興味のある仕事 ▪ 先端技術と情報技術の融合と応用 ▪ データサイエンス ▪ AI(生成AI,分析AI,識別AI), 統計や機械学習 ▪ ロボット、AI支援型CADや部品設計製造
柴田 たけお ▪ 愛知県名古屋市生まれ豊田市育ち ▪ 大学,大学院では地球物理専攻 ▪ 本業ロサンゼルス商社のデータサイエンティスト 個人でAI関連含むプロジェクト多数やったつもり ▪ 愛知県豊田市の空家に年数回滞在(日米2拠点生活) 基本情報 趣味 ▪ キャンプやハイキング ▪ 自転車旅行 ▪ 青春18切符でのんびり列車旅行 ▪ 食べること @takeofuture https://zenn.dev/takeofuture
▪ GAZEBOとは ▪ 強化学習とは ▪ 環境や物体を定義 ▪ コマンド(テレオペ)でマニュアル操作デモ ▪ 強化学習方針(Phase別の報酬設計と制約)
▪ 1地点目標の強化学習の様子 ▪ 目標条件付き強化学習: 通路1(AISLE-1)の全てのBIN(仕切り)で ▪ 目標条件付き強化学習: 全通路、全仕切りで ▪ 目標条件付き強化学習: 全通路、全棚(4つの高さ)で ▪ 動的位置へのへの強化学習へ! 目次
GAZEBOとは 物理エンジンを搭載したシミュレータ • ライセンス形態 :オープンソース。Gazebo Sim関連ライブラリは主に Apache License 2.0。 •
物理エンジン :現在のGazebo Simは標準で DART を使用。Gazebo Physicsの抽象レイヤーにより、他の物理エンジンもプラグインとして切替・追加可能。 • ROS 2連携:ros_gz_bridge により、ROS 2とGazebo間でtopic/serviceを橋渡しでき、joint state、センサー情報、制御コマンドなどを相互にやり取りできる。 • 用途:実機を使う前に、ロボットの移動・衝突・センサー・制御を仮想環境で検証できる。 👉完全仮想の世界と現実世界のギャップを埋める! 仮想世界 シミュレータ 厳しい現実
強化学習(RL)とは 強化学習の教科書でよくつかわれるグリッド世界の例 グリッドは環境 エージェントはネズミくん、グリッドのことは知らない 目隠しして進むイメージ 行動パターンは左右上下へすすむ (右と上だけでもいい) 報酬が最高になるようにゴールに進むよう 報酬やペナルティーを設計して自律的に最適な方法を 自律的学習するAIの手法の一種
👉最初は行動をランダムに選択するが報酬をもらったりペ ナルティをくらうことで学び報酬最大化を得るようになること が知られている。学習が進むに冒険とグリーディーな最適方 法を一定確率で切り分けて局所最適化しないような工夫もさ れている。
環境(WORLD)や物体(LINK)を定義 倉庫の中でフォークリフト(運搬車)が走り回ることを想定、 今回は正しい位置へ移動して正しい高さにフォークを上げ下げすることを目標に強化学習を実施 環境設定手順 https://zenn.dev/takeofuture/articles/e538b136f7c76f 動かす物体の設定手順 https://zenn.dev/takeofuture/articles/3dbd21341cc559
コマンド(テレオペ)でマニュアル操作デモ (1/2) https://youtu.be/QrG-AIYCT8E
コマンド(テレオペ)でマニュアル操作デモ (2/2) https://youtu.be/Vld0L7_i6r4
強化学習方針(Phase別の報酬設計と制約)
1地点目標の強化学習の様子(学習開始直後)-8倍速 https://youtu.be/h8_ik2MMa1Q
1地点目標の強化学習の様子(12時間後) -8倍速 https://youtu.be/ryuGt80PJNQ
1地点目標の強化学習の様子(18時間後) -8倍速 https://youtu.be/h35cJJO35sY
目標条件付き強化学習: 通路1(AISLE-1)の全てのBIN(仕切り)(x12倍速) https://youtu.be/PHuq5DijnAs
目標条件付き強化学習: 全通路、全仕切りで(x12倍速) https://youtu.be/4-ufc__PxLg
目標条件付き強化学習: 全通路、全棚 (16倍速)-学習18H https://youtu.be/Q725HpHPk5Q
https://youtu.be/lkYCmgHFg6Y 目標条件付き強化学習: 全通路、全棚 (16倍速)-学習36H
シミュレータの限界 ← GAZEBOで使用できる物理特性 GAZEBO(おそらくほかのシミュレータでも) ↓ 表現が難しい特性(特に材料特性) 🤔仮想と現実の間のGAPは若干うめられるがそれでも現実世界にはほど遠い 例:形状は同じでも材料の違いにより挙動の違いを表現が難しい。少なくともGAZEBOでは
まとめ やっぱり強化学習は結構使える! GAZEBOの衝突センサがあまり機能しなかった(衝突は座標位置で判定) でも報酬をどう定義してやるかが大事、今回は完全なEND2ENDの強化学習ではない 人間の経験などの報酬関数への反映はまだまだ必要だと感じた 列や仕切りの数が変わっても少しの継続学習で使えそう、一方棚の数の増大は初期の学習を 大きく崩す 実世界の応用にはまだまだ遠い道のり 👉台車をもっと精密に作る必要あり(重さ、摩擦係数、形状、重心への配慮,CADの利用が有力) 👉棚をもっと精密に作る必要(これもCADの利用が王道)
👉初期開始位置も動的にできるか 👉LIDAR、カメラやセンサーのデバッグ必要 *まだ途中でしか投稿できてませんが、続きもまとめてコードも含めてブログに投稿予定です zenn.dev/takeofuture