Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RLSP2021資料
Search
Ryunosuke-Ikeda
April 14, 2021
Research
0
220
RLSP2021資料
東京大学松尾研究室が主催する強化学習のセミナーの最終課題発表資料.
Ryunosuke-Ikeda
April 14, 2021
Tweet
Share
More Decks by Ryunosuke-Ikeda
See All by Ryunosuke-Ikeda
映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料
imr0305
0
160
Open Hack U 発表資料(チームうどん)
imr0305
0
58
JPHacks2021 発表資料(チームうどん)
imr0305
0
51
自己紹介スライド
imr0305
1
2k
技育展2021 発表資料(チームうどん)
imr0305
0
40
RPNを完全に理解しよう
imr0305
1
360
技育展2020 登壇資料(チームうどん)
imr0305
0
200
Other Decks in Research
See All in Research
LLMアプリケーションの透明性について
fufufukakaka
0
190
R&Dチームを起ち上げる
shibuiwilliam
1
200
An Open and Reproducible Deep Research Agent for Long-Form Question Answering
ikuyamada
0
350
湯村研究室の紹介2025 / yumulab2025
yumulab
0
320
【SIGGRAPH Asia 2025】Lo-Fi Photograph with Lo-Fi Communication
toremolo72
0
130
The mathematics of transformers
gpeyre
0
130
SREのためのテレメトリー技術の探究 / Telemetry for SRE
yuukit
13
3.3k
AIスパコン「さくらONE」の オブザーバビリティ / Observability for AI Supercomputer SAKURAONE
yuukit
2
1.3k
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
240
SREはサイバネティクスの夢をみるか? / Do SREs Dream of Cybernetics?
yuukit
3
440
LiDARセキュリティ最前線(2025年)
kentaroy47
0
280
[SITA2025 Workshop] 空中計算による高速・低遅延な分散回帰分析
k_sato
0
130
Featured
See All Featured
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Test your architecture with Archunit
thirion
1
2.2k
[SF Ruby Conf 2025] Rails X
palkan
2
830
Crafting Experiences
bethany
1
88
Building Adaptive Systems
keathley
44
3k
How to Talk to Developers About Accessibility
jct
2
150
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Marketing to machines
jonoalderson
1
5k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
77
The Curious Case for Waylosing
cassininazir
0
270
Transcript
深層強化学習 小型AIロボットカー実装 東京電機大学 M1 長野 紘士朗 東京電機大学 B4 池田柳之介 京都大学
B1 中尾友紀 RLSP2021 最終課題
目次 (Table of Contents) 1. 問題設定 2. 手法 3. 実験結果
4. 結論 5. 参考サイト・URL
問題設定 - 昨今のIoTデバイスの増加に伴い、小型端末に組み込むことができるエッジAI の開発が注目されている。 - エッジAIは従来のようなクラウド環境で情報の処理を行う必要がなく、エッ ジAI上で推論と学習を行うことができ、処理の高速化やコストダウンが期待 されている 参考) https://ainow.ai/2020/02/2
1/183186/#AIAI
問題設定 - 私たちは深層強化学習を利用して、小型AIロボットカーに走行を学習させる ことを目指しました。 - 実装する上で、シミュレータ環境と実環境の2通りの実験を行いました Jetbot (Waveshare社) Donkey Car
(gym-donkeycar)
シミュレータ環境
デモ
手法 ・SAC自体について 観測するStateには画像から得られる物のみを用いている. 学習コードにはエントロピー最適化も含めて実装. ※細かいパラメータはScrapbox上のリンクからコードを見てください.
手法 ・SAC いくつか環境に工夫をしている 1. 報酬関数の変更 2. 環境から観測された画像(State)に対するVAEによる事前処理 3. 環境のReset時に一定間隔の間,ランダムな行動を入力する事で初期状態に変 化を与えている
手法 ・VAEによる事前処理 左の様な入力画像からVAEによって情報を32次元に圧縮している. 元画像 復元画像
手法 ・SAC Agentにも工夫をしている 1. 各stepにおいて確率ε(0.0 ≦ε< 1.0)でランダムに行動する 2. 環境からの直前n枚のフレームをVAEで圧縮したベクトルを状態とする. εとnを変化させる事による性能の変化を考察した.
手法 ・実験 εとnを変化させる事で生まれる性能の変化を考察した. 1. ε = 0.0, n = 1
2. ε = 0.05, n = 1 3. ε = f(step) = 50 / (1000 + step), n = 1 4. ε = 0.0, n = 3 実験1. の結果を基準とする.
実験結果 実験2 (ε = 0.05, n = 1)との比較 ・実験2は実験1と比較 して報酬が低下.
・学習が比較的不安定
実験結果 実験3 (ε = f(step) = 50 / (1000 +
step), n = 1)との比較 ・実験3は実験1と同程度 の報酬を獲得.
実験結果 実験4 (ε = 0.0, n = 3)との比較 ・実験4は実験1と比較 して報酬が大幅に上昇.
・学習が比較的安定.
結論 ・単純なランダム行動(実験2)だけでは方策の大幅な性能向上は見込めない ・入力に持つ画像フレーム数を増やす事で飛躍的に性能が上がる ・入力に持つ画像フレーム数を増やす事で方策の安定性が上昇する ※詳細はScrapboxを見てください.
実環境
実験結果 (VAE) VAEを利用して、カメラからの撮影画像を変換 - データセットに撮影画像を約3000枚利用 - VAEで撮影画像の特徴抽出 データセット画像の一部抜粋
深層強化学習アルゴリズムSACによる走行結果 当初の予定ではこちらにSACによる走行動画を載せたかったのですが、Jetbotの Cuda環境のエラーが発生し、締切まであげられなかったため、このように動いて ほしかったという結果をサイト記事から引用させていただきこちらに載せる。 マニュアル(人手)操作 SACによる走行結果
結論 ・実環境ではVAEは学習しやすかったが、動作環境を整えるのが大変 原因 - Colabratoryで作成したVAEの重みをロードするのに実環境のロボットの 動作を行うパッケージがtorch1.3に依存しているためロードできなかっ た >> Jetson nano
の環境をアップデートしてtorchのバージョンを1.6 以上にして実験を行う
参考記事・サイト • Jetson Nanoで動く深層強化学習を使ったラジコン向け自動運転ソフトウェアの 紹介 • Learning_RacerをWaveshare製Jetbotで試した。 • Donkey Carを組み立てる前にシミュレーターで楽しんでみる
Donkey Car 3.1.0編 • https://towardsdatascience.com/learning-to-drive-smoothly-in-minutes- 450a7cdb35f4 まとめ 私たちは深層強化学習を利用して、シミュレータ環境と実環境の2通りで実験を 行いました。 - 実環境ではロボット本体に組み込むときの動作環境を整えることができず実 験まで行えなかったが、シミュレータ環境では学習を行うことができ、ロボ ットカーでコースを何週も周れることができた。