Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RLSP2021資料
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Ryunosuke-Ikeda
April 14, 2021
Research
0
220
RLSP2021資料
東京大学松尾研究室が主催する強化学習のセミナーの最終課題発表資料.
Ryunosuke-Ikeda
April 14, 2021
Tweet
Share
More Decks by Ryunosuke-Ikeda
See All by Ryunosuke-Ikeda
映像情報を活用した次世代のAIアシスタントシステム"Salieri" 資料
imr0305
0
160
Open Hack U 発表資料(チームうどん)
imr0305
0
55
JPHacks2021 発表資料(チームうどん)
imr0305
0
47
自己紹介スライド
imr0305
1
2k
技育展2021 発表資料(チームうどん)
imr0305
0
37
RPNを完全に理解しよう
imr0305
1
350
技育展2020 登壇資料(チームうどん)
imr0305
0
200
Other Decks in Research
See All in Research
【NICOGRAPH2025】Photographic Conviviality: ボディペイント・ワークショップによる 同時的かつ共生的な写真体験
toremolo72
0
170
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
1.5k
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
4
1.3k
[Devfest Incheon 2025] 모두를 위한 친절한 언어모델(LLM) 학습 가이드
beomi
2
1.4k
ForestCast: Forecasting Deforestation Risk at Scale with Deep Learning
satai
3
390
生成AIとうまく付き合うためのプロンプトエンジニアリング
yuri_ohashi
0
140
Collective Predictive Coding and World Models in LLMs: A System 0/1/2/3 Perspective on Hierarchical Physical AI (IEEE SII 2026 Plenary Talk)
tanichu
1
250
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
260
LLMアプリケーションの透明性について
fufufukakaka
0
140
Community Driveプロジェクト(CDPJ)の中間報告
smartfukushilab1
0
170
学習型データ構造:機械学習を内包する新しいデータ構造の設計と解析
matsui_528
6
3.1k
J-RAGBench: 日本語RAGにおける Generator評価ベンチマークの構築
koki_itai
0
1.3k
Featured
See All Featured
Utilizing Notion as your number one productivity tool
mfonobong
3
220
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
150
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
320
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
69
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
190
The #1 spot is gone: here's how to win anyway
tamaranovitovic
2
940
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
1.9k
Believing is Seeing
oripsolob
1
56
Writing Fast Ruby
sferik
630
62k
First, design no harm
axbom
PRO
2
1.1k
Facilitating Awesome Meetings
lara
57
6.8k
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.1k
Transcript
深層強化学習 小型AIロボットカー実装 東京電機大学 M1 長野 紘士朗 東京電機大学 B4 池田柳之介 京都大学
B1 中尾友紀 RLSP2021 最終課題
目次 (Table of Contents) 1. 問題設定 2. 手法 3. 実験結果
4. 結論 5. 参考サイト・URL
問題設定 - 昨今のIoTデバイスの増加に伴い、小型端末に組み込むことができるエッジAI の開発が注目されている。 - エッジAIは従来のようなクラウド環境で情報の処理を行う必要がなく、エッ ジAI上で推論と学習を行うことができ、処理の高速化やコストダウンが期待 されている 参考) https://ainow.ai/2020/02/2
1/183186/#AIAI
問題設定 - 私たちは深層強化学習を利用して、小型AIロボットカーに走行を学習させる ことを目指しました。 - 実装する上で、シミュレータ環境と実環境の2通りの実験を行いました Jetbot (Waveshare社) Donkey Car
(gym-donkeycar)
シミュレータ環境
デモ
手法 ・SAC自体について 観測するStateには画像から得られる物のみを用いている. 学習コードにはエントロピー最適化も含めて実装. ※細かいパラメータはScrapbox上のリンクからコードを見てください.
手法 ・SAC いくつか環境に工夫をしている 1. 報酬関数の変更 2. 環境から観測された画像(State)に対するVAEによる事前処理 3. 環境のReset時に一定間隔の間,ランダムな行動を入力する事で初期状態に変 化を与えている
手法 ・VAEによる事前処理 左の様な入力画像からVAEによって情報を32次元に圧縮している. 元画像 復元画像
手法 ・SAC Agentにも工夫をしている 1. 各stepにおいて確率ε(0.0 ≦ε< 1.0)でランダムに行動する 2. 環境からの直前n枚のフレームをVAEで圧縮したベクトルを状態とする. εとnを変化させる事による性能の変化を考察した.
手法 ・実験 εとnを変化させる事で生まれる性能の変化を考察した. 1. ε = 0.0, n = 1
2. ε = 0.05, n = 1 3. ε = f(step) = 50 / (1000 + step), n = 1 4. ε = 0.0, n = 3 実験1. の結果を基準とする.
実験結果 実験2 (ε = 0.05, n = 1)との比較 ・実験2は実験1と比較 して報酬が低下.
・学習が比較的不安定
実験結果 実験3 (ε = f(step) = 50 / (1000 +
step), n = 1)との比較 ・実験3は実験1と同程度 の報酬を獲得.
実験結果 実験4 (ε = 0.0, n = 3)との比較 ・実験4は実験1と比較 して報酬が大幅に上昇.
・学習が比較的安定.
結論 ・単純なランダム行動(実験2)だけでは方策の大幅な性能向上は見込めない ・入力に持つ画像フレーム数を増やす事で飛躍的に性能が上がる ・入力に持つ画像フレーム数を増やす事で方策の安定性が上昇する ※詳細はScrapboxを見てください.
実環境
実験結果 (VAE) VAEを利用して、カメラからの撮影画像を変換 - データセットに撮影画像を約3000枚利用 - VAEで撮影画像の特徴抽出 データセット画像の一部抜粋
深層強化学習アルゴリズムSACによる走行結果 当初の予定ではこちらにSACによる走行動画を載せたかったのですが、Jetbotの Cuda環境のエラーが発生し、締切まであげられなかったため、このように動いて ほしかったという結果をサイト記事から引用させていただきこちらに載せる。 マニュアル(人手)操作 SACによる走行結果
結論 ・実環境ではVAEは学習しやすかったが、動作環境を整えるのが大変 原因 - Colabratoryで作成したVAEの重みをロードするのに実環境のロボットの 動作を行うパッケージがtorch1.3に依存しているためロードできなかっ た >> Jetson nano
の環境をアップデートしてtorchのバージョンを1.6 以上にして実験を行う
参考記事・サイト • Jetson Nanoで動く深層強化学習を使ったラジコン向け自動運転ソフトウェアの 紹介 • Learning_RacerをWaveshare製Jetbotで試した。 • Donkey Carを組み立てる前にシミュレーターで楽しんでみる
Donkey Car 3.1.0編 • https://towardsdatascience.com/learning-to-drive-smoothly-in-minutes- 450a7cdb35f4 まとめ 私たちは深層強化学習を利用して、シミュレータ環境と実環境の2通りで実験を 行いました。 - 実環境ではロボット本体に組み込むときの動作環境を整えることができず実 験まで行えなかったが、シミュレータ環境では学習を行うことができ、ロボ ットカーでコースを何週も周れることができた。