RLSP2021資料

深層強化学習小型AIロボットカー実装東京電機大学 M1 長野紘士朗東京電機大学 B4 池田柳之介京都大学
B1 中尾友紀 RLSP2021 最終課題

目次 (Table of Contents) 1. 問題設定 2. 手法 3. 実験結果
4. 結論 5. 参考サイト・URL

問題設定 - 昨今のIoTデバイスの増加に伴い、小型端末に組み込むことができるエッジAI の開発が注目されている。 - エッジAIは従来のようなクラウド環境で情報の処理を行う必要がなく、エッジAI上で推論と学習を行うことができ、処理の高速化やコストダウンが期待されている参考) https://ainow.ai/2020/02/2
1/183186/#AIAI

問題設定 - 私たちは深層強化学習を利用して、小型AIロボットカーに走行を学習させることを目指しました。 - 実装する上で、シミュレータ環境と実環境の2通りの実験を行いました Jetbot (Waveshare社) Donkey Car
(gym-donkeycar)

シミュレータ環境

デモ

手法・SAC自体について観測するStateには画像から得られる物のみを用いている. 学習コードにはエントロピー最適化も含めて実装. ※細かいパラメータはScrapbox上のリンクからコードを見てください.

手法・SAC いくつか環境に工夫をしている 1. 報酬関数の変更 2. 環境から観測された画像(State)に対するVAEによる事前処理 3. 環境のReset時に一定間隔の間,ランダムな行動を入力する事で初期状態に変化を与えている

手法・VAEによる事前処理左の様な入力画像からVAEによって情報を32次元に圧縮している. 元画像復元画像

手法・SAC Agentにも工夫をしている 1. 各stepにおいて確率ε(0.0 ≦ε< 1.0)でランダムに行動する 2. 環境からの直前n枚のフレームをVAEで圧縮したベクトルを状態とする. εとnを変化させる事による性能の変化を考察した.

手法・実験 εとnを変化させる事で生まれる性能の変化を考察した. 1. ε = 0.0, n = 1
2. ε = 0.05, n = 1 3. ε = f(step) = 50 / (1000 + step), n = 1 4. ε = 0.0, n = 3 実験1. の結果を基準とする.

実験結果実験2 (ε = 0.05, n = 1)との比較・実験2は実験1と比較して報酬が低下.
・学習が比較的不安定

実験結果実験3 (ε = f(step) = 50 / (1000 +
step), n = 1)との比較・実験3は実験1と同程度の報酬を獲得.

実験結果実験4 (ε = 0.0, n = 3)との比較・実験4は実験1と比較して報酬が大幅に上昇.
・学習が比較的安定.

結論・単純なランダム行動(実験2)だけでは方策の大幅な性能向上は見込めない・入力に持つ画像フレーム数を増やす事で飛躍的に性能が上がる・入力に持つ画像フレーム数を増やす事で方策の安定性が上昇する ※詳細はScrapboxを見てください.

実環境

実験結果（VAE） VAEを利用して、カメラからの撮影画像を変換 - データセットに撮影画像を約3000枚利用 - VAEで撮影画像の特徴抽出データセット画像の一部抜粋

深層強化学習アルゴリズムSACによる走行結果当初の予定ではこちらにSACによる走行動画を載せたかったのですが、Jetbotの Cuda環境のエラーが発生し、締切まであげられなかったため、このように動いてほしかったという結果をサイト記事から引用させていただきこちらに載せる。マニュアル(人手)操作 SACによる走行結果

結論・実環境ではVAEは学習しやすかったが、動作環境を整えるのが大変原因 - Colabratoryで作成したVAEの重みをロードするのに実環境のロボットの動作を行うパッケージがtorch1.3に依存しているためロードできなかった >> Jetson nano
の環境をアップデートしてtorchのバージョンを1.6 以上にして実験を行う

参考記事・サイト • Jetson Nanoで動く深層強化学習を使ったラジコン向け自動運転ソフトウェアの紹介 • Learning_RacerをWaveshare製Jetbotで試した。 • Donkey Carを組み立てる前にシミュレーターで楽しんでみる
Donkey Car 3.1.0編 • https://towardsdatascience.com/learning-to-drive-smoothly-in-minutes- 450a7cdb35f4 まとめ私たちは深層強化学習を利用して、シミュレータ環境と実環境の2通りで実験を行いました。 - 実環境ではロボット本体に組み込むときの動作環境を整えることができず実験まで行えなかったが、シミュレータ環境では学習を行うことができ、ロボットカーでコースを何週も周れることができた。

RLSP2021資料

RLSP2021資料

Ryunosuke-Ikeda

More Decks by Ryunosuke-Ikeda

Other Decks in Research

Featured

Transcript

深層強化学習小型AIロボットカー実装東京電機大学 M1 長野紘士朗東京電機大学 B4 池田柳之介京都大学

目次 (Table of Contents) 1. 問題設定 2. 手法 3. 実験結果

問題設定 - 私たちは深層強化学習を利用して、小型AIロボットカーに走行を学習させることを目指しました。 - 実装する上で、シミュレータ環境と実環境の2通りの実験を行いました Jetbot (Waveshare社) Donkey Car

シミュレータ環境

デモ

手法・SAC自体について観測するStateには画像から得られる物のみを用いている. 学習コードにはエントロピー最適化も含めて実装. ※細かいパラメータはScrapbox上のリンクからコードを見てください.

手法・SAC いくつか環境に工夫をしている 1. 報酬関数の変更 2. 環境から観測された画像(State)に対するVAEによる事前処理 3. 環境のReset時に一定間隔の間,ランダムな行動を入力する事で初期状態に変化を与えている

手法・VAEによる事前処理左の様な入力画像からVAEによって情報を32次元に圧縮している. 元画像復元画像

手法・SAC Agentにも工夫をしている 1. 各stepにおいて確率ε(0.0 ≦ε< 1.0)でランダムに行動する 2. 環境からの直前n枚のフレームをVAEで圧縮したベクトルを状態とする. εとnを変化させる事による性能の変化を考察した.

手法・実験 εとnを変化させる事で生まれる性能の変化を考察した. 1. ε = 0.0, n = 1

実験結果実験2 (ε = 0.05, n = 1)との比較・実験2は実験1と比較して報酬が低下.

実験結果実験3 (ε = f(step) = 50 / (1000 +

実験結果実験4 (ε = 0.0, n = 3)との比較・実験4は実験1と比較して報酬が大幅に上昇.

実環境

実験結果（VAE） VAEを利用して、カメラからの撮影画像を変換 - データセットに撮影画像を約3000枚利用 - VAEで撮影画像の特徴抽出データセット画像の一部抜粋

参考記事・サイト • Jetson Nanoで動く深層強化学習を使ったラジコン向け自動運転ソフトウェアの紹介 • Learning_RacerをWaveshare製Jetbotで試した。 • Donkey Carを組み立てる前にシミュレーターで楽しんでみる