AWS DeepRacerで最適な行動・報酬関数を得る為の試行錯誤

AWS DeepRacerで最適な⾏動・報酬関数を得る為の試⾏錯誤クラスメソッド株式会社データインテグレーション部 2019.5.16 DeepRacer同好会第⼆回オフライン勉強会@⼤阪貞松政史
1

2 本⽇のハッシュタグ #AWSDeepRacerJP

3 ⾃⼰紹介貞松政史 (サダマツマサシ) @sady_nitro データインテグレーション部 (DI部) 開発チーム
岡⼭オフィス勤務データ分析基盤開発某コーヒー関連 SageMaker Lambda ⽒名所属近況好きなAWS サービス

4 本セッションから得てほしいこと DeepRacer 楽しい︕

5 本セッションから得てほしいこと DeepRacerのAction設定どうしたら良い︖ DeepRacerの報酬関数設計どうしたら良い︖ この⼿の悩みを解決する⼿がかりに

6 本セッションで話さないこと強化学習の⼿法(アルゴリズム)についての詳細 DeepRacerの実機を⽤いた開発

7 お品書き DeepRacerコンソールを⽤いた開発 DeepRacerのAction設定 DeepRacerの報酬関数設計 1 2 3

8 DeepRacerコンソールを⽤いた開発

9 DeepRacerコンソール

10 DeepRacerに対する強化学習の環境 State (状態) DeepRacerのカメラ画像 Action (⾏動) 状態に対するエージェント (DeepRacer)の動作 Reward
(報酬) 報酬関数で設定した動作の結果に対する報酬値

11 DeepRacerコンソールを⽤いた開発の流れ必要なAWSリソースを作成学習モデルを作成・学習実⾏学習済みモデルの評価・デプロイ

12 必要なリソースを作成 ※ S3やVPCの課⾦も発⽣しているので注意︕

13 モデルを学習モデル名・概要⼊⼒学習対象のコース選択⾏動パターンの設定報酬関数の実装ハイパーパラメータの設定学習時間の設定

14 トレーニングの実⾏時間毎の累積報酬 DeepRacerのカメラ画像 (シミュレーター)

15 学習済みモデルを評価学習済みモデルで3〜5回トライアルを⾏う ⁻ Time : 1回のトライアルでかかった時間 ⁻ Trial result
: 100％ならコース1周完⾛

16 DeepRacer League Virtual Circuitに参加学習済みのモデルを Submitしてレースに参加

17 参考ブログエントリーその1 https://dev.classmethod.jp/cloud/aws/aws-deepracer-virtual-circuit-join/

18 DeepRacerのAction設定

19 DeepRacerのAction設定⽅法 l ハンドルの操作⾓ l スピード(m/s) →最⼤値と⾏動数(刻み幅) で設定

20 設定されたAction ハンドルの操作⾓とスピードの掛け合わせで⾏動パターンが設定される

21 Actionを設定する上での注意点⾏動パターンを増やし過ぎると学習に時間が掛かる学習ジョブのClone時は元のActionを変更できないコースの特性に合わせて設定が必要報酬関数の設計とトータルで考える必要がある

22 DeepRacerの報酬関数設定

23 報酬関数を作成するエージェント(DeepRacer) から得られる情報を元に⾏動に対する報酬を設定する https://docs.aws.amazon.com/ja_jp/ deepracer/latest/developerguide/de epracer-reward-function-input.html

24 報酬関数の例パターン1 センターラインに沿って⾛⾏させる

25 報酬関数の例パターン2 早いスピードで⾛⾏させる ※Action設定でスピードのパターンが１種類のみの場合は無意味

26 報酬関数の例パターン3 急ハンドルやジグザグ⾛⾏を抑制する

27 参考ブログエントリーその2 https://dev.classmethod.jp/machine-learning/aws-deepracer-pattern-of- reward-function/

28 報酬関数を実装する際のポイントコースの特徴を捉える適切なActionの設定を⾒極めるまずは1周完⾛できるモデルになるように報酬関数を設計する

29 コースの特徴を捉えるセンターラインに沿うと上⼿くいきそうキツめのカーブがいくつかある（スピードの調整が必要︖） re:Invent 2018

30 コースの特徴を捉える London Loop センターラインにびったり沿うと無駄が多そう緩いカーブの連続で構成されている（速いスピードを維持するのが良さそう︖）

31 適切なAction設定を⾒極めるコースの特徴や実際の動作・ログを⾒て Actionを設定する例) スピードはトップスピード(5m/s)のみでOK ハンドル操作は-30°〜30°まで取らないと曲がりきれない etc…

32 まずは1周完⾛完⾛できなければ記録なしになるタイムを縮める以前の問題 all_wheels_on_track（コースアウト判定）や distance_from_center（中央線からの距離）など

33 さらなる⼯夫取得したパラメータにする判定を厳しくする（もしくは緩くする）条件を組み合わせるハイパーパラメータを調整する（最後の⼿段） https://github.com/Unity-Technologies/ml- agents/blob/master/docs/best-practices-ppo.md

34 実際にモデルの学習を繰り返してわかったこと London loopをひたすら回した結果 • センターラインにびったり張り付いても速くない • 意外とフルスロットルでいける • 報酬関数は複雑なほど良いわけでは無い
• 最終的にカリッカリにタイム短縮を狙うならstepsや progressの考慮が必要…︖ • さらにカリッカリにチューニングする場合はハイパーパラメータの調整も⼊ってくる…︖

35 デモ的なもの

36 ⽣まれたてのDeepRacer

37 デフォルト設定で学習

38 デフォルト設定 vs ⾏動・報酬関数を調整

39 まとめ

40 まとめ DeepRacerコンソールを⽤いた開発⾏動パターンの設定⽅法と注意点報酬関数の設計実装パターンの例実装する際のポイント実践してわかったこと

41 DeepRacer 楽しい︕

AWS DeepRacerで最適な行動・報酬関数を得る為の試行錯誤

AWS DeepRacerで最適な行動・報酬関数を得る為の試行錯誤

More Decks by 貞松政史

Other Decks in Technology

Featured

Transcript