Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AWS DeepRacerで楽しく遊ぶためのTips 20連発!

AWS DeepRacerで楽しく遊ぶためのTips 20連発!

甲斐 甲

June 15, 2019
Tweet

More Decks by 甲斐 甲

Other Decks in Technology

Transcript

  1. アイレット株式会社 ( クラウドパック )
 事業戦略本部 技術開発セクション 大阪グループ
 AI、ブロックチェーンの調査・検証・開発 など
 システムエンジニア


    Python TypeScript C# Go Ruby etc...
 バックグラウンド
 小さなSESでエンジニア ( 4年 )
 フリーランスでエンジニア ( 8年 )
 事業会社でシステム部マネージャー ( 7年 )
  プレイングマネージャ 兼 サーバレス大好きっ子
 38歳、既婚、子供 3人 ( 高2、中2、小3 )
 自己紹介

  2. reward_functionでログ出力できる
 Amazon CloudWatchのログから確認でき ます。
 CloudWatch > ロググループ > /aws/robomaker/SimulationJobs >

    sim-xxxxxxxxxxxx/2019-(略)/SimulationA pplicationLogs
 
 sim-xxxはRoboMakerのIDで、DeepRacer コンソールだと確認できないので、実行日 時からあたりをつけます。(もしかしたらよい方 法があるのかも?)

  3. 過保護にならずに見守ろう
 https://aws.amazon.com/jp/blogs/news/racing-tips-from-aws-deepracer-league-winners-in-stockholm-and-aws -deepracer-tv/
 >第 1 位は 8.73 秒のタイムをたたき出し た、Jouini Luoma

    でした。彼は Cybercom でデータサイエンティストおよび AWS DeepRacer レーサー
 として勤務しています。
 >彼のアドバイスは何かというと、 「調整 はシンプルにとどめ、 過度に 複雑にしないこと」です。

  4. - モデルをトレーニングすることは、想定される報酬を最大化する関数を見つける、または学習 すること
 - 最適化されたモデルによって車両が最初から最後までトラックで走行するためにどのようなア クション (速度とステアリング角度のペア) を取れるかを規定
 - 高速なトレーニングパフォーマンスのための近位ポリシー最適化

    (PPO) アルゴリズムのみが サポート
 - トレーニング強化学習モデルは反復プロセス
 - 一度にある環境でのエージェントのすべての重要な動作をカバーする報酬関数を定義するの は困難
 - 賢明な方法は、単純な報酬関数から始めて、段階的に強化していく方法
 強化学習の特性を考えて報酬設計しよう
 https://docs.aws.amazon.com/ja_jp/deepracer/latest/developerguide/create-deepracer-project.html 

  5. Unity Machine Learning Agentsツールキッ ト (ML-Agents) にある
 ドキュメントが参考になります。
 
 報酬設計のポイント


    https://github.com/Unity-Technologies/ml-agents/blob/master/docs/Learning-Environment-Best-Practices.md

  6. - 学習の安定化のため与える報酬の大きさは1以下にすべき
 - 目的とする振る舞いを形成するためには負の値の報酬よりも正の値を与えた方が良い
 - 移動を行うタスクにおいては, 典型的に+0.1の小さい報酬を目的地に前進した場合に与える
 - エージェントがタスクを早く終わらせたい場合,タスクが完了するまで-0.05の報酬をペナルティ として与え続けるのが良い.この報酬設定を行う場合、エピソードの終了とタスクの完了は同時

    に起こるべき
 - 大きすぎる負の値の報酬はエージェントがより良い報酬を得るために負の報酬を生じる行動 のようなことを行わないようになることもある。エージェントが負の報酬に対して過敏になってし まう (何も行動しない方がいいと学習してしまう感じ)
 
 報酬設計のポイント
 https://qiita.com/Alt_Shift_N/items/2c37fbb26d739b7f3046

  7. 仮想サーキットのランキングで上位を狙う ならば、スピードはMAXのみで良かったで す。(05/31まで)
 6月開催のレース (Kumo) からスピード上 限がUPしました。(5 → 8 m/s)


    
 
 スピード最速でいけるものなのか現在お 試し中です。
 
 https://aws.amazon.com/jp/blogs/machine-learning/aws-deepracer-league-the-june-race-gets-underway-as-th e-first-virtual-circuit-champion-is-crowned/ 
 アクション設定でスピードを最速にしよう?