DeepRacer cup本戦 ~30秒の切り方~

DeepRacer cup 本戦のコツ ~30秒の切り方~ chiaoi

自己紹介

結果 29.522 [s]

レースゲームのコツ最速ラインを知ること

最速ライン最速ラインを知ること → ドリフトをした方が速い？ → インコースを着いた方が速い？ → 大体直線だと思ってまっすぐ進んだ方が速い？ →
車のスペックは？

自分なりの最速ライン単調なコース - なるべく直線だと思って走りたい - 直線のうちは速度をなるべく上げたい

気づきほとんど全てが左カーブ

左カーブを手厚く Action Space をほとんど左カーブに

方針①：完走できるモデルから改良する最初から速さを重視する → コースアウトが頻発する → 完走報酬を得る機会が少ない → 「完走」がいい行動として学習されない完走することを重視する →
最初の学習で「完走」がいい行動として学べる → そこから改良していけば、「完走」をしながら　徐々に速く改良できる Curriculum learning (Bengio et al., ICML 2009)

方針②：価値観の軸をぶらさない継続学習で方針を変える → 学習済みの行動が否定される → 学習済みである意味がなくなる → 収束したときには学習済みである意味がなくなる → 方針を大きく変えるときは最初から学習したほうが良い
Proximal Policy Optimization Algorithms (Schulman et al. 2017)

方針③：なるべく直進なるべく直進をしたい → 迷ったら直進を優先する → 小さなうねりや微妙な曲がりを「直線」と判定する → コースの先読みをして全体のコースの角度を判定し　て車体の向きがそれに沿うようにする

方針④：直線では最高速度を保つ直線が多めのコース → 直線はスピードが出しやすいので最高速度をなるべ　く保ちたい

方針⑤：その他完走ボーナス目標ステップ

方針⑥：2回目の学習はさらに攻める - なるべく直進をさらに先のカーブまで把握する - カーブ強度で場合分けをして速度調整を細かく - 直線での報酬をさらに上げる - ステップ数をさらに短くする

方針⑦：カーブでは常に左を走ることを目標に左カーブが多い → カーブでは常に左側にいる方がインを曲がれる

実装方法これまでの方針を全てまとめて、 Claude に任せる

まとめ実装自体は、LLMで可能になった。 → 実装をする前の「考察」の部分は、LLMよりも人間がやった方が良かった。 → 「考察」も、どのラインを走ったかを図示するコードや速度のグラフを表　　示するコードなどを、LLMに作らせることで捗った。

DeepRacer cup本戦 ~30秒の切り方~

DeepRacer cup本戦 ~30秒の切り方~

chiaoi

More Decks by chiaoi

Featured

Transcript

DeepRacer cup 本戦のコツ ~30秒の切り方~ chiaoi

自己紹介

結果 29.522 [s]

レースゲームのコツ最速ラインを知ること

最速ライン最速ラインを知ること → ドリフトをした方が速い？ → インコースを着いた方が速い？ → 大体直線だと思ってまっすぐ進んだ方が速い？ →

自分なりの最速ライン単調なコース - なるべく直線だと思って走りたい - 直線のうちは速度をなるべく上げたい

気づきほとんど全てが左カーブ

左カーブを手厚く Action Space をほとんど左カーブに

方針①：完走できるモデルから改良する最初から速さを重視する → コースアウトが頻発する → 完走報酬を得る機会が少ない → 「完走」がいい行動として学習されない完走することを重視する →

方針③：なるべく直進なるべく直進をしたい → 迷ったら直進を優先する → 小さなうねりや微妙な曲がりを「直線」と判定する → コースの先読みをして全体のコースの角度を判定し　て車体の向きがそれに沿うようにする

方針④：直線では最高速度を保つ直線が多めのコース → 直線はスピードが出しやすいので最高速度をなるべ　く保ちたい

方針⑤：その他完走ボーナス目標ステップ

方針⑥：2回目の学習はさらに攻める - なるべく直進をさらに先のカーブまで把握する - カーブ強度で場合分けをして速度調整を細かく - 直線での報酬をさらに上げる - ステップ数をさらに短くする

方針⑦：カーブでは常に左を走ることを目標に左カーブが多い → カーブでは常に左側にいる方がインを曲がれる

実装方法これまでの方針を全てまとめて、 Claude に任せる