Slide 1

Slide 1 text

論文解説 DTPP: Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planning in Autonomous Driving Takehiro Matsuda

Slide 2

Slide 2 text

2 論文情報 タイトル: DTPP: Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planning in Autonomous Driving • 論文: https://arxiv.org/abs/2310.05885 • コード: https://github.com/MCZhi/DTPP • 投稿学会: ICRA2024 • 著者: Zhiyu Huang, Peter Karkus, Boris Ivanovic, Yuxiao Chen, Marco Pavone, and Chen Lv • 所属:Nanyang Technological University, NVIDIA, Stanford University 選んだ理由: 自動運転でカメラ画像などにおける認識精度はDNNモデルによりかなり高い精度が達成 されている。 後段の車両制御が課題として大きくなっているように思われる。 そのための情報として重要性が高まるprediction, planningの手法を知る。

Slide 3

Slide 3 text

3 Features of the proposed method • Plannerは自車、他車の状態・選択により分岐する木構造 をとり、predictionとcost modelsをjoint trainingする。 • query-centricなTransformer modelにより、効率的なego- conditionedなmotion predictionを実現する。

Slide 4

Slide 4 text

4 Personally recalled information OpenAIのChat GPT-o1の開発者(Noam Brown, Hunter Lightman, Ilge Akkaya)の対談 条件(現在の状況)から自分と相手(周囲)の将来の取りうる行動を作り、よりよい手(path)を探索していく アプローチは有効!? https://note.com/it_navi/n/nd444e5fef893 OpenAI o1の開発者がo1の仕組みなどについて語るインタビュー(日本語訳と感想) 私はより多くの選択肢を検討し、より長く考えることで利益が得られる種類の問題だと考えています。 生成器と検証器のギャップと呼んでもいいかもしれません。 正しい解を生成するのは非常に難しいけれど、正解を認識するのははるかに簡単だという。 過去の多くのAIのブレークスルーを振り返ってみると、AlphaGoが典型的な例だと思いま すが、ボットについて本当に注目すべきだったのは、当時はあまり評価されていませんで したが、行動を起こす前に非常に長い時間考えていたということです。1手を打つのに30 秒かかっていて、即座に行動させようとすると、実際にはトップの人間より明らかに劣っ ていました。つまり、その余分な思考時間から大きな利益を得ていたのは明らかです。問 題は、その余分な思考時間に行っていたのがモンテカルロ木探索で、これは碁にはうまく 機能する特定の形式の推論です 自動運転のPlanningでは何十秒も止まって考えられないので、効率的な探索とCost設計が必要になる。 引用

Slide 5

Slide 5 text

5 Overview framework 自車のとりうる軌跡のTreeを作成 他車の動きを含めたScenario Treeを作成 学習されたCost evaluationに基づき最もよいPlanを採用

Slide 6

Slide 6 text

6 Proposed DTPP framework f p f e f c

Slide 7

Slide 7 text

7 Environmental Transformer encoder 自車と近傍10個(N a )の他車の過去からのtrajectoryと50個(N m )のmap element(lanesやcrosswalk)を inputとする。 ΔT=0.1sで20step分の時間の軌跡が与えられる。 trajectoryはLSTM networkによりエンコードされ、map elementはMLP networkでエンコードされる。 エンコードされたvectorはconcatされ、[1 + Na + Nm, D]のサイズとなる。D=256 scene elements内の相互関係を捉える ため3層のself-attention Transformer encoderをかける。

Slide 8

Slide 8 text

8 Transformer decoder 最初にMLPを通して、ego trajectory treeをencodeし てego trajectory tree tensorを得る。 maxのbranch sizeはM=30, maxのtime stepはT=8 s 前ページ 2つのcross-attention Transformer modulesにより 周囲環境とego planの情報がまとめられる。 query inputとしてAgent EmbeddingとTime EmbeddingとEgo plan embeddingが与えられる。

Slide 9

Slide 9 text

9 Causal masked attention 他のブランチの情報や未来の情報を得ないようにMaskがかかる。 This masked attention mechanism can efficiently parallelize the predictions for all branches and timesteps in the scenario tree, while also preserving causality.

Slide 10

Slide 10 text

10 Cost Function s(t) : ego state at time t p(t) : ego-conditional predicted state of other agents ωj : learned context-aware weights The feature vectors fj , j = [e, i, c] consist of ego features fe, learned interaction features fi, and collision features fc. The weights comprise 10 dimensions, encompassing ego (4), interaction (5), and collision (1) features.

Slide 11

Slide 11 text

11 Feature Vectors of cost function normalized ego jerk, acceleration, speed, and lateral acceleration. 学習された重み付けをされ、自車ドライ ブの快適さと進行のバランスがとられる。 interaction features MLPを通して、自車と他車の相対的な属性 (相対位置、heading, 速度)を高次特徴 (256)にして、MaxPool後に、別のMLPで 低次(5)のlatent featuresにdecodeする。 ego features fe collision features collision featureは明示的な安全性を得るため に自車と他車の距離をGaussian radial basis functionにかけたものをhandcrafted function として用意。 必要であれば、他の指標を追加することもできる。 Lane keeping, Route Following, …

Slide 12

Slide 12 text

12 Model Training 時間間隔 他車の数 conditional prediction taskの学習において、自車軌跡がGTと一番マッチするもの を選択し、周囲の他車 p(i, t)について、推測された軌跡とGTのL1 lossを算出する。

Slide 13

Slide 13 text

13 Maximum entropy IRL Cost計算としてMaximum entropy IRL(inverse reinforcement learning)を採用する。

Slide 14

Slide 14 text

14 Total Loss α = 0.1is the weight assigned to the IRL loss; βj is the weight associated with stage j. we assign a higher weight to the loss in the first stage, with β1 = 1.0 and β2 = 0.2.

Slide 15

Slide 15 text

15 Experiments

Slide 16

Slide 16 text

16 Experiments dataset nuPlanのdatasetとそのsimulatorを使用する。 10のdynamic scenario typesを選択した。 学習において合計100kのシナリオを抽出した。各シナリオのfuture time horizonは8秒。 Testにおいて10のscenario typesそれぞれで20のシナリオを抽出し、 200シナリオとした。各シナリオは15秒。

Slide 17

Slide 17 text

17 nuPlan : dataset and environment for train and evaluation We provide a large-scale dataset with 1200h of human driving data from 4 cities across the US and Asia with widely varying traffic patterns (Boston, Pittsburgh, Las Vegas and Singapore). Evaluation Type Ego Simulation Agent Simulation Log replay Open-loop Open-loop Simulation (non reactive agents) Closed-loop Open-loop Simulation (reactive agents) Closed-loop Closed-loop https://www.nuscenes.org/nuplan

Slide 18

Slide 18 text

18 Evaluation metrics nuPlan simulator average planning score safety, efficiency, and comfort for CL-NR and CL-R Similarity to human driving for OL Prediction metrics Planning metrics Average and Final Displacement Error (ADE and FDE) for no-ego agents conditioned on the selected ego trajectory plan. OL (Open Loop) CL-NR (Closed Loop with Non Reactive agents) CL-R (Closed Loop with Reactive agents) https://nuplan- devkit.readthedocs.io/en/latest/metrics_description.html

Slide 19

Slide 19 text

19 Implementation details The entire planning horizon spans T = 8 seconds in Nl = 2 stages with maximum M = 30 branches After obtaining the prediction results, we retain only the top 5 nodes and proceed to expand each node with 6 target states for the second stage The model is trained using an NVIDIA RTX 3080 GPU. The batch size is 16 and the total number of training epochs is 20. We use an AdamW optimizer, and the learning rate is initialized at 1e-4 and reduced 50% every 2 epochs after the 10th epoch.

Slide 20

Slide 20 text

20 Results : Closed-loop planning R : reactive agents NR: non-reactive agents PDM : top-performing planning method on the leaderboard but is highly optimized for the nuPlan challenge metrics. base lineとなるTPPより良い rule-based leaning-based policies

Slide 21

Slide 21 text

21 Comparison with TPP TPPと比べてlearnable cost functionとnode pruningの導入が大きな違い。 cost functionが正しい行動指針とtree expansionを促す。 node pruningで実行時間を担保。

Slide 22

Slide 22 text

22 Qualitative Results 他車が速く進んで来るときは 自車は減速する。 自車が主要道路に合流しようという状況 他車が減速するときは自車は進んで 隣のレーンに入る。 Given different plans for the ego vehicle, our model predicts distinct and reasonable responses from interacting agents.

Slide 23

Slide 23 text

23 Comparison of prediction models MODEL COMPARISON FOR PREDICTION PERFORMANCE MODEL COMPARISON FOR PLANNING PERFORMANCE No ego-conditioned model (non-EC) :information regarding the future trajectories of the ego vehicle is not incorporated into the model. Early fusion model (EF-EC): the ego vehicle’s future information is incorporated into the encoder part of the model and thus the model is queried iteratively for different plans. predictionのずれは少し出るが、 planningの精度は高い

Slide 24

Slide 24 text

24 Runtime analysis with different prediction models Our proposed ego-conditioned model can predict the outcomes of different branches in parallel, leading to significant enhancements in planning performance while incurring only a marginal increase in computation time than the non-EC model.

Slide 25

Slide 25 text

25 Ablation Studies

Slide 26

Slide 26 text

26 Ablation Studies Influence of cost function learning the learned latent interaction feature plays a pivotal role in our model, ensuring the superior performance of our method in planning. The inclusion of collision potential in training, as well as the use of context-aware cost weights, proves advantageous for enhancing the final closed-loop planning performance.

Slide 27

Slide 27 text

27 Ablation Studies Influence of tree-structured planning However, our multi-stage (tree-based) planning approach significantly outperforms the single-stage approach in closed-loop planning, whether the planning horizon is short (3 s) or long (8 s). single-stage planners or models have better prediction accuracy.