Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文解説 DTPP: Differentiable Joint Conditional Pre...

koharite
November 10, 2024

論文解説 DTPP: Differentiable Joint Conditional Prediction and Cost Evaluationfor Tree Policy Planning in Autonomous Driving

Presentation for explaining the paper "DTPP: Differentiable Joint Conditional Prediction and Cost Evaluationfor Tree Policy Planning in Autonomous Driving" presented from Nanyang Technological University, NVIDIA and Stanford University.
In recent years, DNN models have achieved fairly high recognition accuracy in camera images for autonomous driving. However, downstream vehicle control seems to be a major issue.
This paper proposes a method to estimate the states of ego vehicle and nearby vehicles in a tree structure, and use Transformer to find optimal trajectory planning from multiple possible future states of ego and other vehicles.

koharite

November 10, 2024
Tweet

More Decks by koharite

Other Decks in Research

Transcript

  1. 論文解説 DTPP: Differentiable Joint Conditional Prediction and Cost Evaluation for

    Tree Policy Planning in Autonomous Driving Takehiro Matsuda
  2. 2 論文情報 タイトル: DTPP: Differentiable Joint Conditional Prediction and Cost

    Evaluation for Tree Policy Planning in Autonomous Driving • 論文: https://arxiv.org/abs/2310.05885 • コード: https://github.com/MCZhi/DTPP • 投稿学会: ICRA2024 • 著者: Zhiyu Huang, Peter Karkus, Boris Ivanovic, Yuxiao Chen, Marco Pavone, and Chen Lv • 所属:Nanyang Technological University, NVIDIA, Stanford University 選んだ理由: 自動運転でカメラ画像などにおける認識精度はDNNモデルによりかなり高い精度が達成 されている。 後段の車両制御が課題として大きくなっているように思われる。 そのための情報として重要性が高まるprediction, planningの手法を知る。
  3. 3 Features of the proposed method • Plannerは自車、他車の状態・選択により分岐する木構造 をとり、predictionとcost modelsをjoint

    trainingする。 • query-centricなTransformer modelにより、効率的なego- conditionedなmotion predictionを実現する。
  4. 4 Personally recalled information OpenAIのChat GPT-o1の開発者(Noam Brown, Hunter Lightman, Ilge

    Akkaya)の対談 条件(現在の状況)から自分と相手(周囲)の将来の取りうる行動を作り、よりよい手(path)を探索していく アプローチは有効!? https://note.com/it_navi/n/nd444e5fef893 OpenAI o1の開発者がo1の仕組みなどについて語るインタビュー(日本語訳と感想) 私はより多くの選択肢を検討し、より長く考えることで利益が得られる種類の問題だと考えています。 生成器と検証器のギャップと呼んでもいいかもしれません。 正しい解を生成するのは非常に難しいけれど、正解を認識するのははるかに簡単だという。 過去の多くのAIのブレークスルーを振り返ってみると、AlphaGoが典型的な例だと思いま すが、ボットについて本当に注目すべきだったのは、当時はあまり評価されていませんで したが、行動を起こす前に非常に長い時間考えていたということです。1手を打つのに30 秒かかっていて、即座に行動させようとすると、実際にはトップの人間より明らかに劣っ ていました。つまり、その余分な思考時間から大きな利益を得ていたのは明らかです。問 題は、その余分な思考時間に行っていたのがモンテカルロ木探索で、これは碁にはうまく 機能する特定の形式の推論です 自動運転のPlanningでは何十秒も止まって考えられないので、効率的な探索とCost設計が必要になる。 引用
  5. 7 Environmental Transformer encoder 自車と近傍10個(N a )の他車の過去からのtrajectoryと50個(N m )のmap element(lanesやcrosswalk)を

    inputとする。 ΔT=0.1sで20step分の時間の軌跡が与えられる。 trajectoryはLSTM networkによりエンコードされ、map elementはMLP networkでエンコードされる。 エンコードされたvectorはconcatされ、[1 + Na + Nm, D]のサイズとなる。D=256 scene elements内の相互関係を捉える ため3層のself-attention Transformer encoderをかける。
  6. 8 Transformer decoder 最初にMLPを通して、ego trajectory treeをencodeし てego trajectory tree tensorを得る。

    maxのbranch sizeはM=30, maxのtime stepはT=8 s 前ページ 2つのcross-attention Transformer modulesにより 周囲環境とego planの情報がまとめられる。 query inputとしてAgent EmbeddingとTime EmbeddingとEgo plan embeddingが与えられる。
  7. 9 Causal masked attention 他のブランチの情報や未来の情報を得ないようにMaskがかかる。 This masked attention mechanism can

    efficiently parallelize the predictions for all branches and timesteps in the scenario tree, while also preserving causality.
  8. 10 Cost Function s(t) : ego state at time t

    p(t) : ego-conditional predicted state of other agents ωj : learned context-aware weights The feature vectors fj , j = [e, i, c] consist of ego features fe, learned interaction features fi, and collision features fc. The weights comprise 10 dimensions, encompassing ego (4), interaction (5), and collision (1) features.
  9. 11 Feature Vectors of cost function normalized ego jerk, acceleration,

    speed, and lateral acceleration. 学習された重み付けをされ、自車ドライ ブの快適さと進行のバランスがとられる。 interaction features MLPを通して、自車と他車の相対的な属性 (相対位置、heading, 速度)を高次特徴 (256)にして、MaxPool後に、別のMLPで 低次(5)のlatent featuresにdecodeする。 ego features fe collision features collision featureは明示的な安全性を得るため に自車と他車の距離をGaussian radial basis functionにかけたものをhandcrafted function として用意。 必要であれば、他の指標を追加することもできる。 Lane keeping, Route Following, …
  10. 14 Total Loss α = 0.1is the weight assigned to

    the IRL loss; βj is the weight associated with stage j. we assign a higher weight to the loss in the first stage, with β1 = 1.0 and β2 = 0.2.
  11. 17 nuPlan : dataset and environment for train and evaluation

    We provide a large-scale dataset with 1200h of human driving data from 4 cities across the US and Asia with widely varying traffic patterns (Boston, Pittsburgh, Las Vegas and Singapore). Evaluation Type Ego Simulation Agent Simulation Log replay Open-loop Open-loop Simulation (non reactive agents) Closed-loop Open-loop Simulation (reactive agents) Closed-loop Closed-loop https://www.nuscenes.org/nuplan
  12. 18 Evaluation metrics nuPlan simulator average planning score safety, efficiency,

    and comfort for CL-NR and CL-R Similarity to human driving for OL Prediction metrics Planning metrics Average and Final Displacement Error (ADE and FDE) for no-ego agents conditioned on the selected ego trajectory plan. OL (Open Loop) CL-NR (Closed Loop with Non Reactive agents) CL-R (Closed Loop with Reactive agents) https://nuplan- devkit.readthedocs.io/en/latest/metrics_description.html
  13. 19 Implementation details The entire planning horizon spans T =

    8 seconds in Nl = 2 stages with maximum M = 30 branches After obtaining the prediction results, we retain only the top 5 nodes and proceed to expand each node with 6 target states for the second stage The model is trained using an NVIDIA RTX 3080 GPU. The batch size is 16 and the total number of training epochs is 20. We use an AdamW optimizer, and the learning rate is initialized at 1e-4 and reduced 50% every 2 epochs after the 10th epoch.
  14. 20 Results : Closed-loop planning R : reactive agents NR:

    non-reactive agents PDM : top-performing planning method on the leaderboard but is highly optimized for the nuPlan challenge metrics. base lineとなるTPPより良い rule-based leaning-based policies
  15. 23 Comparison of prediction models MODEL COMPARISON FOR PREDICTION PERFORMANCE

    MODEL COMPARISON FOR PLANNING PERFORMANCE No ego-conditioned model (non-EC) :information regarding the future trajectories of the ego vehicle is not incorporated into the model. Early fusion model (EF-EC): the ego vehicle’s future information is incorporated into the encoder part of the model and thus the model is queried iteratively for different plans. predictionのずれは少し出るが、 planningの精度は高い
  16. 24 Runtime analysis with different prediction models Our proposed ego-conditioned

    model can predict the outcomes of different branches in parallel, leading to significant enhancements in planning performance while incurring only a marginal increase in computation time than the non-EC model.
  17. 26 Ablation Studies Influence of cost function learning the learned

    latent interaction feature plays a pivotal role in our model, ensuring the superior performance of our method in planning. The inclusion of collision potential in training, as well as the use of context-aware cost weights, proves advantageous for enhancing the final closed-loop planning performance.
  18. 27 Ablation Studies Influence of tree-structured planning However, our multi-stage

    (tree-based) planning approach significantly outperforms the single-stage approach in closed-loop planning, whether the planning horizon is short (3 s) or long (8 s). single-stage planners or models have better prediction accuracy.