$30 off During Our Annual Pro Sale. View Details »

Teslaにおけるコンピュータビジョン技術の調査 (2)

Teslaにおけるコンピュータビジョン技術の調査 (2)

9/30に開催されたTesla AI Day 2022から、主にコンピュータビジョン技術に関する部分をまとめた資料です。Mobility Technologiesの社内勉強会で使用したものです。

Kazuyuki Miyazawa

November 24, 2022
Tweet

More Decks by Kazuyuki Miyazawa

Other Decks in Technology

Transcript

  1. Mobility Technologies Co., Ltd. Teslaにおけるコンピュータビジョン技術の調査 (2) - Tesla AI Day

    2022 - 2022/11/24 Mobility Technologies 宮澤 一之
  2. Mobility Technologies Co., Ltd. 2 自己紹介 宮澤 一之 株式会社Mobility Technologies

    AI技術開発部 AI研究開発第二グループ グループリーダー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 @kzykmyzw
  3. Mobility Technologies Co., Ltd. ▪ TeslaにおけるAI技術開発について発表するイベント ▪ Teslaの技術発表イベントは毎年名前を変えていたがAI Dayは2年連続 ▪

    2022 Tesla AI Day ▪ 2021 Tesla AI Day ▪ 2020 Tesla Battery Day ▪ 2019 Tesla Autonomy Day ▪ AI人材の採用が主な目的であり、非常に専門的な発表がされることが特徴 Tesla AI Dayとは? 3
  4. Mobility Technologies Co., Ltd. Tesla AI Dayとは? 4

  5. Mobility Technologies Co., Ltd. コンピュータビジョン技術に関するまとめ(〜2021) 5 https://www.slideshare.net/KazuyukiMiyazawa/tesla-250957016

  6. Mobility Technologies Co., Ltd. One more thing... in 2021 6

    https://www.youtube.com/watch?v=j0z4FweCy4M&t=7594s ヒューマノイドロボットの開発が発表され、ロボットのコスプレをした人が踊る演出に聴衆が困惑
  7. Mobility Technologies Co., Ltd. Optimus in 2022 7 https://www.youtube.com/watch?v=ODSJsviD_SU&t=1052s 半年で試作機を完成させ、二足歩行をデモ

    Teslaに搭載されているのと 同じFSDコンピュータ
  8. Mobility Technologies Co., Ltd. Optimus in 2022 8 ▪ イベントでは約1時間を費やしOptimusのハードウェアやソフトウェアを解説

    ▪ これまでにTeslaの車両向けに開発してきた技術の多くをほぼそのまま流用 ▪ コンピュータビジョン技術ではあまり新しい点がないため本資料では割愛 https://www.youtube.com/watch?v=ODSJsviD_SU&t=1182s
  9. Mobility Technologies Co., Ltd. ▪ 2021年は2000だったFSDのカスタマー数が2022年は16万へ ▪ 1年で約75000個のNNを学習し、281個をデプロイ ▪ プルリク数は18000を超える

    ここ1年の Full Self Driving (Beta) 開発 9 7~8分に1個のペースでモデルを作っている
  10. Mobility Technologies Co., Ltd. FSDの構成要素 10 Training Data Auto Labeling

    Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲
  11. Mobility Technologies Co., Ltd. FSDの構成要素 11 Training Data Auto Labeling

    Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲
  12. Mobility Technologies Co., Ltd. ▪ 空間をグリッドに分割し、グリッドごとに障害物による占有確率を保持 ▪ 占有確率をセンサの観測値とノイズ量を踏まえてベイズ理論により更新 Occupancy Grid

    Map 12 センサ 障害物の存在確率高 障害物の存在確率低
  13. Mobility Technologies Co., Ltd. Tesla車両におけるOccupancy Grid Map 13 https://www.youtube.com/watch?v=ODSJsviD_SU&t=4360s ▪

    8つのカメラで車両周囲の3次元Occupancy Grid Mapを生成 ▪ 各グリッドは占有確率だけでなく車両や歩行者といったセマンティクスも持つ ▪ FSDコンピュータで10ミリ秒ごとに生成し、時間方向のフローも計算
  14. Mobility Technologies Co., Ltd. ネットワーク構成 14 Multicam Query Embedding Rectify

    RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features 12bit/pix
  15. Mobility Technologies Co., Ltd. ネットワーク構成 15 Multicam Query Embedding Rectify

    RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features 各カメラ画像から特徴を抽出 12bit/pix
  16. Mobility Technologies Co., Ltd. ネットワーク構成 16 Multicam Query Embedding Rectify

    RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features マルチカメラの情報をフュージョン 12bit/pix
  17. Mobility Technologies Co., Ltd. ネットワーク構成 17 Multicam Query Embedding Rectify

    RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features 車両の軌跡を使って過去フレームの情報を 現在フレームにフュージョン 12bit/pix
  18. Mobility Technologies Co., Ltd. ネットワーク構成 18 Multicam Query Embedding Rectify

    RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features 特徴量から出力データを生成 MLPに任意座標を 入力し、占有率と セマンティクスを 得る 12bit/pix
  19. Mobility Technologies Co., Ltd. 路面形状の推定 19 https://www.youtube.com/watch?v=ODSJsviD_SU&t=4598s ▪ Occupancy Grid

    Map生成時に路面の3次元形状も推定 ▪ 下り坂などにおいて減速できるよう制御時に利用
  20. Mobility Technologies Co., Ltd. NeRFとの融合 20 https://www.youtube.com/watch?v=ODSJsviD_SU&t=4730s ネットワークから出力されたボリュームデータをNeRFへの入力とする

  21. Mobility Technologies Co., Ltd. FSDの構成要素 21 Training Data Auto Labeling

    Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲
  22. Mobility Technologies Co., Ltd. レーン検出における課題 22 https://www.youtube.com/watch?v=ODSJsviD_SU&t=5165s ▪ 初期においてはインスタントセグメンテーションによりレーンを検出していた ▪

    複雑な道路形状に対してはうまく検出できないという課題があった ▪ 複雑なシーンにおいても一連のレーンを検出し接続関係を知る必要がある
  23. Mobility Technologies Co., Ltd. ネットワーク構成 23 各カメラからの特徴抽出、マルチカメラの フュージョン、時間方向のフュージョンは Occupancy Grid

    Map生成と共通 Lane Guidance Module Navigation Map Autoregressive Decoder Lane Instances Adjacency Matrix
  24. Mobility Technologies Co., Ltd. 地図に含まれる情報を追加で エンコードする • 道路レベルの構造 • ナビルート

    • レーン数・構造 • バスレーンか否か • etc ネットワーク構成 24 Lane Guidance Module Navigation Map Autoregressive Decoder Lane Instances Adjacency Matrix
  25. Mobility Technologies Co., Ltd. レーン構造の理解を画像キャ プショニングの問題と捉え、 言語モデルを使って解く ネットワーク構成 25 Lane

    Guidance Module Navigation Map Autoregressive Decoder Lane Instances Adjacency Matrix
  26. Mobility Technologies Co., Ltd. 予測対象 -レーングラフ- 26 https://www.youtube.com/watch?v=ODSJsviD_SU&t=5334s

  27. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 27 Vector Space Encoding Self

    Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor “Language of Lanes”
  28. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 28 Vector Space Encoding Self

    Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 31 グリッド分割された空間のインデ ックスとしてノード位置を推定 (実際にはcoarse-to-fineに行う) “Language of Lanes”
  29. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 29 Vector Space Encoding Self

    Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 31 “Start” ノードの接続タイプを推定(この 場合は ”Start” で開始位置を表す) “Language of Lanes”
  30. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 30 Vector Space Encoding Self

    Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 31 “Start” ノードの属性を推定(開始位置の ため属性はなし) <null> <null> <null> “Language of Lanes”
  31. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 31 Vector Space Encoding Self

    Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 31 “Start” <null> <null> <null> Embed Embed Embed Embed それぞれの出力をエンコードしたものを 結合したテンソルをレーングラフを表す 言語のWordとする “Language of Lanes”
  32. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 32 Vector Space Encoding Self

    Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 22 同様の処理を繰り返し、次のノード 位置を推定 “Language of Lanes”
  33. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 33 Vector Space Encoding Self

    Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 22 “Continue” 直前のレーンからの「継続」 “Language of Lanes”
  34. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 34 Vector Space Encoding Self

    Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 22 “Continue” <null> <null> Mx1, Mx2, … レーン形状を表すスプライン曲線 の係数を推定 “Language of Lanes”
  35. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 35 Vector Space Encoding Self

    Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 22 “Continue” <null> <null> Mx1, Mx2, … Embed Embed Embed Embed “Language of Lanes”
  36. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 36 Vector Space Encoding Self

    Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 16 “Continue” <null> <null> Mx1, Mx2, … Embed Embed Embed Embed 推定対象エリアの終端に達するまで同様 の処理を繰り返す “Language of Lanes”
  37. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 37 Vector Space Encoding Self

    Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 29 “Fork” 他のノードからの「分岐」 “Language of Lanes”
  38. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 38 Vector Space Encoding Self

    Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 29 “Fork” index: 0 <null> Mx1, Mx2, … 分岐元となるノードのインデックス を推定 “Language of Lanes”
  39. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 39 Vector Space Encoding Self

    Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 29 “Fork” index: 0 <null> Mx1, Mx2, … Embed Embed Embed Embed “Language of Lanes”
  40. Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 40 Vector Space Encoding Self

    Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor “End of sentence” … … … … … … … 全ての推定が終了 “Language of Lanes”
  41. Mobility Technologies Co., Ltd. レーングラフ推定 41 https://www.youtube.com/watch?v=ODSJsviD_SU&t=5585s

  42. Mobility Technologies Co., Ltd. FSDの構成要素 42 Training Data Auto Labeling

    Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲
  43. Mobility Technologies Co., Ltd. いかにしてレーングラフの教師ラベルを作成するか 43 ▪ 手動・自動ラベリングの工夫により、年を追うごとにスループットが100倍に ▪ 現在は複数の走行データで走行空間を再構成することで自動ラベリングを実施

    ▪ 手動で500万時間を要した走行データ1万件のラベリングがクラスタで12時間 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6048s
  44. Mobility Technologies Co., Ltd. 複数の走行データによる走行空間の再構成 44 ▪ 各走行データにおいて、カメラとIMUを使ったVisual-Inertial Odometryにより 車両の高精度な軌跡と路面の3次元形状を推定

    ▪ 同エリアの推定結果を大量に統合することで広範なエリアをもれなく再構成 ▪ 最後に人間が結果を確認・修正 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6146s 車両
  45. Mobility Technologies Co., Ltd. 新たな走行データに対する自動ラベリング 45 ▪ 再構成が完了したエリアでは新たな走行データに対して自動的にレーングラフ をラベリング ▪

    1つの走行データに対する処理時間は約30分(手動ラベリングだと数時間) ▪ 手動ラベリングが難しい悪条件のデータでも正確なラベリングが可能 車両 自動生成されたラベル https://www.youtube.com/watch?v=ODSJsviD_SU&t=6237s
  46. Mobility Technologies Co., Ltd. FSDの構成要素 46 Training Data Auto Labeling

    Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲
  47. Mobility Technologies Co., Ltd. シミュレータによるデータ生成 47 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6517s ▪ レーングラフのラベルデータからシミュレーションによりデータを自動生成 ▪

    サンフランシスコ全域の道路のデータを一人で2週間で生成可能 ▪ レーングラフを編集することでさらにバリエーションを増やせる
  48. Mobility Technologies Co., Ltd. 単一のレーングラフからの多様なシーンの生成 48 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6615s

  49. Mobility Technologies Co., Ltd. FSDの構成要素 49 Training Data Auto Labeling

    Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲
  50. Mobility Technologies Co., Ltd. 認識困難なシーンのマイニング 50 ▪ 例えば曲がり角の駐車車両は右左折のために待機中の車両との区別が難しい ▪ 当該シーンを収集済みデータからマイニングして126件を検証データ、13900

    件を学習データに追加 ▪ エンジニアリングコストをかけることなくデータの追加が可能 駐車車両を曲がり角で 待機中の車両と誤認識 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6827s
  51. Mobility Technologies Co., Ltd. データエンジン 51 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6975s

  52. Mobility Technologies Co., Ltd. FSDの構成要素 52 Training Data Auto Labeling

    Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲
  53. Mobility Technologies Co., Ltd. Dojo Cabinet 53 ▪ 機械学習に特化した自社開発のD1 Chipを使ったクラスタDojoを開発中

    ▪ D1 Chipを25個並べたTraining Tileを6個並べたSystem Trayを2個並べたDojo Cabinetを試作 ▪ 試験で2Mワットの電流を流し、変電所をダウンさせて市から怒られる Training Tile System Tray https://www.youtube.com/watch?v=ODSJsviD_SU&t=7720s
  54. Mobility Technologies Co., Ltd. 性能 54 ▪ BatchNormで必要となるプロセッサ間通信における遅延はGPUの1/30 ▪ NVIDIA

    A100比で自動ラベリングは3.2倍、Occupancyは4.4倍高速化(予定) ▪ 1つのTraining Tileで6GPU BOX分の性能に匹敵し、コストは1GPU BOX以下 https://www.youtube.com/watch?v=ODSJsviD_SU&t=8357s
  55. Mobility Technologies Co., Ltd. ExaPOD 55 ▪ Dojo Cabinetを並べたExaPODで1.1 EFLOPSの計算性能を実現

    ▪ ExaPODは2023年Q1稼働予定で、さらに将来的にExaPODを7つに増やす https://www.youtube.com/watch?v=ODSJsviD_SU&t=8650s
  56. Mobility Technologies Co., Ltd. ▪ 昨年のAI Dayからの差分としてOptimusが目立っていたものの、FSDの性能改 善に向けてソフト・ハード両面で大きく進歩している ▪ 垂直統合型企業の強みを最大限に生かし、最適化やスケーラビリティを徹底的

    に突き詰めている(そしてスケールのレベルが尋常じゃない) ▪ レーン検出をセグメンテーションから言語モデルに切り替えるなど、既存の枠 組みを大きく変えるチャレンジもしている(実際にはゼロから作り直すような ことはせず、既存のバックボーンモデルの流用など少ないエンジニアリングコ ストで切り替えることができているはず) ▪ Dojoが完成したら機械学習に特化したクラウドサービスやりそう(質疑応答で もElon Muskが匂わせ) まとめ 56
  57. 文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。 Mobility Technologies Co., Ltd. 57