Teslaにおけるコンピュータビジョン技術の調査 (2)

Mobility Technologies Co., Ltd. Teslaにおけるコンピュータビジョン技術の調査 (2) - Tesla AI Day
2022 - 2022/11/24 Mobility Technologies 宮澤一之

Mobility Technologies Co., Ltd. 2 自己紹介宮澤一之株式会社Mobility Technologies
AI技術開発部 AI研究開発第二グループグループリーダー経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 @kzykmyzw

Mobility Technologies Co., Ltd. ▪ TeslaにおけるAI技術開発について発表するイベント ▪ Teslaの技術発表イベントは毎年名前を変えていたがAI Dayは2年連続 ▪
2022 Tesla AI Day ▪ 2021 Tesla AI Day ▪ 2020 Tesla Battery Day ▪ 2019 Tesla Autonomy Day ▪ AI人材の採用が主な目的であり、非常に専門的な発表がされることが特徴 Tesla AI Dayとは？ 3

Mobility Technologies Co., Ltd. Tesla AI Dayとは？ 4

Mobility Technologies Co., Ltd. コンピュータビジョン技術に関するまとめ（〜2021） 5 https://www.slideshare.net/KazuyukiMiyazawa/tesla-250957016

Mobility Technologies Co., Ltd. One more thing... in 2021 6
https://www.youtube.com/watch?v=j0z4FweCy4M&t=7594s ヒューマノイドロボットの開発が発表され、ロボットのコスプレをした人が踊る演出に聴衆が困惑

Mobility Technologies Co., Ltd. Optimus in 2022 7 https://www.youtube.com/watch?v=ODSJsviD_SU&t=1052s 半年で試作機を完成させ、二足歩行をデモ
Teslaに搭載されているのと同じFSDコンピュータ

Mobility Technologies Co., Ltd. Optimus in 2022 8 ▪ イベントでは約1時間を費やしOptimusのハードウェアやソフトウェアを解説
▪ これまでにTeslaの車両向けに開発してきた技術の多くをほぼそのまま流用 ▪ コンピュータビジョン技術ではあまり新しい点がないため本資料では割愛 https://www.youtube.com/watch?v=ODSJsviD_SU&t=1182s

Mobility Technologies Co., Ltd. ▪ 2021年は2000だったFSDのカスタマー数が2022年は16万へ ▪ 1年で約75000個のNNを学習し、281個をデプロイ ▪ プルリク数は18000を超える
ここ1年の Full Self Driving (Beta) 開発 9 7~8分に1個のペースでモデルを作っている

Mobility Technologies Co., Ltd. FSDの構成要素 10 Training Data Auto Labeling
Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲

Mobility Technologies Co., Ltd. ▪ 空間をグリッドに分割し、グリッドごとに障害物による占有確率を保持 ▪ 占有確率をセンサの観測値とノイズ量を踏まえてベイズ理論により更新 Occupancy Grid
Map 12 センサ障害物の存在確率高障害物の存在確率低

Mobility Technologies Co., Ltd. Tesla車両におけるOccupancy Grid Map 13 https://www.youtube.com/watch?v=ODSJsviD_SU&t=4360s ▪
8つのカメラで車両周囲の3次元Occupancy Grid Mapを生成 ▪ 各グリッドは占有確率だけでなく車両や歩行者といったセマンティクスも持つ ▪ FSDコンピュータで10ミリ秒ごとに生成し、時間方向のフローも計算

Mobility Technologies Co., Ltd. ネットワーク構成 14 Multicam Query Embedding Rectify
RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features 12bit/pix

RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features 各カメラ画像から特徴を抽出 12bit/pix

RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features マルチカメラの情報をフュージョン 12bit/pix

RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features 車両の軌跡を使って過去フレームの情報を現在フレームにフュージョン 12bit/pix

RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features 特徴量から出力データを生成 MLPに任意座標を入力し、占有率とセマンティクスを得る 12bit/pix

Mobility Technologies Co., Ltd. 路面形状の推定 19 https://www.youtube.com/watch?v=ODSJsviD_SU&t=4598s ▪ Occupancy Grid
Map生成時に路面の3次元形状も推定 ▪ 下り坂などにおいて減速できるよう制御時に利用

Mobility Technologies Co., Ltd. NeRFとの融合 20 https://www.youtube.com/watch?v=ODSJsviD_SU&t=4730s ネットワークから出力されたボリュームデータをNeRFへの入力とする

Mobility Technologies Co., Ltd. レーン検出における課題 22 https://www.youtube.com/watch?v=ODSJsviD_SU&t=5165s ▪ 初期においてはインスタントセグメンテーションによりレーンを検出していた ▪
複雑な道路形状に対してはうまく検出できないという課題があった ▪ 複雑なシーンにおいても一連のレーンを検出し接続関係を知る必要がある

Mobility Technologies Co., Ltd. ネットワーク構成 23 各カメラからの特徴抽出、マルチカメラのフュージョン、時間方向のフュージョンは Occupancy Grid
Map生成と共通 Lane Guidance Module Navigation Map Autoregressive Decoder Lane Instances Adjacency Matrix

Mobility Technologies Co., Ltd. 地図に含まれる情報を追加でエンコードする • 道路レベルの構造 • ナビルート
• レーン数・構造 • バスレーンか否か • etc ネットワーク構成 24 Lane Guidance Module Navigation Map Autoregressive Decoder Lane Instances Adjacency Matrix

Mobility Technologies Co., Ltd. レーン構造の理解を画像キャプショニングの問題と捉え、言語モデルを使って解くネットワーク構成 25 Lane
Guidance Module Navigation Map Autoregressive Decoder Lane Instances Adjacency Matrix

Mobility Technologies Co., Ltd. 予測対象 -レーングラフ- 26 https://www.youtube.com/watch?v=ODSJsviD_SU&t=5334s

Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 27 Vector Space Encoding Self
Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor “Language of Lanes”

Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 31 グリッド分割された空間のインデックスとしてノード位置を推定（実際にはcoarse-to-fineに行う） “Language of Lanes”

Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 31 “Start” ノードの接続タイプを推定（この場合は ”Start” で開始位置を表す） “Language of Lanes”

Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 31 “Start” ノードの属性を推定（開始位置のため属性はなし） <null> <null> <null> “Language of Lanes”

Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 31 “Start” <null> <null> <null> Embed Embed Embed Embed それぞれの出力をエンコードしたものを結合したテンソルをレーングラフを表す言語のWordとする “Language of Lanes”

Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 22 同様の処理を繰り返し、次のノード位置を推定 “Language of Lanes”

Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 22 “Continue” 直前のレーンからの「継続」 “Language of Lanes”

Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 22 “Continue” <null> <null> Mx1, Mx2, … レーン形状を表すスプライン曲線の係数を推定 “Language of Lanes”

Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 22 “Continue” <null> <null> Mx1, Mx2, … Embed Embed Embed Embed “Language of Lanes”

Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 16 “Continue” <null> <null> Mx1, Mx2, … Embed Embed Embed Embed 推定対象エリアの終端に達するまで同様の処理を繰り返す “Language of Lanes”

Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 29 “Fork” 他のノードからの「分岐」 “Language of Lanes”

Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 29 “Fork” index: 0 <null> Mx1, Mx2, … 分岐元となるノードのインデックスを推定 “Language of Lanes”

Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 29 “Fork” index: 0 <null> Mx1, Mx2, … Embed Embed Embed Embed “Language of Lanes”

Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor “End of sentence” … … … … … … … 全ての推定が終了 “Language of Lanes”

Mobility Technologies Co., Ltd. レーングラフ推定 41 https://www.youtube.com/watch?v=ODSJsviD_SU&t=5585s

Mobility Technologies Co., Ltd. いかにしてレーングラフの教師ラベルを作成するか 43 ▪ 手動・自動ラベリングの工夫により、年を追うごとにスループットが100倍に ▪ 現在は複数の走行データで走行空間を再構成することで自動ラベリングを実施
▪ 手動で500万時間を要した走行データ1万件のラベリングがクラスタで12時間 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6048s

Mobility Technologies Co., Ltd. 複数の走行データによる走行空間の再構成 44 ▪ 各走行データにおいて、カメラとIMUを使ったVisual-Inertial Odometryにより車両の高精度な軌跡と路面の3次元形状を推定
▪ 同エリアの推定結果を大量に統合することで広範なエリアをもれなく再構成 ▪ 最後に人間が結果を確認・修正 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6146s 車両

Mobility Technologies Co., Ltd. 新たな走行データに対する自動ラベリング 45 ▪ 再構成が完了したエリアでは新たな走行データに対して自動的にレーングラフをラベリング ▪
1つの走行データに対する処理時間は約30分（手動ラベリングだと数時間） ▪ 手動ラベリングが難しい悪条件のデータでも正確なラベリングが可能車両自動生成されたラベル https://www.youtube.com/watch?v=ODSJsviD_SU&t=6237s

Mobility Technologies Co., Ltd. シミュレータによるデータ生成 47 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6517s ▪ レーングラフのラベルデータからシミュレーションによりデータを自動生成 ▪
サンフランシスコ全域の道路のデータを一人で2週間で生成可能 ▪ レーングラフを編集することでさらにバリエーションを増やせる

Mobility Technologies Co., Ltd. 単一のレーングラフからの多様なシーンの生成 48 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6615s

Mobility Technologies Co., Ltd. 認識困難なシーンのマイニング 50 ▪ 例えば曲がり角の駐車車両は右左折のために待機中の車両との区別が難しい ▪ 当該シーンを収集済みデータからマイニングして126件を検証データ、13900
件を学習データに追加 ▪ エンジニアリングコストをかけることなくデータの追加が可能駐車車両を曲がり角で待機中の車両と誤認識 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6827s

Mobility Technologies Co., Ltd. データエンジン 51 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6975s

Mobility Technologies Co., Ltd. Dojo Cabinet 53 ▪ 機械学習に特化した自社開発のD1 Chipを使ったクラスタDojoを開発中
▪ D1 Chipを25個並べたTraining Tileを6個並べたSystem Trayを2個並べたDojo Cabinetを試作 ▪ 試験で2Mワットの電流を流し、変電所をダウンさせて市から怒られる Training Tile System Tray https://www.youtube.com/watch?v=ODSJsviD_SU&t=7720s

Mobility Technologies Co., Ltd. 性能 54 ▪ BatchNormで必要となるプロセッサ間通信における遅延はGPUの1/30 ▪ NVIDIA
A100比で自動ラベリングは3.2倍、Occupancyは4.4倍高速化（予定） ▪ 1つのTraining Tileで6GPU BOX分の性能に匹敵し、コストは1GPU BOX以下 https://www.youtube.com/watch?v=ODSJsviD_SU&t=8357s

Mobility Technologies Co., Ltd. ExaPOD 55 ▪ Dojo Cabinetを並べたExaPODで1.1 EFLOPSの計算性能を実現
▪ ExaPODは2023年Q1稼働予定で、さらに将来的にExaPODを7つに増やす https://www.youtube.com/watch?v=ODSJsviD_SU&t=8650s

Mobility Technologies Co., Ltd. ▪ 昨年のAI Dayからの差分としてOptimusが目立っていたものの、FSDの性能改善に向けてソフト・ハード両面で大きく進歩している ▪ 垂直統合型企業の強みを最大限に生かし、最適化やスケーラビリティを徹底的
に突き詰めている（そしてスケールのレベルが尋常じゃない） ▪ レーン検出をセグメンテーションから言語モデルに切り替えるなど、既存の枠組みを大きく変えるチャレンジもしている（実際にはゼロから作り直すようなことはせず、既存のバックボーンモデルの流用など少ないエンジニアリングコストで切り替えることができているはず） ▪ Dojoが完成したら機械学習に特化したクラウドサービスやりそう（質疑応答でもElon Muskが匂わせ）まとめ 56

Teslaにおけるコンピュータビジョン技術の調査 (2)

Teslaにおけるコンピュータビジョン技術の調査 (2)

More Decks by Kazuyuki Miyazawa

Other Decks in Technology

Featured

Transcript