Slide 1

Slide 1 text

Mobility Technologies Co., Ltd. Teslaにおけるコンピュータビジョン技術の調査 (2) - Tesla AI Day 2022 - 2022/11/24 Mobility Technologies 宮澤 一之

Slide 2

Slide 2 text

Mobility Technologies Co., Ltd. 2 自己紹介 宮澤 一之 株式会社Mobility Technologies AI技術開発部 AI研究開発第二グループ グループリーダー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 @kzykmyzw

Slide 3

Slide 3 text

Mobility Technologies Co., Ltd. ■ TeslaにおけるAI技術開発について発表するイベント ■ Teslaの技術発表イベントは毎年名前を変えていたがAI Dayは2年連続 ■ 2022 Tesla AI Day ■ 2021 Tesla AI Day ■ 2020 Tesla Battery Day ■ 2019 Tesla Autonomy Day ■ AI人材の採用が主な目的であり、非常に専門的な発表がされることが特徴 Tesla AI Dayとは? 3

Slide 4

Slide 4 text

Mobility Technologies Co., Ltd. Tesla AI Dayとは? 4

Slide 5

Slide 5 text

Mobility Technologies Co., Ltd. コンピュータビジョン技術に関するまとめ(〜2021) 5 https://www.slideshare.net/KazuyukiMiyazawa/tesla-250957016

Slide 6

Slide 6 text

Mobility Technologies Co., Ltd. One more thing... in 2021 6 https://www.youtube.com/watch?v=j0z4FweCy4M&t=7594s ヒューマノイドロボットの開発が発表され、ロボットのコスプレをした人が踊る演出に聴衆が困惑

Slide 7

Slide 7 text

Mobility Technologies Co., Ltd. Optimus in 2022 7 https://www.youtube.com/watch?v=ODSJsviD_SU&t=1052s 半年で試作機を完成させ、二足歩行をデモ Teslaに搭載されているのと 同じFSDコンピュータ

Slide 8

Slide 8 text

Mobility Technologies Co., Ltd. Optimus in 2022 8 ■ イベントでは約1時間を費やしOptimusのハードウェアやソフトウェアを解説 ■ これまでにTeslaの車両向けに開発してきた技術の多くをほぼそのまま流用 ■ コンピュータビジョン技術ではあまり新しい点がないため本資料では割愛 https://www.youtube.com/watch?v=ODSJsviD_SU&t=1182s

Slide 9

Slide 9 text

Mobility Technologies Co., Ltd. ■ 2021年は2000だったFSDのカスタマー数が2022年は16万へ ■ 1年で約75000個のNNを学習し、281個をデプロイ ■ プルリク数は18000を超える ここ1年の Full Self Driving (Beta) 開発 9 7~8分に1個のペースでモデルを作っている

Slide 10

Slide 10 text

Mobility Technologies Co., Ltd. FSDの構成要素 10 Training Data Auto Labeling Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲

Slide 11

Slide 11 text

Mobility Technologies Co., Ltd. FSDの構成要素 11 Training Data Auto Labeling Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲

Slide 12

Slide 12 text

Mobility Technologies Co., Ltd. ■ 空間をグリッドに分割し、グリッドごとに障害物による占有確率を保持 ■ 占有確率をセンサの観測値とノイズ量を踏まえてベイズ理論により更新 Occupancy Grid Map 12 センサ 障害物の存在確率高 障害物の存在確率低

Slide 13

Slide 13 text

Mobility Technologies Co., Ltd. Tesla車両におけるOccupancy Grid Map 13 https://www.youtube.com/watch?v=ODSJsviD_SU&t=4360s ■ 8つのカメラで車両周囲の3次元Occupancy Grid Mapを生成 ■ 各グリッドは占有確率だけでなく車両や歩行者といったセマンティクスも持つ ■ FSDコンピュータで10ミリ秒ごとに生成し、時間方向のフローも計算

Slide 14

Slide 14 text

Mobility Technologies Co., Ltd. ネットワーク構成 14 Multicam Query Embedding Rectify RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features 12bit/pix

Slide 15

Slide 15 text

Mobility Technologies Co., Ltd. ネットワーク構成 15 Multicam Query Embedding Rectify RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features 各カメラ画像から特徴を抽出 12bit/pix

Slide 16

Slide 16 text

Mobility Technologies Co., Ltd. ネットワーク構成 16 Multicam Query Embedding Rectify RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features マルチカメラの情報をフュージョン 12bit/pix

Slide 17

Slide 17 text

Mobility Technologies Co., Ltd. ネットワーク構成 17 Multicam Query Embedding Rectify RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features 車両の軌跡を使って過去フレームの情報を 現在フレームにフュージョン 12bit/pix

Slide 18

Slide 18 text

Mobility Technologies Co., Ltd. ネットワーク構成 18 Multicam Query Embedding Rectify RegNets BiFPNs Rectify RegNets BiFPNs Rectify RegNets BiFPNs Attention Key Value Key Value Key Value Spatial Query Spatial Features Temporal Context Spatial Frame Alignment Deconvolutions t - 1 t - 2 t - 3 … … MLP MLP Continuous Occupancy Probability Continuous Semantics Occupancy Occupancy Flow Sub-Voxel Shape Information 3D Semantics Spatiotemporal Features 特徴量から出力データを生成 MLPに任意座標を 入力し、占有率と セマンティクスを 得る 12bit/pix

Slide 19

Slide 19 text

Mobility Technologies Co., Ltd. 路面形状の推定 19 https://www.youtube.com/watch?v=ODSJsviD_SU&t=4598s ■ Occupancy Grid Map生成時に路面の3次元形状も推定 ■ 下り坂などにおいて減速できるよう制御時に利用

Slide 20

Slide 20 text

Mobility Technologies Co., Ltd. NeRFとの融合 20 https://www.youtube.com/watch?v=ODSJsviD_SU&t=4730s ネットワークから出力されたボリュームデータをNeRFへの入力とする

Slide 21

Slide 21 text

Mobility Technologies Co., Ltd. FSDの構成要素 21 Training Data Auto Labeling Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲

Slide 22

Slide 22 text

Mobility Technologies Co., Ltd. レーン検出における課題 22 https://www.youtube.com/watch?v=ODSJsviD_SU&t=5165s ■ 初期においてはインスタントセグメンテーションによりレーンを検出していた ■ 複雑な道路形状に対してはうまく検出できないという課題があった ■ 複雑なシーンにおいても一連のレーンを検出し接続関係を知る必要がある

Slide 23

Slide 23 text

Mobility Technologies Co., Ltd. ネットワーク構成 23 各カメラからの特徴抽出、マルチカメラの フュージョン、時間方向のフュージョンは Occupancy Grid Map生成と共通 Lane Guidance Module Navigation Map Autoregressive Decoder Lane Instances Adjacency Matrix

Slide 24

Slide 24 text

Mobility Technologies Co., Ltd. 地図に含まれる情報を追加で エンコードする ● 道路レベルの構造 ● ナビルート ● レーン数・構造 ● バスレーンか否か ● etc ネットワーク構成 24 Lane Guidance Module Navigation Map Autoregressive Decoder Lane Instances Adjacency Matrix

Slide 25

Slide 25 text

Mobility Technologies Co., Ltd. レーン構造の理解を画像キャ プショニングの問題と捉え、 言語モデルを使って解く ネットワーク構成 25 Lane Guidance Module Navigation Map Autoregressive Decoder Lane Instances Adjacency Matrix

Slide 26

Slide 26 text

Mobility Technologies Co., Ltd. 予測対象 -レーングラフ- 26 https://www.youtube.com/watch?v=ODSJsviD_SU&t=5334s

Slide 27

Slide 27 text

Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 27 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor “Language of Lanes”

Slide 28

Slide 28 text

Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 28 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 31 グリッド分割された空間のインデ ックスとしてノード位置を推定 (実際にはcoarse-to-fineに行う) “Language of Lanes”

Slide 29

Slide 29 text

Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 29 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 31 “Start” ノードの接続タイプを推定(この 場合は ”Start” で開始位置を表す) “Language of Lanes”

Slide 30

Slide 30 text

Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 30 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 31 “Start” ノードの属性を推定(開始位置の ため属性はなし) “Language of Lanes”

Slide 31

Slide 31 text

Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 31 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 31 “Start” Embed Embed Embed Embed それぞれの出力をエンコードしたものを 結合したテンソルをレーングラフを表す 言語のWordとする “Language of Lanes”

Slide 32

Slide 32 text

Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 32 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 22 同様の処理を繰り返し、次のノード 位置を推定 “Language of Lanes”

Slide 33

Slide 33 text

Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 33 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 22 “Continue” 直前のレーンからの「継続」 “Language of Lanes”

Slide 34

Slide 34 text

Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 34 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 22 “Continue” Mx1, Mx2, … レーン形状を表すスプライン曲線 の係数を推定 “Language of Lanes”

Slide 35

Slide 35 text

Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 35 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 22 “Continue” Mx1, Mx2, … Embed Embed Embed Embed “Language of Lanes”

Slide 36

Slide 36 text

Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 36 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 16 “Continue” Mx1, Mx2, … Embed Embed Embed Embed 推定対象エリアの終端に達するまで同様 の処理を繰り返す “Language of Lanes”

Slide 37

Slide 37 text

Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 37 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 29 “Fork” 他のノードからの「分岐」 “Language of Lanes”

Slide 38

Slide 38 text

Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 38 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 29 “Fork” index: 0 Mx1, Mx2, … 分岐元となるノードのインデックス を推定 “Language of Lanes”

Slide 39

Slide 39 text

Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 39 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor index: 29 “Fork” index: 0 Mx1, Mx2, … Embed Embed Embed Embed “Language of Lanes”

Slide 40

Slide 40 text

Mobility Technologies Co., Ltd. 言語モデルによるレーングラフ推定 40 Vector Space Encoding Self Attention Cross Attention Self Attention Point Predictor Cross Attention Self Attention Topology Type Predictor Spline Coefficient Predictor Cross Attention Self Attention Fork Point Predictor Merge Point Predictor “End of sentence” … … … … … … … 全ての推定が終了 “Language of Lanes”

Slide 41

Slide 41 text

Mobility Technologies Co., Ltd. レーングラフ推定 41 https://www.youtube.com/watch?v=ODSJsviD_SU&t=5585s

Slide 42

Slide 42 text

Mobility Technologies Co., Ltd. FSDの構成要素 42 Training Data Auto Labeling Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲

Slide 43

Slide 43 text

Mobility Technologies Co., Ltd. いかにしてレーングラフの教師ラベルを作成するか 43 ■ 手動・自動ラベリングの工夫により、年を追うごとにスループットが100倍に ■ 現在は複数の走行データで走行空間を再構成することで自動ラベリングを実施 ■ 手動で500万時間を要した走行データ1万件のラベリングがクラスタで12時間 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6048s

Slide 44

Slide 44 text

Mobility Technologies Co., Ltd. 複数の走行データによる走行空間の再構成 44 ■ 各走行データにおいて、カメラとIMUを使ったVisual-Inertial Odometryにより 車両の高精度な軌跡と路面の3次元形状を推定 ■ 同エリアの推定結果を大量に統合することで広範なエリアをもれなく再構成 ■ 最後に人間が結果を確認・修正 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6146s 車両

Slide 45

Slide 45 text

Mobility Technologies Co., Ltd. 新たな走行データに対する自動ラベリング 45 ■ 再構成が完了したエリアでは新たな走行データに対して自動的にレーングラフ をラベリング ■ 1つの走行データに対する処理時間は約30分(手動ラベリングだと数時間) ■ 手動ラベリングが難しい悪条件のデータでも正確なラベリングが可能 車両 自動生成されたラベル https://www.youtube.com/watch?v=ODSJsviD_SU&t=6237s

Slide 46

Slide 46 text

Mobility Technologies Co., Ltd. FSDの構成要素 46 Training Data Auto Labeling Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲

Slide 47

Slide 47 text

Mobility Technologies Co., Ltd. シミュレータによるデータ生成 47 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6517s ■ レーングラフのラベルデータからシミュレーションによりデータを自動生成 ■ サンフランシスコ全域の道路のデータを一人で2週間で生成可能 ■ レーングラフを編集することでさらにバリエーションを増やせる

Slide 48

Slide 48 text

Mobility Technologies Co., Ltd. 単一のレーングラフからの多様なシーンの生成 48 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6615s

Slide 49

Slide 49 text

Mobility Technologies Co., Ltd. FSDの構成要素 49 Training Data Auto Labeling Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲

Slide 50

Slide 50 text

Mobility Technologies Co., Ltd. 認識困難なシーンのマイニング 50 ■ 例えば曲がり角の駐車車両は右左折のために待機中の車両との区別が難しい ■ 当該シーンを収集済みデータからマイニングして126件を検証データ、13900 件を学習データに追加 ■ エンジニアリングコストをかけることなくデータの追加が可能 駐車車両を曲がり角で 待機中の車両と誤認識 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6827s

Slide 51

Slide 51 text

Mobility Technologies Co., Ltd. データエンジン 51 https://www.youtube.com/watch?v=ODSJsviD_SU&t=6975s

Slide 52

Slide 52 text

Mobility Technologies Co., Ltd. FSDの構成要素 52 Training Data Auto Labeling Simulation Data Engine Neural Networks Occupancy Lanes & Objects Planning Training Infra AI Compiler & Inference ✅ ✅ ✅ ✅ 本資料の範囲

Slide 53

Slide 53 text

Mobility Technologies Co., Ltd. Dojo Cabinet 53 ■ 機械学習に特化した自社開発のD1 Chipを使ったクラスタDojoを開発中 ■ D1 Chipを25個並べたTraining Tileを6個並べたSystem Trayを2個並べたDojo Cabinetを試作 ■ 試験で2Mワットの電流を流し、変電所をダウンさせて市から怒られる Training Tile System Tray https://www.youtube.com/watch?v=ODSJsviD_SU&t=7720s

Slide 54

Slide 54 text

Mobility Technologies Co., Ltd. 性能 54 ■ BatchNormで必要となるプロセッサ間通信における遅延はGPUの1/30 ■ NVIDIA A100比で自動ラベリングは3.2倍、Occupancyは4.4倍高速化(予定) ■ 1つのTraining Tileで6GPU BOX分の性能に匹敵し、コストは1GPU BOX以下 https://www.youtube.com/watch?v=ODSJsviD_SU&t=8357s

Slide 55

Slide 55 text

Mobility Technologies Co., Ltd. ExaPOD 55 ■ Dojo Cabinetを並べたExaPODで1.1 EFLOPSの計算性能を実現 ■ ExaPODは2023年Q1稼働予定で、さらに将来的にExaPODを7つに増やす https://www.youtube.com/watch?v=ODSJsviD_SU&t=8650s

Slide 56

Slide 56 text

Mobility Technologies Co., Ltd. ■ 昨年のAI Dayからの差分としてOptimusが目立っていたものの、FSDの性能改 善に向けてソフト・ハード両面で大きく進歩している ■ 垂直統合型企業の強みを最大限に生かし、最適化やスケーラビリティを徹底的 に突き詰めている(そしてスケールのレベルが尋常じゃない) ■ レーン検出をセグメンテーションから言語モデルに切り替えるなど、既存の枠 組みを大きく変えるチャレンジもしている(実際にはゼロから作り直すような ことはせず、既存のバックボーンモデルの流用など少ないエンジニアリングコ ストで切り替えることができているはず) ■ Dojoが完成したら機械学習に特化したクラウドサービスやりそう(質疑応答で もElon Muskが匂わせ) まとめ 56

Slide 57

Slide 57 text

文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。 Mobility Technologies Co., Ltd. 57