Upgrade to Pro — share decks privately, control downloads, hide ads and more …

マルチモーダルモデルと自動運転 車載モデルのコスト・スループット・レイテンシ / LLM in...

Yu Yamaguchi
October 23, 2023

マルチモーダルモデルと自動運転 車載モデルのコスト・スループット・レイテンシ / LLM in Production Meetup #2 20231023

Yu Yamaguchi

October 23, 2023
Tweet

More Decks by Yu Yamaguchi

Other Decks in Science

Transcript

  1. ⾃⼰紹介 ⼭⼝ 祐(やまぐち ゆう) @ymg_aq Turing株式会社 Director of AI 産業技術総合研究所

    研究員/⽶国NIST客員研究員として 研究する傍ら、独⾃にゲームAIの深層学習の開発を開 始。⽇本の囲碁AIプロジェクトの開発代表として、最⼤ 1100GPUの並列分散強化学習を設計‧開発し、世界⼤ 会準優勝などの実績がある。 HEROZ株式会社 執⾏役員を経て、2022年Turingに創業 メンバーとして参画。⾃動運転AIの研究開発の他、⾞載 OS‧アプリケーション‧IVIなどを含む⾃動⾞における ソフトウェア全般の開発マネジメントを担当。 最年少プロ棋⼠との対局 最近注⽂したTesla Model3 2
  2. Turing株式会社 完全⾃動運転EVの開発‧製造をするスタート アップ。新たな完成⾞メーカーを⽬指す。 • AIとソフトウェアから新しいクルマを ◦ ソフトウェアエンジニアが中⼼に創業 ◦ ⾃動運転だけでなく、⾞両の開発も⼿掛ける ▪

    ハンドルがない乗⽤⾞の販売を⽬指す • We Overtake Tesla ◦ ⽶中には何百社もEV/⾃動運転スタートアップがある ◦ ⼤規模モデルを使った⾃動運転技術で挑戦する Japan Mobility Show 2023に展⽰するEV 3 柏の葉キャンパスのオフィス
  3. なぜ⾃動運転にLLMが必要? 運転には複雑で未知の状況が無数に存在する。 ⼈間のように「理解」できる頭が必要。 • センサー vs Vision-Centric AI ◦ 従来は多数のセンサー

    + 3D地図 + アルゴリズムで制御 ◦ カメラ+機械学習モデルでその場で対応するVision- Centricな⼿法が台頭 • 「完全」な⾃動運転はハードルが⾼い ◦ 交通環境は典型的なロングテールで、アルゴリズムで 対応するには限界がある ◦ 複雑な交通標識、かもしれない運転、外部コミュニ ケーションには⾼度なコンテキスト理解が不可⽋ 多数のセンサーを搭載した⾃動運転⾞ (https://waymo.com) 交通環境は典型的なロングテール ( Long-Tail Prediction Uncertainty Aware Trajectory Planning for Self-driving Vehicles ) 4 難・少
  4. GPT-4で⾞を動かす LLMで実際に⾞を制御するLLM in Vehicleを 開発。メディアなど100⼈以上が体験 • 物体検知 + GPT-4 +

    制御 ◦ カメラで認知した情報をDeticでopen vocabularyに 検知、位置情報を取得 ◦ ⾳声指⽰とプロンプトとしてOpenAI APIに接続 • 複雑な指⽰‧判断にも対応 ◦ 「バナナと同じ⾊のコーンに⾏って」 ◦ 「右に⾏くと1⼈、左に⾏くと5⼈が事故にあう」 • 課題が多く⾒つかった ◦ ⼊⼒〜動作までの時間、精度、視覚情報との接続 LLM in Vehicleのデモ⾞両 5
  5. マルチモーダル学習ライブラリ「Heron」 LLMに視覚を与える学習フレームワークを 開発。最⼤700億パラメータのモデルを公開 • 画像を⾔語トークンに変換する ◦ BLIP, GITなどの変換⼿法 (= Adapter)

    を採⽤ ◦ 物体検知では難しかった映像全体の把握が可能 • 様々なモデルを組み合わせて学習できる ◦ Vision Encoder + Adapter + LLM ◦ ⽇本語データセットも提供 • ソースコード、デモも公開中 ◦ https://github.com/turingmotors/heron ◦ デモページ → Link Heronの柔軟な学習設定 6
  6. 学習に必要なコスト LLMの学習にはかなりのコストが必要。 GPUだけでなく、データセットも重要 • Llama2-70Bの学習コスト ◦ 172万 GPU時間 = 10億円

    @ AWS ◦ LoRAで学習させるだけでも百万円単位 • 分散並列学習の技術が重要 ◦ HPC的なインフラ + 並列技術 ◦ Turingでも⼤規模な設備投資を計画 • データセット ◦ 独⾃に⾛⾏データを6000時間取得 ◦ ⾃動運転のための⼤規模なVisual QAデータセット Wang, Guanhua, et. al. 2023. “ZeRO++: Extremely Efficient Collective Communication for Giant Model Training.” arXiv [cs.DC]. arXiv. http://arxiv.org/abs/2306.10209. DriveLMデータセット (https://github.com/OpenDriveLab/DriveLM) 7
  7. 推論のスループットとレイテンシ LLMの推論は時間がかかる。APIではレイテ ンシ、エッジではスループットが課題 • APIのレイテンシ vs エッジのスループット ◦ 512tokenで2-3秒、たまに数⼗秒になることも ◦

    A100でも⼤きなモデルは数⼗~数百token/秒程度 • ⾞の制御に使えるか? ◦ 通信が安定しない(⾼速‧⼭奥‧トンネル) ▪ 時速100kmでは1秒で27m進む ◦ エッジデバイスで動くLLMを開発する必要がある OpenAI / Azure OpenAI APIの応答時間 (https://gptforwork.com/tools/openai-api-and-other-llm- apis-response-time-tracker ) LLM in Vehicleのエッジ計算機 8
  8. ⾞載モデルを動かすには? 計算HWとソフトウェアの進化に賭けつつ、 2030年の量産に向け独⾃開発を進める。 • GPU性能は⾶躍的に向上しているが… ◦ 7年前に⽐べて50倍程度向上 (P100/H100) ◦ エッジデバイスでは先になるかも

    → 独⾃のTransformer推論⽤チップの開発に着⼿ • Navigator/Diverモデル ◦ 速い反応が要求されるdriverと複雑な判断が要求さ れるnavigator (=LLM) を分離する ◦ 特許出願済 GPUの性能は⾶躍的に上昇している LLMと制御モデルが協調するNavigator-Driverモデル ( http://cameracourage.com/tag/stage-notes/ ) 9
  9. まとめ • 将来の⾃動運転⾞にはLLMが必要 ◦ 複雑なコンテキストを理解する「脳」が必要 ◦ 視覚、その他センサ情報を統合する • ⾞に組み込むには速度が第⼀ ◦

    LLMの推論はスループット‧レイテンシに課題 ◦ HW‧ソフトウェアで⾼速化を⽬指す • 質問‧コメントお願いします ◦ パネルディスカッション、懇親会で ◦ テックブログもどうぞ Turingのテックブログ ( https://zenn.dev/p/turing_motors ) 10