マルチモーダルモデルと自動運転車載モデルのコスト・スループット・レイテンシ / LLM in Production Meetup #2 20231023

by Yu Yamaguchi

Slide 1

Slide 1 text

マルチモーダルモデルと⾃動運転⼭⼝祐 Turing株式会社 Director of AI ⾞載モデルのコスト‧スループット‧レイテンシ LLM in Production Meetup #2 2023/10/23

Slide 2

Slide 2 text

⾃⼰紹介⼭⼝祐（やまぐちゆう） @ymg_aq Turing株式会社 Director of AI 産業技術総合研究所研究員/⽶国NIST客員研究員として研究する傍ら、独⾃にゲームAIの深層学習の開発を開始。⽇本の囲碁AIプロジェクトの開発代表として、最⼤ 1100GPUの並列分散強化学習を設計‧開発し、世界⼤会準優勝などの実績がある。 HEROZ株式会社執⾏役員を経て、2022年Turingに創業メンバーとして参画。⾃動運転AIの研究開発の他、⾞載 OS‧アプリケーション‧IVIなどを含む⾃動⾞におけるソフトウェア全般の開発マネジメントを担当。最年少プロ棋⼠との対局最近注⽂したTesla Model3 2

Slide 3

Slide 3 text

Turing株式会社完全⾃動運転EVの開発‧製造をするスタートアップ。新たな完成⾞メーカーを⽬指す。 ● AIとソフトウェアから新しいクルマを ○ ソフトウェアエンジニアが中⼼に創業 ○ ⾃動運転だけでなく、⾞両の開発も⼿掛ける ■ ハンドルがない乗⽤⾞の販売を⽬指す ● We Overtake Tesla ○ ⽶中には何百社もEV/⾃動運転スタートアップがある ○ ⼤規模モデルを使った⾃動運転技術で挑戦する Japan Mobility Show 2023に展⽰するEV 3 柏の葉キャンパスのオフィス

Slide 4

Slide 4 text

なぜ⾃動運転にLLMが必要？運転には複雑で未知の状況が無数に存在する。⼈間のように「理解」できる頭が必要。 ● センサー vs Vision-Centric AI ○ 従来は多数のセンサー + 3D地図 + アルゴリズムで制御 ○ カメラ+機械学習モデルでその場で対応するVision- Centricな⼿法が台頭 ● 「完全」な⾃動運転はハードルが⾼い ○ 交通環境は典型的なロングテールで、アルゴリズムで対応するには限界がある ○ 複雑な交通標識、かもしれない運転、外部コミュニケーションには⾼度なコンテキスト理解が不可⽋多数のセンサーを搭載した⾃動運転⾞ (https://waymo.com) 交通環境は典型的なロングテール ( Long-Tail Prediction Uncertainty Aware Trajectory Planning for Self-driving Vehicles ) 4 難・少

Slide 5

Slide 5 text

GPT-4で⾞を動かす LLMで実際に⾞を制御するLLM in Vehicleを開発。メディアなど100⼈以上が体験 ● 物体検知 + GPT-4 + 制御 ○ カメラで認知した情報をDeticでopen vocabularyに検知、位置情報を取得 ○ ⾳声指⽰とプロンプトとしてOpenAI APIに接続 ● 複雑な指⽰‧判断にも対応 ○ 「バナナと同じ⾊のコーンに⾏って」 ○ 「右に⾏くと1⼈、左に⾏くと5⼈が事故にあう」 ● 課題が多く⾒つかった ○ ⼊⼒〜動作までの時間、精度、視覚情報との接続 LLM in Vehicleのデモ⾞両 5

Slide 6

Slide 6 text

マルチモーダル学習ライブラリ「Heron」 LLMに視覚を与える学習フレームワークを開発。最⼤700億パラメータのモデルを公開 ● 画像を⾔語トークンに変換する ○ BLIP, GITなどの変換⼿法 (= Adapter) を採⽤ ○ 物体検知では難しかった映像全体の把握が可能 ● 様々なモデルを組み合わせて学習できる ○ Vision Encoder + Adapter + LLM ○ ⽇本語データセットも提供 ● ソースコード、デモも公開中 ○ https://github.com/turingmotors/heron ○ デモページ → Link Heronの柔軟な学習設定 6

Slide 7

Slide 7 text

学習に必要なコスト LLMの学習にはかなりのコストが必要。 GPUだけでなく、データセットも重要 ● Llama2-70Bの学習コスト ○ 172万 GPU時間 = 10億円 @ AWS ○ LoRAで学習させるだけでも百万円単位 ● 分散並列学習の技術が重要 ○ HPC的なインフラ + 並列技術 ○ Turingでも⼤規模な設備投資を計画 ● データセット ○ 独⾃に⾛⾏データを6000時間取得 ○ ⾃動運転のための⼤規模なVisual QAデータセット Wang, Guanhua, et. al. 2023. “ZeRO++: Extremely Efficient Collective Communication for Giant Model Training.” arXiv [cs.DC]. arXiv. http://arxiv.org/abs/2306.10209. DriveLMデータセット (https://github.com/OpenDriveLab/DriveLM) 7

Slide 8

Slide 8 text

推論のスループットとレイテンシ LLMの推論は時間がかかる。APIではレイテンシ、エッジではスループットが課題 ● APIのレイテンシ vs エッジのスループット ○ 512tokenで2-3秒、たまに数⼗秒になることも ○ A100でも⼤きなモデルは数⼗~数百token/秒程度 ● ⾞の制御に使えるか？ ○ 通信が安定しない（⾼速‧⼭奥‧トンネル） ■ 時速100kmでは1秒で27m進む ○ エッジデバイスで動くLLMを開発する必要がある OpenAI / Azure OpenAI APIの応答時間 (https://gptforwork.com/tools/openai-api-and-other-llm- apis-response-time-tracker ) LLM in Vehicleのエッジ計算機 8

Slide 9

Slide 9 text

⾞載モデルを動かすには？計算HWとソフトウェアの進化に賭けつつ、 2030年の量産に向け独⾃開発を進める。 ● GPU性能は⾶躍的に向上しているが… ○ 7年前に⽐べて50倍程度向上 (P100/H100) ○ エッジデバイスでは先になるかも → 独⾃のTransformer推論⽤チップの開発に着⼿ ● Navigator/Diverモデル ○ 速い反応が要求されるdriverと複雑な判断が要求されるnavigator (=LLM) を分離する ○ 特許出願済 GPUの性能は⾶躍的に上昇している LLMと制御モデルが協調するNavigator-Driverモデル ( http://cameracourage.com/tag/stage-notes/ ) 9

Slide 10

Slide 10 text

まとめ ● 将来の⾃動運転⾞にはLLMが必要 ○ 複雑なコンテキストを理解する「脳」が必要 ○ 視覚、その他センサ情報を統合する ● ⾞に組み込むには速度が第⼀ ○ LLMの推論はスループット‧レイテンシに課題 ○ HW‧ソフトウェアで⾼速化を⽬指す ● 質問‧コメントお願いします ○ パネルディスカッション、懇親会で ○ テックブログもどうぞ Turingのテックブログ ( https://zenn.dev/p/turing_motors ) 10

Slide 11

Slide 11 text

No content