Slide 1

Slide 1 text

マルチモーダルモデルと⾃動運転 ⼭⼝ 祐 Turing株式会社 Director of AI ⾞載モデルのコスト‧スループット‧レイテンシ LLM in Production Meetup #2 2023/10/23

Slide 2

Slide 2 text

⾃⼰紹介 ⼭⼝ 祐(やまぐち ゆう) @ymg_aq Turing株式会社 Director of AI 産業技術総合研究所 研究員/⽶国NIST客員研究員として 研究する傍ら、独⾃にゲームAIの深層学習の開発を開 始。⽇本の囲碁AIプロジェクトの開発代表として、最⼤ 1100GPUの並列分散強化学習を設計‧開発し、世界⼤ 会準優勝などの実績がある。 HEROZ株式会社 執⾏役員を経て、2022年Turingに創業 メンバーとして参画。⾃動運転AIの研究開発の他、⾞載 OS‧アプリケーション‧IVIなどを含む⾃動⾞における ソフトウェア全般の開発マネジメントを担当。 最年少プロ棋⼠との対局 最近注⽂したTesla Model3 2

Slide 3

Slide 3 text

Turing株式会社 完全⾃動運転EVの開発‧製造をするスタート アップ。新たな完成⾞メーカーを⽬指す。 ● AIとソフトウェアから新しいクルマを ○ ソフトウェアエンジニアが中⼼に創業 ○ ⾃動運転だけでなく、⾞両の開発も⼿掛ける ■ ハンドルがない乗⽤⾞の販売を⽬指す ● We Overtake Tesla ○ ⽶中には何百社もEV/⾃動運転スタートアップがある ○ ⼤規模モデルを使った⾃動運転技術で挑戦する Japan Mobility Show 2023に展⽰するEV 3 柏の葉キャンパスのオフィス

Slide 4

Slide 4 text

なぜ⾃動運転にLLMが必要? 運転には複雑で未知の状況が無数に存在する。 ⼈間のように「理解」できる頭が必要。 ● センサー vs Vision-Centric AI ○ 従来は多数のセンサー + 3D地図 + アルゴリズムで制御 ○ カメラ+機械学習モデルでその場で対応するVision- Centricな⼿法が台頭 ● 「完全」な⾃動運転はハードルが⾼い ○ 交通環境は典型的なロングテールで、アルゴリズムで 対応するには限界がある ○ 複雑な交通標識、かもしれない運転、外部コミュニ ケーションには⾼度なコンテキスト理解が不可⽋ 多数のセンサーを搭載した⾃動運転⾞ (https://waymo.com) 交通環境は典型的なロングテール ( Long-Tail Prediction Uncertainty Aware Trajectory Planning for Self-driving Vehicles ) 4 難・少

Slide 5

Slide 5 text

GPT-4で⾞を動かす LLMで実際に⾞を制御するLLM in Vehicleを 開発。メディアなど100⼈以上が体験 ● 物体検知 + GPT-4 + 制御 ○ カメラで認知した情報をDeticでopen vocabularyに 検知、位置情報を取得 ○ ⾳声指⽰とプロンプトとしてOpenAI APIに接続 ● 複雑な指⽰‧判断にも対応 ○ 「バナナと同じ⾊のコーンに⾏って」 ○ 「右に⾏くと1⼈、左に⾏くと5⼈が事故にあう」 ● 課題が多く⾒つかった ○ ⼊⼒〜動作までの時間、精度、視覚情報との接続 LLM in Vehicleのデモ⾞両 5

Slide 6

Slide 6 text

マルチモーダル学習ライブラリ「Heron」 LLMに視覚を与える学習フレームワークを 開発。最⼤700億パラメータのモデルを公開 ● 画像を⾔語トークンに変換する ○ BLIP, GITなどの変換⼿法 (= Adapter) を採⽤ ○ 物体検知では難しかった映像全体の把握が可能 ● 様々なモデルを組み合わせて学習できる ○ Vision Encoder + Adapter + LLM ○ ⽇本語データセットも提供 ● ソースコード、デモも公開中 ○ https://github.com/turingmotors/heron ○ デモページ → Link Heronの柔軟な学習設定 6

Slide 7

Slide 7 text

学習に必要なコスト LLMの学習にはかなりのコストが必要。 GPUだけでなく、データセットも重要 ● Llama2-70Bの学習コスト ○ 172万 GPU時間 = 10億円 @ AWS ○ LoRAで学習させるだけでも百万円単位 ● 分散並列学習の技術が重要 ○ HPC的なインフラ + 並列技術 ○ Turingでも⼤規模な設備投資を計画 ● データセット ○ 独⾃に⾛⾏データを6000時間取得 ○ ⾃動運転のための⼤規模なVisual QAデータセット Wang, Guanhua, et. al. 2023. “ZeRO++: Extremely Efficient Collective Communication for Giant Model Training.” arXiv [cs.DC]. arXiv. http://arxiv.org/abs/2306.10209. DriveLMデータセット (https://github.com/OpenDriveLab/DriveLM) 7

Slide 8

Slide 8 text

推論のスループットとレイテンシ LLMの推論は時間がかかる。APIではレイテ ンシ、エッジではスループットが課題 ● APIのレイテンシ vs エッジのスループット ○ 512tokenで2-3秒、たまに数⼗秒になることも ○ A100でも⼤きなモデルは数⼗~数百token/秒程度 ● ⾞の制御に使えるか? ○ 通信が安定しない(⾼速‧⼭奥‧トンネル) ■ 時速100kmでは1秒で27m進む ○ エッジデバイスで動くLLMを開発する必要がある OpenAI / Azure OpenAI APIの応答時間 (https://gptforwork.com/tools/openai-api-and-other-llm- apis-response-time-tracker ) LLM in Vehicleのエッジ計算機 8

Slide 9

Slide 9 text

⾞載モデルを動かすには? 計算HWとソフトウェアの進化に賭けつつ、 2030年の量産に向け独⾃開発を進める。 ● GPU性能は⾶躍的に向上しているが… ○ 7年前に⽐べて50倍程度向上 (P100/H100) ○ エッジデバイスでは先になるかも → 独⾃のTransformer推論⽤チップの開発に着⼿ ● Navigator/Diverモデル ○ 速い反応が要求されるdriverと複雑な判断が要求さ れるnavigator (=LLM) を分離する ○ 特許出願済 GPUの性能は⾶躍的に上昇している LLMと制御モデルが協調するNavigator-Driverモデル ( http://cameracourage.com/tag/stage-notes/ ) 9

Slide 10

Slide 10 text

まとめ ● 将来の⾃動運転⾞にはLLMが必要 ○ 複雑なコンテキストを理解する「脳」が必要 ○ 視覚、その他センサ情報を統合する ● ⾞に組み込むには速度が第⼀ ○ LLMの推論はスループット‧レイテンシに課題 ○ HW‧ソフトウェアで⾼速化を⽬指す ● 質問‧コメントお願いします ○ パネルディスカッション、懇親会で ○ テックブログもどうぞ Turingのテックブログ ( https://zenn.dev/p/turing_motors ) 10

Slide 11

Slide 11 text

No content