Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
マルチモーダルモデルと自動運転 車載モデルのコスト・スループット・レイテンシ / LLM in...
Search
Yu Yamaguchi
October 23, 2023
Science
1.9k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
マルチモーダルモデルと自動運転 車載モデルのコスト・スループット・レイテンシ / LLM in Production Meetup #2 20231023
Yu Yamaguchi
October 23, 2023
More Decks by Yu Yamaguchi
See All by Yu Yamaguchi
Kaggleに役立つ高速化・並列化テクニック
yuyamaguchi
16
7.4k
Vision Language Modelと自動運転AIの最前線_20250730
yuyamaguchi
6
2.5k
Trends in Multimodal Models and Autonomous Driving
yuyamaguchi
0
920
Turing TechTalk #8 自動運転AI開発のMLOpsを支える技術
yuyamaguchi
2
380
Turing TechTalk #7 E2E自動運転AIの開発プロセス
yuyamaguchi
0
880
完全自動運転に向けた生成AI開発の取り組み
yuyamaguchi
0
680
日本語Vision-Languageモデルの学習と評価ベンチマークの構築
yuyamaguchi
4
1.5k
マルチモーダル学習ライブラリ Heronと⾃動運転への応⽤
yuyamaguchi
1
2.3k
Other Decks in Science
See All in Science
大黒市で発生した大規模インシデント の ポストモーテムから読み解く、 記憶媒体消去の大切さ
shucho0103
0
180
Non-Gaussian, nonlinear causal discovery with hidden variables and application
sshimizu2006
0
130
不動産業界における業界特化のデータ整備とAI活用 ─Vertical DataとVertical AI─
estie
1
540
Endel Tulvingとエピソード記憶
rmaruy
0
130
AkarengaLT vol.40
hashimoto_kei
0
110
SpatialRDDパッケージによる空間回帰不連続デザイン
saltcooky12
0
240
中央大学AI・データサイエンスセンター 2025年第6回イブニングセミナー 『知能とはなにか ヒトとAIのあいだ』
tagtag
PRO
0
160
イロレーティングを活用した関東大学サッカーの定量的実力評価 / A quantitative performance evaluation of Kanto University Football Association using Elo rating
konakalab
0
270
Understanding CVP Waveforms: Interpretation and Clinical Implications in Anesthesiology
taka88
0
570
AIを用いた PID制御で部屋 の温度制御をしてみた
nearme_tech
PRO
0
140
なぜエネルギーは保存する? 〜自由落下でわかる“対称性”とネーターの定理〜
syotasasaki593876
0
180
データベース01: データベースを使わない世界
trycycle
PRO
1
1.3k
Featured
See All Featured
The Limits of Empathy - UXLibs8
cassininazir
1
350
Everyday Curiosity
cassininazir
0
230
GraphQLとの向き合い方2022年版
quramy
50
15k
Facilitating Awesome Meetings
lara
57
7k
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
580
A better future with KSS
kneath
240
18k
Optimizing for Happiness
mojombo
378
71k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
200
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
200
Statistics for Hackers
jakevdp
799
230k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
140
The Cost Of JavaScript in 2023
addyosmani
55
10k
Transcript
マルチモーダルモデルと⾃動運転 ⼭⼝ 祐 Turing株式会社 Director of AI ⾞載モデルのコスト‧スループット‧レイテンシ LLM in
Production Meetup #2 2023/10/23
⾃⼰紹介 ⼭⼝ 祐(やまぐち ゆう) @ymg_aq Turing株式会社 Director of AI 産業技術総合研究所
研究員/⽶国NIST客員研究員として 研究する傍ら、独⾃にゲームAIの深層学習の開発を開 始。⽇本の囲碁AIプロジェクトの開発代表として、最⼤ 1100GPUの並列分散強化学習を設計‧開発し、世界⼤ 会準優勝などの実績がある。 HEROZ株式会社 執⾏役員を経て、2022年Turingに創業 メンバーとして参画。⾃動運転AIの研究開発の他、⾞載 OS‧アプリケーション‧IVIなどを含む⾃動⾞における ソフトウェア全般の開発マネジメントを担当。 最年少プロ棋⼠との対局 最近注⽂したTesla Model3 2
Turing株式会社 完全⾃動運転EVの開発‧製造をするスタート アップ。新たな完成⾞メーカーを⽬指す。 • AIとソフトウェアから新しいクルマを ◦ ソフトウェアエンジニアが中⼼に創業 ◦ ⾃動運転だけでなく、⾞両の開発も⼿掛ける ▪
ハンドルがない乗⽤⾞の販売を⽬指す • We Overtake Tesla ◦ ⽶中には何百社もEV/⾃動運転スタートアップがある ◦ ⼤規模モデルを使った⾃動運転技術で挑戦する Japan Mobility Show 2023に展⽰するEV 3 柏の葉キャンパスのオフィス
なぜ⾃動運転にLLMが必要? 運転には複雑で未知の状況が無数に存在する。 ⼈間のように「理解」できる頭が必要。 • センサー vs Vision-Centric AI ◦ 従来は多数のセンサー
+ 3D地図 + アルゴリズムで制御 ◦ カメラ+機械学習モデルでその場で対応するVision- Centricな⼿法が台頭 • 「完全」な⾃動運転はハードルが⾼い ◦ 交通環境は典型的なロングテールで、アルゴリズムで 対応するには限界がある ◦ 複雑な交通標識、かもしれない運転、外部コミュニ ケーションには⾼度なコンテキスト理解が不可⽋ 多数のセンサーを搭載した⾃動運転⾞ (https://waymo.com) 交通環境は典型的なロングテール ( Long-Tail Prediction Uncertainty Aware Trajectory Planning for Self-driving Vehicles ) 4 難・少
GPT-4で⾞を動かす LLMで実際に⾞を制御するLLM in Vehicleを 開発。メディアなど100⼈以上が体験 • 物体検知 + GPT-4 +
制御 ◦ カメラで認知した情報をDeticでopen vocabularyに 検知、位置情報を取得 ◦ ⾳声指⽰とプロンプトとしてOpenAI APIに接続 • 複雑な指⽰‧判断にも対応 ◦ 「バナナと同じ⾊のコーンに⾏って」 ◦ 「右に⾏くと1⼈、左に⾏くと5⼈が事故にあう」 • 課題が多く⾒つかった ◦ ⼊⼒〜動作までの時間、精度、視覚情報との接続 LLM in Vehicleのデモ⾞両 5
マルチモーダル学習ライブラリ「Heron」 LLMに視覚を与える学習フレームワークを 開発。最⼤700億パラメータのモデルを公開 • 画像を⾔語トークンに変換する ◦ BLIP, GITなどの変換⼿法 (= Adapter)
を採⽤ ◦ 物体検知では難しかった映像全体の把握が可能 • 様々なモデルを組み合わせて学習できる ◦ Vision Encoder + Adapter + LLM ◦ ⽇本語データセットも提供 • ソースコード、デモも公開中 ◦ https://github.com/turingmotors/heron ◦ デモページ → Link Heronの柔軟な学習設定 6
学習に必要なコスト LLMの学習にはかなりのコストが必要。 GPUだけでなく、データセットも重要 • Llama2-70Bの学習コスト ◦ 172万 GPU時間 = 10億円
@ AWS ◦ LoRAで学習させるだけでも百万円単位 • 分散並列学習の技術が重要 ◦ HPC的なインフラ + 並列技術 ◦ Turingでも⼤規模な設備投資を計画 • データセット ◦ 独⾃に⾛⾏データを6000時間取得 ◦ ⾃動運転のための⼤規模なVisual QAデータセット Wang, Guanhua, et. al. 2023. “ZeRO++: Extremely Efficient Collective Communication for Giant Model Training.” arXiv [cs.DC]. arXiv. http://arxiv.org/abs/2306.10209. DriveLMデータセット (https://github.com/OpenDriveLab/DriveLM) 7
推論のスループットとレイテンシ LLMの推論は時間がかかる。APIではレイテ ンシ、エッジではスループットが課題 • APIのレイテンシ vs エッジのスループット ◦ 512tokenで2-3秒、たまに数⼗秒になることも ◦
A100でも⼤きなモデルは数⼗~数百token/秒程度 • ⾞の制御に使えるか? ◦ 通信が安定しない(⾼速‧⼭奥‧トンネル) ▪ 時速100kmでは1秒で27m進む ◦ エッジデバイスで動くLLMを開発する必要がある OpenAI / Azure OpenAI APIの応答時間 (https://gptforwork.com/tools/openai-api-and-other-llm- apis-response-time-tracker ) LLM in Vehicleのエッジ計算機 8
⾞載モデルを動かすには? 計算HWとソフトウェアの進化に賭けつつ、 2030年の量産に向け独⾃開発を進める。 • GPU性能は⾶躍的に向上しているが… ◦ 7年前に⽐べて50倍程度向上 (P100/H100) ◦ エッジデバイスでは先になるかも
→ 独⾃のTransformer推論⽤チップの開発に着⼿ • Navigator/Diverモデル ◦ 速い反応が要求されるdriverと複雑な判断が要求さ れるnavigator (=LLM) を分離する ◦ 特許出願済 GPUの性能は⾶躍的に上昇している LLMと制御モデルが協調するNavigator-Driverモデル ( http://cameracourage.com/tag/stage-notes/ ) 9
まとめ • 将来の⾃動運転⾞にはLLMが必要 ◦ 複雑なコンテキストを理解する「脳」が必要 ◦ 視覚、その他センサ情報を統合する • ⾞に組み込むには速度が第⼀ ◦
LLMの推論はスループット‧レイテンシに課題 ◦ HW‧ソフトウェアで⾼速化を⽬指す • 質問‧コメントお願いします ◦ パネルディスカッション、懇親会で ◦ テックブログもどうぞ Turingのテックブログ ( https://zenn.dev/p/turing_motors ) 10
None