Slide 1

Slide 1 text

マルチモーダル学習ライブラリ Heronと⾃動運転への応⽤ ⼭⼝ 祐 Turing株式会社 Director of AI DeepSpeed Meetup in Japan 2024.5.23

Slide 2

Slide 2 text

Contents ● チューリングの取り組み ○ ⾃動運転とマルチモーダル的理解 ● マルチモーダルモデルとは? ○ マルチモーダルモデルの仕組みと系譜 ● 学習ライブラリ「Heron」 ○ DeepSpeedの組み込みと活⽤ 1

Slide 3

Slide 3 text

⾃⼰紹介 ⼭⼝ 祐 @ymg_aq チューリング株式会社 Director of AI ● 産業技術総合研究所/⽶NISTで研究の傍ら、 囲碁‧将棋などのゲームAIを開発 ● 上場企業執⾏役員を経て2022年 チューリン グに創業メンバーとして参画 ● AI開発の責任者として完全⾃動運転の実現に 向けた⽣成AIの研究開発を推進 2

Slide 4

Slide 4 text

チューリング株式会社 AIとカメラのみでハンドルがないEVをつくる スタートアップ。 ● AIとソフトウェアから新しいクルマを ○ ソフトウェアエンジニアが中⼼に創業 ○ 2021年創業、正社員40+⼈ ○ ⾃動運転だけでなく、⾞両‧半導体の開発も⼿掛ける ■ 完全⾃動運転を⽬指す ● ⽣成AI開発のミッション ○ LLMを発展させた⼤規模マルチモーダルモデル ○ 世界モデルによる⾼度な運転タスクの獲得 ⾃社⽣産のEV(JMS2023に出展) 3 Turingメンバーと⾞両⼯場

Slide 5

Slide 5 text

運転シーンと⼈間の思考 4 この状況で左折したい どこを見ればよい?

Slide 6

Slide 6 text

運転シーンと⼈間の思考 5 ローカルの言語 と記号の理解 複雑な三者の 関係の理解 カラーコーン 配置の意味 人間の身体的 指示の理解 人間は無意識のうちに多くの「文 脈」を理解している。 高度な自動運転には 視覚情報と言語的理解の融合(= マルチモーダル的理解)が必要

Slide 7

Slide 7 text

⾃動運転マルチモーダルAI 6 走行データ テキスト アノテーション 空間把握・ 身体性の獲得 2. 運転ドメイン への適合 量産車両 に搭載 日本の道路に 適合した 自動運転AI Webデータ 画像-言語 データセット 言語データセット LLM 自動運転 マルチモーダル モデル フィルタリング ペア抽出 学習 視覚モデルと 融合 1. マルチモーダル学習 学習 GPUサーバ 分散学習 ライブラリ 高速化 3. 分散環境による 大規模化

Slide 8

Slide 8 text

マルチモーダルモデルとは?

Slide 9

Slide 9 text

⼤規模マルチモーダルモデル LLMをベースとした⾔語以外の⼊⼒‧出 ⼒‧タスクに対応するモデルが台頭 ● LLMが認知の中核 ○ CLIP[Radford+, 2021]以降、特定のモーダルと⾔語モ デルを結びつける技術が発展 ○ LLMを⽤いることで⼤幅に学習コストを抑える ● 多様なモーダルへの拡張 ○ 画像、動画、⾳声、… ○ ⼊⼒だけでなく出⼒にも複合的に対応 ○ GTP-4o、Gemini 1.5 Pro、…  → 学習⼤変では…? 代表的なマルチモーダルモデル [Zhang+ 2024] 8

Slide 10

Slide 10 text

マルチモーダルモデルの仕組み 9 Image Video Audio text Image / Video NFNet-F6 ViT CLIP ViT Eva-CLIP ViT ︙ C-Former HuBERT エンコーダー ⼊⼒ BEATs ︙ Audio Linear Projctor MLP Cross- attention Q-Former P-Former MQ-Former ⼊⼒プロジェクター (アダプター) ︙ Flan-T5 UL2 Qwen OPT LLM Backbone ︙ LLaMA LLaMA-2 Vicuna ⼊⼒テキスト text 出⼒テキスト Tiny Transformer MLP 出⼒プロジェクター ︙ Stable Diffusion Zeroscope ジェネレーター AudioLDM ︙ Image Video Audio 出⼒ マルチモーダル理解 マルチモーダル⽣成 [Zhang+ 2024] Fig.2を参考に作成

Slide 11

Slide 11 text

Flamingo [Alayac+ 2022] 画像‧ビデオ‧テキストを同時に処理する モデルでFew-shot Learningが可能に ● 画像エンコーダ + LLM ○ 事前学習されたCLIPとChinchilla [Hoffmann+ 2022] ○ プロジェクターとしてGated Cross Attensionを追 加&学習 ○ インターリーブされたデータセットを学習 ● データのリサンプリング ○ Perceiver [Jaegle+ 2021]構造のResamplerによって画 像‧動画を固定⻑トークンに効率的に変換 Flamingoのアーキテクチャ 任意の空間‧時間⽅向の変換に対応 10

Slide 12

Slide 12 text

LLaVA [Liu+ 2023] 画像-⾔語の⾼品質な指⽰チューニング データで⾼い性能を実現 ● 指⽰チューニングデータ ○ COCOデータセットに対してGPT-4で付与した ⼤量の指⽰チューニングデータを⽣成、 end-to-endで学習 ● コード‧データセットをOSSとして公開 ● 発展モデルも多数 ○ LLaVA-Med [Li+ 2023], LLaVA-1.5 [Liu+ 2023], LLaVA-NeXT [Liu+ 2024], … LLaVAのアーキテクチャ VLMのベンチマークを定義‧公開 11

Slide 13

Slide 13 text

Idefics2 [Laurençon+ 2024] 様々な⼯夫でVQAやキャプショニング、 OCRなどで10B以下のモデルで最⾼レベ ルの性能を達成 ● 画像の処理に関する⼯夫 ○ 複数画像、任意位置の埋め込み、画像分割に よる⾼分解能の実現 ● ⼤規模な学習データセット ○ オープンに公開されている59種類の多様な データセットの形式を統⼀ Idefics2のアーキテクチャ 12

Slide 14

Slide 14 text

学習ライブラリ Heron

Slide 15

Slide 15 text

マルチモーダルモデルの仕組み(再掲) 14 Image Video Audio text Image / Video NFNet-F6 ViT CLIP ViT Eva-CLIP ViT ︙ C-Former HuBERT エンコーダー ⼊⼒ BEATs ︙ Audio Linear Projctor MLP Cross- attention Q-Former P-Former MQ-Former ⼊⼒プロジェクター (アダプター) ︙ Flan-T5 UL2 Qwen OPT LLM Backbone ︙ LLaMA LLaMA-2 Vicuna ⼊⼒テキスト text 出⼒テキスト マルチモーダル理解 [Zhang+ 2024] Fig.2を参考に作成 Tiny Transformer MLP 出⼒プロジェクター ︙ Stable Diffusion Zeroscope ジェネレーター AudioLDM ︙ Image Video Audio 出⼒ マルチモーダル⽣成

Slide 16

Slide 16 text

学習ライブラリ Heron Heronのconfig例 15 各モジュールや学習設定を簡単なconfig のみで⾃由に置換可能な学習ライブラリ をOSSとして公開 ● 様々なモデルを組み合わせて学習できる ○ 画像エンコーダ + アダプター + LLM ■ LLama-2, OPT, GPT-NeoX, StableLM, … ○ ⽇本語データセット/モデルも提供 ● 分散学習にも対応 ○ DeepSpeed ZeRO1/ZeRO2/ZeRO3 デモサイト github.com/turingmotors/heron

Slide 17

Slide 17 text

⽇本語V&Lモデルの推論例 16 この状況ではどのような点に気 をつけるべきですか? 画像では、道路⼯事中の作業員 が道路の⽚側に⽴ち、もう⽚側 に⻩⾊いコーンが置かれてい る。この状況を考えると、作業 員は交通の流れを妨げないよう に注意し、交通規則を遵守しな くてはならない。さらに、歩⾏ 者や他の⾞両が道路を横断する 際には、安全を確保し事故を避 けるために、コーンを迂回した り、⼀時停⽌したりする必要が ある。

Slide 18

Slide 18 text

V&L評価: Heron-Bench 17 ● ⽇本語の視覚-⾔語評価ベンチマーク ○ ⽇本特有の画像や⽂化理解に関する質問 ● GPT-4vやClaude3などで評価 ○ WandB社と連携しリーダーボード化も準備中 ○ MIRU2024⼝頭発表採択

Slide 19

Slide 19 text

DeepSpeed in Heron モデル学習と組み合わせて分散学習の バックエンドとして活⽤ ● ⼤規模モデルの学習 ○ フルパラメータファインチューニングをする 場合などではマルチノード学習が必須 ○ transformersに組み込みやすいDeepSpeed を活⽤ ● 開発過程でtransformersのバグも ○ 特定のモデルでZeRO3を使うと、state_dict が削除される不具合 transformersのDeepSpeed関連のバグを修正 18 DeepSpeed ZeRO1の可視化 ( zenn.dev/turing_motors/articles/d00c46a79dc976 )

Slide 20

Slide 20 text

DeepSpeedを使った⼤規模分散学習 画像エンコーダ、LLMを含むフルパラメー タ事前学習を256GPUs/ZeRO3で実施 ● マルチノード環境 ○ ABCI グランドチャレンジ(V-Week)で実施 ○ V100 256基を使⽤ ● ⼤規模データと事前学習 ○ COCO、LAION、⽣成OCRなどの⽇本語化した画 像-⾔語データセット + テキストのみのデータ ● ⼤規模学習の難しさも ○ lossの発散、不定期に計算速度が低下 学習ステップごとの経過時間 19

Slide 21

Slide 21 text

GPUクラスタとの連携 ⼤規模計算環境でマルチモーダルモデルの 分散学習を準備中 ● GENIACプロジェクト ○ 政府がAI開発事業者を⽀援 ○ GCP上のH100ノードを利⽤可能 ● ⾃社GPUクラスタ(Gaggle-Cluster-1) ○ H100 96基 ○ ノード間通信‧ストレージI/Oの最⼤化 ○ HPC的なジョブ管理システム → パネルディスカッションでもお話します GENIACプロジェクト 9⽉稼働予定のGaggle-Cluster-1 20

Slide 22

Slide 22 text

まとめ チューリングでは⾼度な⾃動運転AIを実現するため、 独⾃のマルチモーダル学習ライブラリを構築した ● 運転環境ではマルチモーダル的理解が重要 ○ 視覚情報と⾔語的理解を組み合わせた⾼度な認知 ● 近年のマルチモーダルモデルはLLMをベースに ○ エンコーダーとアダプターを学習することで効率的に構築 ● 学習ライブラリの構築と分散学習を実施 ○ DeepSpeedを組み込み、⼤規模環境での分散学習を実現 21 チューリングのテックブログ (zenn.dev/p/turing_motors)

Slide 23

Slide 23 text

No content