Slide 1

Slide 1 text

⽇本語Vision-Languageモデルの学習 と評価ベンチマークの構築 Turing株式会社 Director of AI ⼭⼝ 祐 W&B ミートアップ#13 in Tokyo (2024.6.18)

Slide 2

Slide 2 text

⾃⼰紹介 ⼭⼝ 祐 @ymg_aq チューリング株式会社 Director of AI ● 産業技術総合研究所/⽶NISTで研究の傍ら、 囲碁‧将棋などのゲームAIを開発 ● 上場企業執⾏役員を経て2022年 チューリン グに創業メンバーとして参画 ● AI開発の責任者として完全⾃動運転の実現に 向けた⽣成AIの研究開発を推進 2

Slide 3

Slide 3 text

チューリング株式会社 AIとカメラのみでハンドルがない⾃動運転⾞ をつくるスタートアップ。 ● AIとソフトウェアから新しいクルマを ○ ソフトウェアエンジニアが中⼼ ○ 2021年創業、正社員40+⼈ ○ 2024年4⽉に累計45億円の資⾦調達 ● 完全⾃動運転を⽬指す ○ ⾃動運転だけでなく、⾞両‧半導体の開発も⼿掛ける ⾃社⽣産の電気⾃動⾞(JMS2023に出展) 3 Turingメンバーと⾞両⼯場

Slide 4

Slide 4 text

Contents ● マルチモーダルモデルとは? ○ Vision & Languageモデルの仕組みと学習 ● ⽇本語VLM評価ベンチマーク「Heron-Bench」 ○ データセット構築と評価⽅法 ● ⼤規模モデルのエッジへの搭載 ○ ⾞載環境での推論に向けた半導体開発 4 学習 評価 デプロイ

Slide 5

Slide 5 text

マルチモーダルモデルとは? 学習 評価 デプロイ

Slide 6

Slide 6 text

運転シーンと⼈間の思考 6 この状況で左折したい どこを見ればよい?

Slide 7

Slide 7 text

運転シーンと⼈間の思考 7 ローカルの言語 と記号の理解 複雑な三者の 関係の理解 カラーコーン 配置の意味 人間の身体的 指示の理解 人間は無意識のうちに多くの「文 脈」を理解している。 高度な自動運転には 視覚情報と言語的理解の融合(= マルチモーダル的理解)が必要

Slide 8

Slide 8 text

第3世代の⾃動運転タスク 8 深層学習ベースの自動運転の学習データは、大規模生成AIをターゲットとした 自然言語による状況理解に移行しつつある [Li+ 2024] 第1世代 (CNN, 2012~) 第2世代 (Transformer, 2019~) 第3世代 (LLM, 2023~) ● 前方カメラ ● LiDAR ● 複数カメラ ● LiDAR ● Radar ● HDマップ ● 周囲カメラ ● 言語による質問 /応答 DriveLM [Sima+ 2023] nuScenes [Caesar+ 2019] KITTI [Geiger+ 2012]

Slide 9

Slide 9 text

チューリングの⾃動運転AI 9 走行データ テキスト アノテーション 空間把握・ 身体性の獲得 2. 運転ドメイン への適合 量産車両 に搭載 日本の道路に 適合した 自動運転AI Webデータ 画像-言語 データセット 言語データセット LLM 自動運転 マルチモーダル モデル フィルタリング ペア抽出 学習 視覚モデルと 融合 1. マルチモーダル学習 学習 GPUサーバ 分散学習 ライブラリ 高速化 3. 分散環境による 大規模化

Slide 10

Slide 10 text

⼤規模マルチモーダルモデル LLMをベースとした⾔語以外の⼊⼒‧出 ⼒‧タスクに対応するモデルが台頭 ● LLMが認知の中核 ○ CLIP[Radford+, 2021]以降、特定のモーダルと⾔語モ デルを結びつける技術が発展 ○ LLMを⽤いることで⼤幅に学習コストを抑える ● 多様なモーダルへの拡張 ○ 画像、動画、⾳声、… ○ ⼊⼒だけでなく出⼒にも複合的に対応 ○ GTP-4o、Gemini 1.5 Pro、… 代表的なマルチモーダルモデル [Zhang+ 2024] 10

Slide 11

Slide 11 text

マルチモーダルモデルの仕組み 11 Image Video Audio text Image / Video NFNet-F6 ViT CLIP ViT Eva-CLIP ViT ︙ C-Former HuBERT エンコーダー ⼊⼒ BEATs ︙ Audio Linear Projctor MLP Cross- attention Q-Former P-Former MQ-Former ⼊⼒プロジェクター (アダプター) ︙ Flan-T5 UL2 Qwen OPT LLM Backbone ︙ LLaMA LLaMA-2 Vicuna ⼊⼒テキスト text 出⼒テキスト Tiny Transformer MLP 出⼒プロジェクター ︙ Stable Diffusion Zeroscope ジェネレーター AudioLDM ︙ Image Video Audio 出⼒ マルチモーダル理解 マルチモーダル⽣成 [Zhang+ 2024] Fig.2を参考に作成

Slide 12

Slide 12 text

学習ライブラリ Heron Heronのconfig例 12 各モジュールや学習設定を簡単なconfig のみで⾃由に置換可能な学習ライブラリ をOSSとして公開 ● 様々なモデルを組み合わせて学習できる ○ 画像エンコーダ + アダプター + LLM ■ LLama-2, OPT, GPT-NeoX, StableLM, … ○ ⽇本語データセット/モデルも提供 デモサイト github.com/turingmotors/heron

Slide 13

Slide 13 text

⽇本語V&Lモデルの推論例 13 この状況ではどのような点に気 をつけるべきですか? 画像では、道路⼯事中の作業員が道 路の⽚側に⽴ち、もう⽚側に⻩⾊い コーンが置かれている。この状況を 考えると、作業員は交通の流れを妨 げないように注意し、交通規則を遵 守しなくてはならない。さらに、歩 ⾏者や他の⾞両が道路を横断する際 には、安全を確保し事故を避けるた めに、コーンを迂回したり、⼀時停 ⽌したりする必要がある。 → どう評価したらいい?

Slide 14

Slide 14 text

⽇本語VLM評価ベンチマーク Heron-Bench 学習 評価 デプロイ

Slide 15

Slide 15 text

VLMの評価ベンチマーク 15 ● 主要なVQA(Visual Question and Answering)ベンチマーク ○ VQA v2 [Goyal + 2017] ○ GQA [Hudson and Manning 2019] ○ VizWiz [Hessel + 2021] ● LLMを⽤いたVQAの評価ベンチマーク ○ TouchStone [Bai+ 2023] ○ LLaVA-Bench (COCO, in-the-wild) [Liu+ 2023] ■ 画像理解と会話能⼒をGPT4を利⽤して定量的に図るために提案 ■ Conversation, Detail, Complexの3つの能⼒について測定 VQA v2の画像と質問例

Slide 16

Slide 16 text

Heron-Bench [Inoue+ 2023] 16 ● ⽇本語の視覚-⾔語評価ベンチマーク ⽇本特有の画像や⽂化理解に関する質問 CVPR 2024 The 3rd Workshop on Computer Vision in the Wildに採択 Zenn HuggingFace 本⽇のCVPR Workshopで発表

Slide 17

Slide 17 text

評価⽤データセットの詳細 17 ● ⽇本に由来する21枚の画像 (CC BY 1.0 / CC BY 2.0) の画像を収集 ● Conversation, Detail, Complex カテゴリに分け、テキストアノテーションを付与 ● 各画像は7つのサブカテゴリに分類 (anime, art, landmark, etc.) Anime Art Landmark Culture Food Landscape Traffic

Slide 18

Slide 18 text

Heron-Benchのスコア算出⽅法 18 1. 画像の説明⽂を⼈⼿で付与する (コンテキスト) 2. GPT-4 (No Vision)にコンテキストとプロンプトを与えてGPT-4回答⽂を作成 3. コンテキスト、GPT-4回答、VLM回答をGPT-4に与えて10点満点で評価 この場所における制限速度はいくつですか? Gemini 1.5 Pro 速度は時速40キロです。[Score: 9] Claude 3 Opus 画像の道路標識によると、この場所の制限速度は 23km/hから12km/hに減速することが⽰されて います。[Score: 1] アシスタントの 回 答 は、 質 問 に 対 して 不 正 確 であり、 誤 解 を 招 く 情 報 を 提供しています。質問は「この場所における制限速度はいくつですか?」という ものでしたが、アシスタントは制限速度として「23km/hから12km/hに減速す ること」と回答しています。これは、画像に表⽰されている距離標識(ニセコま で12km、倶知安まで23km)を誤って速度制限と解釈してしまったものです。

Slide 19

Slide 19 text

各モデルの評価結果と傾向 19 ● LLMと同様にクローズドモデル (GPT-4V, Claude 3 Opus etc.)のスコアが⾼い ● LLaVA-Bench (in-the-wild)とHeron-Benchを⽐較すると10%以上の差がある →⽇本特有の⽂化的理解は改善の余地

Slide 20

Slide 20 text

各モデルの⽂化理解 20 Q: 相撲の⼒⼠が何をしている かを説明してください (正解: 横綱⼟俵⼊り) Heron GIT : 画像では、2⼈の⼒⼠のパフォーマンスが⾏われており、1⼈はリングの上で相撲の技を披露し、 もう1⼈の⼒⼠はリングの近くで太⿎を叩いています。(略) GPT-4V : この写真は、⽇本の伝統的なスポーツである相撲の試合を捉えたものです。⼒⼠たちは⼟俵の上で対戦しており、 周囲には観客が詰めかけています。写真の中央にいる⼆⼈の⼒⼠は、 試合の⼀環として、おそらく⽴ち合い直前の儀式を ⾏っているところです。(略) Claude 3 Opus : 画像は相撲の取組の様⼦を捉えたものです。⼟俵の上で2⼈の⼒⼠が対峙し、四股を踏んでいる最中の ようです。⼟俵の周りには⼤勢の観客が⾒守っており、伝統的な相撲の興⾏の雰 囲気が伝わってきます。⼒⼠たちは精⼀杯 の⼒を出し合い、勝負の⾏⽅に観客も注⽬してい るのが分かります。(略)

Slide 21

Slide 21 text

Heron VLMリーダーボード powered by W&B 21 Weights & Biases Japanと連携してVLMリーダボードを整備し、先週リリース http://vlm.nejumi.ai/

Slide 22

Slide 22 text

Heron VLMリーダーボード powered by W&B 22 15を超えるVLMの⽐較が可能 GPT-4o Heron GIT (7B)

Slide 23

Slide 23 text

Heron VLMリーダーボード powered by W&B 23 ● 画像、質問、VLMの回答、GPT-4による評価、スコアを⼀⽬で確認できる ● 複数モデルの結果を並べて表⽰可能 Gemini 1.5-Proはこの画像からジブリ(宮崎駿監督の作品)と判断

Slide 24

Slide 24 text

⼤規模モデルの エッジへの搭載 学習 評価 デプロイ

Slide 25

Slide 25 text

⼤規模モデルを⾞に搭載する 25 生成AIをエッジコンピューティングできる高効率な半導体が必要 → メモリの帯域幅がボトルネックになる 遠隔で実行 (映像入力や高速応答させるのが難しい ) API API その場で計算 (データ転送の問題がない) 学習した大規模VLMをどう「推論」させるか? → リアルタイムに動作させるにはその場(エッジ)で計算する必要がある データセンター環境 エッジ 環境

Slide 26

Slide 26 text

⾔語モデル on FPGA(Swan) LlamaアーキテクチャをFPGAで動かすため のライブラリをOSSとして公開 ● ⾔語モデルのC++実装 → HLS ○ ⾼位合成(HLS)によりFPGA⽤のコードを⽣成 ○ 関数処理ごとに配置 ● ⼩規模FPGA上での実機デプロイ ○ ⽐較的安価&短納期で⼊⼿可能な FPGAで実⾏できることを確認 ○ 現在は1B以上のパラメータのモデルを 動作させるため、⼤規模なFPGAでの 開発に移⾏ ⽣成されたビットストリームの配置配線 Kria KV260 26 github.com/turingmotors/swan

Slide 27

Slide 27 text

CIM(Compute in Memory)技術を開発中 演算器をメモリーに組み込むことで メモリー/演算器間のデータ転送のボトルネックを解消 27 メモリー容量が大きいが演算器へのデー タ転送効率が低いため、 演算器は低効率でしか実行されない。 ➡演算速度が遅い 演算器 メモリー 例: GPU CIM (Compute in Memory) 次世代 演算器 メモリー メモリチップ内に演算器を組み込 み、演算器とメモリを近接化するこ とでデータ転送効率を引き上げる。 ボトルネックが解消され、高効率で 演算を実行。 ➡演算速度が早い 従来 ※演算器とメモリーは別チップ ※演算器とメモリーは同一チップ

Slide 28

Slide 28 text

開発ロードマップ 28 2023.12 チップ着手 2024.12 Phase 1 FPGA 2026 Phase 2 Test Chip 2028 Phase 3 MP Chip 2030 製品実装 Sparse化・ 量子化検証 基本回路検証 テストチップ開発 MPチップ開発 チップ量産化 Sparse化・量子化ツール開発 マルチモーダル化 世界モデルの適用 1st 計算基盤構築 2st 計算基盤構築 3rd 計算基盤構築 運転知識の一般化 環境適応・身体性の獲得 大規模学習による汎化 モデル圧縮・高速化・安定化 汎用モデルアーキテクチャ AI開発 半導体開発 ● 数⼗億パラメータのLLMを⾼速動 作させる原理検証 ● 世界初の報告になる⾒込み ● 8⽉にも10億パラメータの検証 ● 量産化‧⾞両への組み込み ● 完全⾃動運転⾞の実現 ● 汎⽤のエッジデバイス向けへの展開

Slide 29

Slide 29 text

まとめ 29 ● ⾃動運転にはマルチモーダル的理解が重要 ○ LLMを中⼼とした技術開発が加速 ● VLMの⽇本語能⼒を測定するベンチマークを提案 ○ Heron VLM リーダーボードとして公開 ● エッジ環境でデプロイするにはメモリ帯域が課題 ○ ⾼速推論に向けた独⾃半導体開発を進める

Slide 30

Slide 30 text

No content