Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
⽇本語Vision-Languageモデルの学習 と評価ベンチマークの構築 Turing株式会社 Director of AI ⼭⼝ 祐 W&B ミートアップ#13 in Tokyo (2024.6.18)
Slide 2
Slide 2 text
⾃⼰紹介 ⼭⼝ 祐 @ymg_aq チューリング株式会社 Director of AI ● 産業技術総合研究所/⽶NISTで研究の傍ら、 囲碁‧将棋などのゲームAIを開発 ● 上場企業執⾏役員を経て2022年 チューリン グに創業メンバーとして参画 ● AI開発の責任者として完全⾃動運転の実現に 向けた⽣成AIの研究開発を推進 2
Slide 3
Slide 3 text
チューリング株式会社 AIとカメラのみでハンドルがない⾃動運転⾞ をつくるスタートアップ。 ● AIとソフトウェアから新しいクルマを ○ ソフトウェアエンジニアが中⼼ ○ 2021年創業、正社員40+⼈ ○ 2024年4⽉に累計45億円の資⾦調達 ● 完全⾃動運転を⽬指す ○ ⾃動運転だけでなく、⾞両‧半導体の開発も⼿掛ける ⾃社⽣産の電気⾃動⾞(JMS2023に出展) 3 Turingメンバーと⾞両⼯場
Slide 4
Slide 4 text
Contents ● マルチモーダルモデルとは? ○ Vision & Languageモデルの仕組みと学習 ● ⽇本語VLM評価ベンチマーク「Heron-Bench」 ○ データセット構築と評価⽅法 ● ⼤規模モデルのエッジへの搭載 ○ ⾞載環境での推論に向けた半導体開発 4 学習 評価 デプロイ
Slide 5
Slide 5 text
マルチモーダルモデルとは? 学習 評価 デプロイ
Slide 6
Slide 6 text
運転シーンと⼈間の思考 6 この状況で左折したい どこを見ればよい?
Slide 7
Slide 7 text
運転シーンと⼈間の思考 7 ローカルの言語 と記号の理解 複雑な三者の 関係の理解 カラーコーン 配置の意味 人間の身体的 指示の理解 人間は無意識のうちに多くの「文 脈」を理解している。 高度な自動運転には 視覚情報と言語的理解の融合(= マルチモーダル的理解)が必要
Slide 8
Slide 8 text
第3世代の⾃動運転タスク 8 深層学習ベースの自動運転の学習データは、大規模生成AIをターゲットとした 自然言語による状況理解に移行しつつある [Li+ 2024] 第1世代 (CNN, 2012~) 第2世代 (Transformer, 2019~) 第3世代 (LLM, 2023~) ● 前方カメラ ● LiDAR ● 複数カメラ ● LiDAR ● Radar ● HDマップ ● 周囲カメラ ● 言語による質問 /応答 DriveLM [Sima+ 2023] nuScenes [Caesar+ 2019] KITTI [Geiger+ 2012]
Slide 9
Slide 9 text
チューリングの⾃動運転AI 9 走行データ テキスト アノテーション 空間把握・ 身体性の獲得 2. 運転ドメイン への適合 量産車両 に搭載 日本の道路に 適合した 自動運転AI Webデータ 画像-言語 データセット 言語データセット LLM 自動運転 マルチモーダル モデル フィルタリング ペア抽出 学習 視覚モデルと 融合 1. マルチモーダル学習 学習 GPUサーバ 分散学習 ライブラリ 高速化 3. 分散環境による 大規模化
Slide 10
Slide 10 text
⼤規模マルチモーダルモデル LLMをベースとした⾔語以外の⼊⼒‧出 ⼒‧タスクに対応するモデルが台頭 ● LLMが認知の中核 ○ CLIP[Radford+, 2021]以降、特定のモーダルと⾔語モ デルを結びつける技術が発展 ○ LLMを⽤いることで⼤幅に学習コストを抑える ● 多様なモーダルへの拡張 ○ 画像、動画、⾳声、… ○ ⼊⼒だけでなく出⼒にも複合的に対応 ○ GTP-4o、Gemini 1.5 Pro、… 代表的なマルチモーダルモデル [Zhang+ 2024] 10
Slide 11
Slide 11 text
マルチモーダルモデルの仕組み 11 Image Video Audio text Image / Video NFNet-F6 ViT CLIP ViT Eva-CLIP ViT ︙ C-Former HuBERT エンコーダー ⼊⼒ BEATs ︙ Audio Linear Projctor MLP Cross- attention Q-Former P-Former MQ-Former ⼊⼒プロジェクター (アダプター) ︙ Flan-T5 UL2 Qwen OPT LLM Backbone ︙ LLaMA LLaMA-2 Vicuna ⼊⼒テキスト text 出⼒テキスト Tiny Transformer MLP 出⼒プロジェクター ︙ Stable Diffusion Zeroscope ジェネレーター AudioLDM ︙ Image Video Audio 出⼒ マルチモーダル理解 マルチモーダル⽣成 [Zhang+ 2024] Fig.2を参考に作成
Slide 12
Slide 12 text
学習ライブラリ Heron Heronのconfig例 12 各モジュールや学習設定を簡単なconfig のみで⾃由に置換可能な学習ライブラリ をOSSとして公開 ● 様々なモデルを組み合わせて学習できる ○ 画像エンコーダ + アダプター + LLM ■ LLama-2, OPT, GPT-NeoX, StableLM, … ○ ⽇本語データセット/モデルも提供 デモサイト github.com/turingmotors/heron
Slide 13
Slide 13 text
⽇本語V&Lモデルの推論例 13 この状況ではどのような点に気 をつけるべきですか? 画像では、道路⼯事中の作業員が道 路の⽚側に⽴ち、もう⽚側に⻩⾊い コーンが置かれている。この状況を 考えると、作業員は交通の流れを妨 げないように注意し、交通規則を遵 守しなくてはならない。さらに、歩 ⾏者や他の⾞両が道路を横断する際 には、安全を確保し事故を避けるた めに、コーンを迂回したり、⼀時停 ⽌したりする必要がある。 → どう評価したらいい?
Slide 14
Slide 14 text
⽇本語VLM評価ベンチマーク Heron-Bench 学習 評価 デプロイ
Slide 15
Slide 15 text
VLMの評価ベンチマーク 15 ● 主要なVQA(Visual Question and Answering)ベンチマーク ○ VQA v2 [Goyal + 2017] ○ GQA [Hudson and Manning 2019] ○ VizWiz [Hessel + 2021] ● LLMを⽤いたVQAの評価ベンチマーク ○ TouchStone [Bai+ 2023] ○ LLaVA-Bench (COCO, in-the-wild) [Liu+ 2023] ■ 画像理解と会話能⼒をGPT4を利⽤して定量的に図るために提案 ■ Conversation, Detail, Complexの3つの能⼒について測定 VQA v2の画像と質問例
Slide 16
Slide 16 text
Heron-Bench [Inoue+ 2023] 16 ● ⽇本語の視覚-⾔語評価ベンチマーク ⽇本特有の画像や⽂化理解に関する質問 CVPR 2024 The 3rd Workshop on Computer Vision in the Wildに採択 Zenn HuggingFace 本⽇のCVPR Workshopで発表
Slide 17
Slide 17 text
評価⽤データセットの詳細 17 ● ⽇本に由来する21枚の画像 (CC BY 1.0 / CC BY 2.0) の画像を収集 ● Conversation, Detail, Complex カテゴリに分け、テキストアノテーションを付与 ● 各画像は7つのサブカテゴリに分類 (anime, art, landmark, etc.) Anime Art Landmark Culture Food Landscape Traffic
Slide 18
Slide 18 text
Heron-Benchのスコア算出⽅法 18 1. 画像の説明⽂を⼈⼿で付与する (コンテキスト) 2. GPT-4 (No Vision)にコンテキストとプロンプトを与えてGPT-4回答⽂を作成 3. コンテキスト、GPT-4回答、VLM回答をGPT-4に与えて10点満点で評価 この場所における制限速度はいくつですか? Gemini 1.5 Pro 速度は時速40キロです。[Score: 9] Claude 3 Opus 画像の道路標識によると、この場所の制限速度は 23km/hから12km/hに減速することが⽰されて います。[Score: 1] アシスタントの 回 答 は、 質 問 に 対 して 不 正 確 であり、 誤 解 を 招 く 情 報 を 提供しています。質問は「この場所における制限速度はいくつですか?」という ものでしたが、アシスタントは制限速度として「23km/hから12km/hに減速す ること」と回答しています。これは、画像に表⽰されている距離標識(ニセコま で12km、倶知安まで23km)を誤って速度制限と解釈してしまったものです。
Slide 19
Slide 19 text
各モデルの評価結果と傾向 19 ● LLMと同様にクローズドモデル (GPT-4V, Claude 3 Opus etc.)のスコアが⾼い ● LLaVA-Bench (in-the-wild)とHeron-Benchを⽐較すると10%以上の差がある →⽇本特有の⽂化的理解は改善の余地
Slide 20
Slide 20 text
各モデルの⽂化理解 20 Q: 相撲の⼒⼠が何をしている かを説明してください (正解: 横綱⼟俵⼊り) Heron GIT : 画像では、2⼈の⼒⼠のパフォーマンスが⾏われており、1⼈はリングの上で相撲の技を披露し、 もう1⼈の⼒⼠はリングの近くで太⿎を叩いています。(略) GPT-4V : この写真は、⽇本の伝統的なスポーツである相撲の試合を捉えたものです。⼒⼠たちは⼟俵の上で対戦しており、 周囲には観客が詰めかけています。写真の中央にいる⼆⼈の⼒⼠は、 試合の⼀環として、おそらく⽴ち合い直前の儀式を ⾏っているところです。(略) Claude 3 Opus : 画像は相撲の取組の様⼦を捉えたものです。⼟俵の上で2⼈の⼒⼠が対峙し、四股を踏んでいる最中の ようです。⼟俵の周りには⼤勢の観客が⾒守っており、伝統的な相撲の興⾏の雰 囲気が伝わってきます。⼒⼠たちは精⼀杯 の⼒を出し合い、勝負の⾏⽅に観客も注⽬してい るのが分かります。(略)
Slide 21
Slide 21 text
Heron VLMリーダーボード powered by W&B 21 Weights & Biases Japanと連携してVLMリーダボードを整備し、先週リリース http://vlm.nejumi.ai/
Slide 22
Slide 22 text
Heron VLMリーダーボード powered by W&B 22 15を超えるVLMの⽐較が可能 GPT-4o Heron GIT (7B)
Slide 23
Slide 23 text
Heron VLMリーダーボード powered by W&B 23 ● 画像、質問、VLMの回答、GPT-4による評価、スコアを⼀⽬で確認できる ● 複数モデルの結果を並べて表⽰可能 Gemini 1.5-Proはこの画像からジブリ(宮崎駿監督の作品)と判断
Slide 24
Slide 24 text
⼤規模モデルの エッジへの搭載 学習 評価 デプロイ
Slide 25
Slide 25 text
⼤規模モデルを⾞に搭載する 25 生成AIをエッジコンピューティングできる高効率な半導体が必要 → メモリの帯域幅がボトルネックになる 遠隔で実行 (映像入力や高速応答させるのが難しい ) API API その場で計算 (データ転送の問題がない) 学習した大規模VLMをどう「推論」させるか? → リアルタイムに動作させるにはその場(エッジ)で計算する必要がある データセンター環境 エッジ 環境
Slide 26
Slide 26 text
⾔語モデル on FPGA(Swan) LlamaアーキテクチャをFPGAで動かすため のライブラリをOSSとして公開 ● ⾔語モデルのC++実装 → HLS ○ ⾼位合成(HLS)によりFPGA⽤のコードを⽣成 ○ 関数処理ごとに配置 ● ⼩規模FPGA上での実機デプロイ ○ ⽐較的安価&短納期で⼊⼿可能な FPGAで実⾏できることを確認 ○ 現在は1B以上のパラメータのモデルを 動作させるため、⼤規模なFPGAでの 開発に移⾏ ⽣成されたビットストリームの配置配線 Kria KV260 26 github.com/turingmotors/swan
Slide 27
Slide 27 text
CIM(Compute in Memory)技術を開発中 演算器をメモリーに組み込むことで メモリー/演算器間のデータ転送のボトルネックを解消 27 メモリー容量が大きいが演算器へのデー タ転送効率が低いため、 演算器は低効率でしか実行されない。 ➡演算速度が遅い 演算器 メモリー 例: GPU CIM (Compute in Memory) 次世代 演算器 メモリー メモリチップ内に演算器を組み込 み、演算器とメモリを近接化するこ とでデータ転送効率を引き上げる。 ボトルネックが解消され、高効率で 演算を実行。 ➡演算速度が早い 従来 ※演算器とメモリーは別チップ ※演算器とメモリーは同一チップ
Slide 28
Slide 28 text
開発ロードマップ 28 2023.12 チップ着手 2024.12 Phase 1 FPGA 2026 Phase 2 Test Chip 2028 Phase 3 MP Chip 2030 製品実装 Sparse化・ 量子化検証 基本回路検証 テストチップ開発 MPチップ開発 チップ量産化 Sparse化・量子化ツール開発 マルチモーダル化 世界モデルの適用 1st 計算基盤構築 2st 計算基盤構築 3rd 計算基盤構築 運転知識の一般化 環境適応・身体性の獲得 大規模学習による汎化 モデル圧縮・高速化・安定化 汎用モデルアーキテクチャ AI開発 半導体開発 ● 数⼗億パラメータのLLMを⾼速動 作させる原理検証 ● 世界初の報告になる⾒込み ● 8⽉にも10億パラメータの検証 ● 量産化‧⾞両への組み込み ● 完全⾃動運転⾞の実現 ● 汎⽤のエッジデバイス向けへの展開
Slide 29
Slide 29 text
まとめ 29 ● ⾃動運転にはマルチモーダル的理解が重要 ○ LLMを中⼼とした技術開発が加速 ● VLMの⽇本語能⼒を測定するベンチマークを提案 ○ Heron VLM リーダーボードとして公開 ● エッジ環境でデプロイするにはメモリ帯域が課題 ○ ⾼速推論に向けた独⾃半導体開発を進める
Slide 30
Slide 30 text
No content