Slide 1

Slide 1 text

Turingと自動運転とLLM LLMjp勉強会

Slide 2

Slide 2 text

自己紹介 ❖ Inoue Yuichi ❖ Turing Inc. Brain Research Team ❖ 京都大学 博士(薬学) ❖ Kaggle Competitions Grandmaster

Slide 3

Slide 3 text

今日お話しすること ● Heronの開発 ● 自動運転とLLMの研究

Slide 4

Slide 4 text

Heronの開発

Slide 5

Slide 5 text

マルチモーダル学習ライブラリ「Heron」

Slide 6

Slide 6 text

Heron: Vision Language Model Library ● 様々なモデルの組み合わせで学習可能なHeronをリリース ● 日本語データセットも用意してNavigator modelのベースとして開発中

Slide 7

Slide 7 text

Vision and Languageモデルのアーキテクチャ ● Vision and Languageモデルはアダプタの種類により大きく3つに分けられる ● HeronではGIT/LLaVAタイプとBLIP2の2つのタイプが利用できる

Slide 8

Slide 8 text

Heronの学習の設定 Heronの設定ファイルで設定できる項目 ● 画像エンコーダタイプ ● アダプタタイプ ● LLMのモデル名 ● 学習の設定(DeepSpeedやRolaやfine-tuneする部分の指定など ) ● データセット

Slide 9

Slide 9 text

学習の設定 学習バッチサイズ 勾配累積サイズ エポック数 データローダワーカ数 最適化手法 学習率 DeepSpeedの設定 モデルの保存パス 学習メトリックの送信先 ここで設定した項目は直接 transformersのTrainingArgumentsに渡される 詳細は https://huggingface.co/docs/transformers/v4.33.0/en/main_classes/trainer を参照

Slide 10

Slide 10 text

モデルの設定 アダプタのタイプ (git_llm or video_blip) LLMのモデル名 画像エンコーダのモデル名 (git_llmの時) 画像枚数(動画の場合>1) 入力トークン長 fine-tuneするパラメータ名(部分一致) fine-tuneしないパラメータ名(部分一致) LoRAの設定

Slide 11

Slide 11 text

データセットの設定 データセット設定ファイルのパスのリスト (visual genomeと日本語llavaデータを繋げて使う ) データセットの設定ファイルのパスのリストを渡すことで、それらのデータセットを concatしたも のが学習に使われる。 利用できるデータセット ● japanese_csv.yaml ● llava_en.yaml ● llava_ja.yaml ● m3it.yaml ● m3it_ipc.yaml ● stair_coco.yaml ● visual_genome.yaml 自分でPyTorchのデータセットクラス継承して独自のデータセットを作ることも可能

Slide 12

Slide 12 text

Heronのアップデート予定 ● 学習の高速化 ● 学習方法の多様化 ● Hugging Face Trainerからの脱却 ● 評価指標の追加 ● などなど...

Slide 13

Slide 13 text

学習方法の省メモリ化や高速化 ● 省メモリ化や高速化が示されている手法の導入 ○ Flash-Attention 2 ○ ZeRO++ ○ xformers ○ optimum BetterTransformer Dao, Tri, et. al. 2022. “FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2205.14135. Wang, Guanhua, et. al. 2023. “ZeRO++: Extremely Efficient Collective Communication for Giant Model Training.” arXiv [cs.DC]. arXiv. http://arxiv.org/abs/2306.10209.

Slide 14

Slide 14 text

学習方法の多様化 ● 任意の場所に画像トークンを挿入 ○ DeepSpeed-VisualChat ○ MMICL ● テキストだけのデータをまぜる ○ Qwen-VL ○ LLaVA-1.5 ● 高解像度の画像を扱う ○ MiniGPT-v2 Chen, Jun, et. al. 2023. “MiniGPT-v2: Large Language Model as a Unified Interface for Vision-Language Multi-Task Learning.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2310.09478. Zhao, Haozhe, et. al. 2023. “MMICL: Empowering Vision-Language Model with Multi-Modal In-Context Learning.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2309.07915.

Slide 15

Slide 15 text

自動運転とLLMの研究

Slide 16

Slide 16 text

Turing株式会社 事業内容: 完全自動運転EV車両の開発・製造 AIとソフトウェアに長けた人材が中心となって創業。 創業時から2つの大きな課題に取り組んでいる。 - 完全自動運転の実現 - 新たな完成車メーカーの誕生

Slide 17

Slide 17 text

高品質のセンサと高精度3次元地図はハイコスト ● センサの精度と価格は比例する。 ● 高精度マップに依存しすぎると、地図がない場所で運転できない。 ● 市販車にこの見た目は受け入れられる...?? Caesar, Holger, Juraj Kabzan, Kok Seang Tan, Whye Kit Fong, Eric Wolff, Alex Lang, Luke Fletcher, Oscar Beijbom, and Sammy Omari. 2021. “NuPlan: A Closed-Loop ML-Based Planning Benchmark for Autonomous Vehicles.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2106.11810.

Slide 18

Slide 18 text

Vision Centricな自動運転 ● マルチカメラを用いたEnd-to-endのアプローチは産学ともに大本命のアプローチ ● RGBの映像はかなりリッチな情報 ● 画像を扱う技術はかなり成熟している。 Tesla AI Day 2022 Hu, Yihan, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, et al. 2022. “Planning-Oriented Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2212.10156. ⭐CVPR 2023 Best Paper

Slide 19

Slide 19 text

現行技術の延長で実現できるか? 人間は初めてのケースでもその場で考えてなんとか回避できる ハイコンテキスト 未知のパターン waymo at eccv 2022

Slide 20

Slide 20 text

自然言語的コンテキストを理解 運転世界に存在する自然言語で説明可能な状況をうまく自動運転に統合することでより 良い自動運転システムができるのではないか? Microsoft LlaVA 1.5 Turing Heron

Slide 21

Slide 21 text

自動運転 x 自然言語は最先端のトピック Wayve LINGO-1 OpenDriveLab DriveLM USC GPT-Driver Huawei HiLM-D

Slide 22

Slide 22 text

状況判断をLLMにさせる ● GPT-Driver: Learning to Drive with GPT ● Drive like Humans ● LanguageMPC Mao, Jiageng, Yuxi Qian, Hang Zhao, and Yue Wang. 2023. “GPT-Driver: Learning to Drive with GPT.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2310.01415. GPT-Driverでは実際に車がどう進むかの経路情報を GPT3.5に推論させている。GPTのFine-tuningを行うこ とで精度がかなり上がることも報告している。

Slide 23

Slide 23 text

状況をLLMに説明させる ● BDD-X ● DriveGPT4 ● LINGO-1 ● Honda DRAMA / Rank2Tell ● DriveLM ● Driving with LLM 説明可能性、状況理解というのは LLMだからこそ性能 が上がる可能性のある分野の 1つ。データセットの作成 が鍵になりそう。 Xu, Zhenhua, Yujia Zhang, Enze Xie, Zhen Zhao, Yong Guo, Kenneth K. Y. Wong, Zhenguo Li, and Hengshuang Zhao. 2023. “DriveGPT4: Interpretable End-to-End Autonomous Driving via Large Language Model.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2310.01412.

Slide 24

Slide 24 text

認識をLLMにさせる ● NuScenes-QA ● Reffer-KITTI ● NuPrompt ● Honda DRAMA / Rank2Tell 周りの状況認識やテキスト入力による柔軟な検出。 Groundingなども。従来の検出と組合わせることで 様々な応用が考えられそう。 Wu, Dongming, Wencheng Han, Tiancai Wang, Yingfei Liu, Xiangyu Zhang, and Jianbing Shen. 2023. “Language Prompt for Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2309.04379.

Slide 25

Slide 25 text

どうやって進めるの? Open Datasetに加えて自前でデータセットの作成を行 う。質問のカテゴリを定義して質問を QAを量産。 ChatGPTなども活用しながら拡張していく。 すでに34,000シーンに対して200万件以上のQAを作成 しており、論文としてまとめる予定。 データセットの作成

Slide 26

Slide 26 text

どうやって進めるの? まだまだ検証中だが最強の Chat LLMを作るようなプロセスを、自動運転 LLM でも作る必要があるのではないかと考えて、検証を始めている。 Llama-2 Japanese Llama-2 Japanese StableLM Instruction DrivingLLM Instruction DrivingVLM HFRL DrivingLLM HFRL DrivingVLM 日本語モデルの開発もすでに着手 日本語ローカライズ

Slide 27

Slide 27 text

まとめ - Heronを一緒に開発してくれる人、VLMやりたい人を随時募集中!!! - 自動運転×LLMは研究としては瞬間的に盛り上がってる - 研究から入って自動運転への応用を考える必要がある https://zenn.dev/turing_motors/articles/353a6e71a1444c