Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Turingと自動運転とLLM- LLM-jp 勉強会

Inoichan
October 18, 2023

Turingと自動運転とLLM- LLM-jp 勉強会

2023/10/18に開催されたLLM-jp 勉強会の資料です。
あわせてこちらのテックブログもぜひご覧ください!
・完全自動運転にLLMは必要か?: https://zenn.dev/turing_motors/articles/353a6e71a1444c
・基盤モデルを使ったTuringの完全自動運転戦略: https://zenn.dev/turing_motors/articles/bd575a1097a266
・走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話: https://zenn.dev/turing_motors/articles/ce20c5202e107e
・作って遊ぼう!LLMを搭載した君だけのV&Lモデル!: https://zenn.dev/turing_motors/articles/6e0ac9deb2d2e5
・Introducing “Heron”: A Multilingual, Multimodal Learning Library with 70 Billion LLM: https://medium.com/@inoichan/introducing-heron-a-multilingual-multimodal-learning-library-with-70-billion-llm-fd1106f3ec1e
・Build and Play! Your Own V&L Model Equipped with LLM!: https://medium.com/towards-data-science/build-and-play-your-own-v-l-model-equipped-with-llm-afa773b9249e

Inoichan

October 18, 2023
Tweet

More Decks by Inoichan

Other Decks in Research

Transcript

  1. Turingと自動運転とLLM
    LLMjp勉強会

    View full-size slide

  2. 自己紹介
    ❖ Inoue Yuichi
    ❖ Turing Inc. Brain Research Team
    ❖ 京都大学 博士(薬学)
    ❖ Kaggle Competitions Grandmaster

    View full-size slide

  3. 今日お話しすること
    ● Heronの開発
    ● 自動運転とLLMの研究

    View full-size slide

  4. Heronの開発

    View full-size slide

  5. マルチモーダル学習ライブラリ「Heron」

    View full-size slide

  6. Heron: Vision Language Model Library
    ● 様々なモデルの組み合わせで学習可能なHeronをリリース
    ● 日本語データセットも用意してNavigator modelのベースとして開発中

    View full-size slide

  7. Vision and Languageモデルのアーキテクチャ
    ● Vision and Languageモデルはアダプタの種類により大きく3つに分けられる
    ● HeronではGIT/LLaVAタイプとBLIP2の2つのタイプが利用できる

    View full-size slide

  8. Heronの学習の設定
    Heronの設定ファイルで設定できる項目
    ● 画像エンコーダタイプ
    ● アダプタタイプ
    ● LLMのモデル名
    ● 学習の設定(DeepSpeedやRolaやfine-tuneする部分の指定など )
    ● データセット

    View full-size slide

  9. 学習の設定
    学習バッチサイズ
    勾配累積サイズ
    エポック数
    データローダワーカ数
    最適化手法
    学習率
    DeepSpeedの設定
    モデルの保存パス
    学習メトリックの送信先
    ここで設定した項目は直接 transformersのTrainingArgumentsに渡される
    詳細は https://huggingface.co/docs/transformers/v4.33.0/en/main_classes/trainer を参照

    View full-size slide

  10. モデルの設定
    アダプタのタイプ (git_llm or video_blip)
    LLMのモデル名
    画像エンコーダのモデル名 (git_llmの時)
    画像枚数(動画の場合>1)
    入力トークン長
    fine-tuneするパラメータ名(部分一致)
    fine-tuneしないパラメータ名(部分一致)
    LoRAの設定

    View full-size slide

  11. データセットの設定
    データセット設定ファイルのパスのリスト
    (visual genomeと日本語llavaデータを繋げて使う )
    データセットの設定ファイルのパスのリストを渡すことで、それらのデータセットを concatしたも
    のが学習に使われる。
    利用できるデータセット
    ● japanese_csv.yaml
    ● llava_en.yaml
    ● llava_ja.yaml
    ● m3it.yaml
    ● m3it_ipc.yaml
    ● stair_coco.yaml
    ● visual_genome.yaml
    自分でPyTorchのデータセットクラス継承して独自のデータセットを作ることも可能

    View full-size slide

  12. Heronのアップデート予定
    ● 学習の高速化
    ● 学習方法の多様化
    ● Hugging Face Trainerからの脱却
    ● 評価指標の追加
    ● などなど...

    View full-size slide

  13. 学習方法の省メモリ化や高速化
    ● 省メモリ化や高速化が示されている手法の導入
    ○ Flash-Attention 2
    ○ ZeRO++
    ○ xformers
    ○ optimum BetterTransformer
    Dao, Tri, et. al. 2022. “FlashAttention: Fast and Memory-Efficient Exact Attention
    with IO-Awareness.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2205.14135.
    Wang, Guanhua, et. al. 2023. “ZeRO++: Extremely Efficient Collective Communication for
    Giant Model Training.” arXiv [cs.DC]. arXiv. http://arxiv.org/abs/2306.10209.

    View full-size slide

  14. 学習方法の多様化
    ● 任意の場所に画像トークンを挿入
    ○ DeepSpeed-VisualChat
    ○ MMICL
    ● テキストだけのデータをまぜる
    ○ Qwen-VL
    ○ LLaVA-1.5
    ● 高解像度の画像を扱う
    ○ MiniGPT-v2
    Chen, Jun, et. al. 2023. “MiniGPT-v2: Large Language Model as a Unified Interface for
    Vision-Language Multi-Task Learning.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2310.09478.
    Zhao, Haozhe, et. al. 2023. “MMICL: Empowering Vision-Language Model with Multi-Modal
    In-Context Learning.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2309.07915.

    View full-size slide

  15. 自動運転とLLMの研究

    View full-size slide

  16. Turing株式会社
    事業内容: 完全自動運転EV車両の開発・製造
    AIとソフトウェアに長けた人材が中心となって創業。
    創業時から2つの大きな課題に取り組んでいる。
    - 完全自動運転の実現
    - 新たな完成車メーカーの誕生

    View full-size slide

  17. 高品質のセンサと高精度3次元地図はハイコスト
    ● センサの精度と価格は比例する。
    ● 高精度マップに依存しすぎると、地図がない場所で運転できない。
    ● 市販車にこの見た目は受け入れられる...??
    Caesar, Holger, Juraj Kabzan, Kok Seang Tan, Whye Kit Fong, Eric Wolff, Alex Lang, Luke Fletcher, Oscar Beijbom, and Sammy Omari. 2021. “NuPlan: A
    Closed-Loop ML-Based Planning Benchmark for Autonomous Vehicles.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2106.11810.

    View full-size slide

  18. Vision Centricな自動運転
    ● マルチカメラを用いたEnd-to-endのアプローチは産学ともに大本命のアプローチ
    ● RGBの映像はかなりリッチな情報
    ● 画像を扱う技術はかなり成熟している。
    Tesla AI Day 2022
    Hu, Yihan, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, et al. 2022.
    “Planning-Oriented Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2212.10156.
    ⭐CVPR 2023 Best Paper

    View full-size slide

  19. 現行技術の延長で実現できるか?
    人間は初めてのケースでもその場で考えてなんとか回避できる
    ハイコンテキスト 未知のパターン
    waymo at eccv 2022

    View full-size slide

  20. 自然言語的コンテキストを理解
    運転世界に存在する自然言語で説明可能な状況をうまく自動運転に統合することでより
    良い自動運転システムができるのではないか?
    Microsoft LlaVA 1.5
    Turing Heron

    View full-size slide

  21. 自動運転 x 自然言語は最先端のトピック
    Wayve LINGO-1 OpenDriveLab DriveLM
    USC GPT-Driver
    Huawei HiLM-D

    View full-size slide

  22. 状況判断をLLMにさせる
    ● GPT-Driver: Learning to Drive with GPT
    ● Drive like Humans
    ● LanguageMPC
    Mao, Jiageng, Yuxi Qian, Hang Zhao, and Yue Wang. 2023. “GPT-Driver: Learning
    to Drive with GPT.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2310.01415.
    GPT-Driverでは実際に車がどう進むかの経路情報を
    GPT3.5に推論させている。GPTのFine-tuningを行うこ
    とで精度がかなり上がることも報告している。

    View full-size slide

  23. 状況をLLMに説明させる
    ● BDD-X
    ● DriveGPT4
    ● LINGO-1
    ● Honda DRAMA / Rank2Tell
    ● DriveLM
    ● Driving with LLM
    説明可能性、状況理解というのは LLMだからこそ性能
    が上がる可能性のある分野の 1つ。データセットの作成
    が鍵になりそう。
    Xu, Zhenhua, Yujia Zhang, Enze Xie, Zhen Zhao, Yong Guo, Kenneth K. Y. Wong, Zhenguo Li, and
    Hengshuang Zhao. 2023. “DriveGPT4: Interpretable End-to-End Autonomous Driving via Large
    Language Model.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2310.01412.

    View full-size slide

  24. 認識をLLMにさせる
    ● NuScenes-QA
    ● Reffer-KITTI
    ● NuPrompt
    ● Honda DRAMA / Rank2Tell
    周りの状況認識やテキスト入力による柔軟な検出。
    Groundingなども。従来の検出と組合わせることで
    様々な応用が考えられそう。 Wu, Dongming, Wencheng Han, Tiancai Wang, Yingfei Liu, Xiangyu Zhang, and Jianbing Shen. 2023. “Language
    Prompt for Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2309.04379.

    View full-size slide

  25. どうやって進めるの?
    Open Datasetに加えて自前でデータセットの作成を行
    う。質問のカテゴリを定義して質問を QAを量産。
    ChatGPTなども活用しながら拡張していく。
    すでに34,000シーンに対して200万件以上のQAを作成
    しており、論文としてまとめる予定。
    データセットの作成

    View full-size slide

  26. どうやって進めるの?
    まだまだ検証中だが最強の Chat LLMを作るようなプロセスを、自動運転 LLM
    でも作る必要があるのではないかと考えて、検証を始めている。
    Llama-2
    Japanese
    Llama-2
    Japanese
    StableLM
    Instruction
    DrivingLLM
    Instruction
    DrivingVLM
    HFRL
    DrivingLLM
    HFRL
    DrivingVLM
    日本語モデルの開発もすでに着手
    日本語ローカライズ

    View full-size slide

  27. まとめ
    - Heronを一緒に開発してくれる人、VLMやりたい人を随時募集中!!!
    - 自動運転×LLMは研究としては瞬間的に盛り上がってる
    - 研究から入って自動運転への応用を考える必要がある
    https://zenn.dev/turing_motors/articles/353a6e71a1444c

    View full-size slide