Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SSII2024 [OS3] 企業における基盤モデル開発の実際

SSII2024 [OS3] 企業における基盤モデル開発の実際

More Decks by 画像センシングシンポジウム

Other Decks in Research

Transcript

  1. ©2023 CyberAgent Inc. Distribution prohibited 自己紹介 株式会社サイバーエージェント AI事業本部 極LP/基盤モデル事業部 石上亮介

    2021年 株式会社サイバーエージェント 中途入社。 AI事業本部で「極予測LP」の開発、大規模言語モデ ル(LLM)をはじめとした「基盤モデルプロジェク ト」のリードを担当。画像やテキストを対象とした マルチモーダルなAIの社会実装に従事している。 2
  2. ©2023 CyberAgent Inc. Distribution prohibited CALM1 CALM2 パラメータ数 70億 70億

    アーキテクチャ GPT-NeoX LLaMA context_length 2048 4096 学習方法 事前学習 事前学習 学習データ量 1000億トークン 1兆トークン 言語 日本語 日本語/英語/Code vocab 52000 65000 dtype fp16 bf16 • CALM2はCALM1と比べて学習Token数が大幅に増加 • H100の導入により効率的に学習が可能に CALMについて CALM2の学習曲線 6
  3. ©2023 CyberAgent Inc. Distribution prohibited H100とA100の速度比較 GPU iter_time samples/sec flops

    A100x8 33.5 4.78 181.6 TFLOPS H100x8 13.03 12.27 466.6 TFLOPS • flops計算で約2.57倍 • Transformer Engineで更に高速化する見込み 7
  4. ©2023 CyberAgent Inc. Distribution prohibited CALMのベンチマーク結果 model 日本語 英語 コード

    CALM1 (7B) 32.38 36.37 0.00 CALM2 (7B) 50.69 59.27 10.26 8 • 日本語:llm-jp-eval • 英語:GPT4ALL Benchmark • コード:HumanEval, MBPP • ベースモデル(instruction-tuningなし)のスコア
  5. ©2023 CyberAgent Inc. Distribution prohibited 事前学習データの落とし穴 9 • 事前学習データセットにベンチマークの言い換えが含まれている •

    n-gramでは検出できないベンチマークデータに似たデータも存在している • この種のデータに偏らせることで「ベンチマーク上でGPT-4を超える性能」も達成可能 (過学習のため未知タスクには対応不可) 事前学習データに含まれる言い換えサンプル https://arxiv.org/abs/2311.04850 n-gramでは検出できない似たサンプルによる学習結果 https://arxiv.org/abs/2401.12246
  6. ©2023 CyberAgent Inc. Distribution prohibited チューニングの落とし穴 10 モデルA ベンチマーク モデルB

    モデルC モデルD ベンチマークへの過学習 • 同じベンチマークでチューニングと評価を繰り返すと過学習が起きる • チューニング用と評価用を分けるのが望ましい モデル チューニング用 ベンチマーク 評価用 ベンチマーク チューニング用と評価用ベンチマークの区別 • チェックポイントの選択 • 指示チューニング • アライメントチューニング • モデルマージ • モデルの最終評価 • 他モデルとの比較 • チェックポイントの選択 • 指示チューニング • アライメントチューニング • モデルマージ • モデルの最終評価 • 他モデルとの比較
  7. ©2023 CyberAgent Inc. Distribution prohibited LLM開発の失敗例 勾配爆発で学習失敗💥 ◦ 上手く行っているように見えても突然 学習に失敗する

    ◦ 少し前のcheckpointから再開できるこ ともあれば、再開不能な場合も https://tech-blog.abeja.asia/entry/abeja-g pt-project-202207 https://drive.google.com/file/d/18wMZFRp huwRwOfeDmVlnBxxVOKjt1PVw 11
  8. ©2023 CyberAgent Inc. Distribution prohibited 学習の安定化に影響する要素について ◦ LR, QK-LayerNorm, Z

    loss, warm up, weight decay, width vs depth, μParam 参考になる論文 https://arxiv.org/abs/2309.14322 Context Length 初期値の設定 ◦ Context Lengthが長いほど不安定に ▪ 参考 :https://arxiv.org/abs/2108.06084 ◦ 重みの初期値の設定によって不安定に 12
  9. ©2023 CyberAgent Inc. Distribution prohibited Context Lengthの拡張について https://www.reddit.com/r/LocalLLaMA/comments/14mrgpr/d ynamically_scaled_rope_further_increases/ NTK

    RoPE scaling RoPE+ABF https://arxiv.org/abs/2309.16039 • 位置埋め込みRoPEに変更を加えることでContext Lengthを拡張する手法が複数提案されている 13
  10. ©2023 CyberAgent Inc. Distribution prohibited CALM2のContext Lengthの拡張 CALM2-7B CALM2-7B (dynamic

    scale=2) CALM2-7B (theta=500k) positional encoding RoPE NTK RoPE RoPE+ABF 追加学習 なし なし あり max_pos_ emb 4096 4096 32768 theta 10000 10000 500000 元モデルとの比較 • CALM2-7BのContext Lengthを拡張 ◦ NTK RoPEに変更(追加学習なし) ◦ RoPE ABFに変更して40Bトークン追加学習 • 長文の途中に含まれるパスワードを答えるToyタスクで評価 ◦ https://github.com/CStanKonrad/long_llama/blob/main/examples/passkey.py passkeyによる評価(Accuracy) ctx CALM2-7B CALM2-7B (dynamic scale=2) CALM2-7B (theta=500k) 2k 100% 100% 100% 4k 100% 100% 100% 8k 0% 88% 100% 16k 0% 15% 100% 32k 0% 0% 100% 14
  11. ©2023 CyberAgent Inc. Distribution prohibited Grouped Query Attention (GQA)への拡張について https://arxiv.org/abs/2305.13245

    MHA-pretrainとGQA-tuningの学習曲線 MHAとGQAの比較 • GQAはQueryをグループ化して、グループごとにKeyとValueを共有する高速化手法 • MHAで事前学習を行ったCALM2-7Bの重み変換を行い、GQAとして追加学習 • MHAのスクラッチ学習と比べて収束が早い 15
  12. ©2023 CyberAgent Inc. Distribution prohibited 広告領域での活用を目指した開発 17 画像 テキスト 動画

    音声 モーダル • クリエイティブは複数のモーダル(データ形式)の組み合わせであり、複雑 • 公開データセットは英語が基本で日本的なデータが少ない • 日本語/文化の理解/認識から生成/効果予測まで一貫した開発が必要 広告領域向けのマルチモーダルモデル開発の課題
  13. ©2023 CyberAgent Inc. Distribution prohibited CALM2のVLM化 18 • CALM2+SigLIPでVision&Language Model

    (VLM)を構築 • 日本語文化を理解しつつ、視覚的な情報も加味できるモデル
  14. ©2023 CyberAgent Inc. Distribution prohibited VLMのベンチマーク結果 19 Model
 Detail
 Conv


    Complex
 Average
 GPT-4V
 83.33
 77.53
 78.25
 79.70
 Claude 3 Opus
 74.52
 68.42
 77.74
 73.56
 Gemini Pro
 55.63
 64.31
 64.02
 61.32
 LLaVA-CyberAgentLM2-7B
 64.78
 54.23
 55.16
 58.05
 LLaVA 1.5 7B
 42.42
 45.89
 35.50
 41.27
 Qwen-VL 7B
 46.34
 50.56
 52.27
 49.72
 StabilityAI StableVLM 7B
 25.15
 51.23
 37.84
 38.07
 SakanaAI EvoVLM-JP
 50.31
 44.42
 40.47
 45.07
 Heron BLIP v1 (620k)
 49.09
 41.51
 45.72
 45.44
 Heron GIT
 42.77
 54.20
 43.53
 46.83
 引用: https://arxiv.org/html/2404.07824v1 ※評価値は24/4現在 Heron-Bench
  15. ©2023 CyberAgent Inc. Distribution prohibited 特化モデルの開発 20 CyberAgentLM2-7B (+Vision) 広告特化型モデル

    ・広告画像の深い理解 ・構成案の提案/アドバイス 説明特化型モデル ・画像を超詳細に説明 ・視覚的な情報をテキスト化 社内の高品質データ
  16. ©2023 CyberAgent Inc. Distribution prohibited 広告特化モデルの検証例 21 この広告のデザインに ついて詳しくレビューして ください。

    この広告は非常にシンプルで洗練されたデザインです。背景は暗めの緑色で、 左側に黒く丸いロゴがあり、そこには「極予測LP」という テキストが配置されています。ロゴは脳の形をしており、AI技術との関連性を 示唆しているようです。テキストは、サービスの特徴と導入効果を強調して おり、視覚的に訴えかけるデザインとなっています。 https://www.cyberagent.co.jp/news/detail/id=28185
  17. ©2023 CyberAgent Inc. Distribution prohibited 説明特化モデルの検証例 22 この画像を詳しく説明して ください。 画像の中心には、鉄板の上で焼かれている美味しそうな料理が写っています。料理は、表面がカリッとしていて、中はジュー

    シーな見た目の「お好み焼き」です。お好み焼きは、日本の伝統的な料理で、小麦粉と卵を主原料とした生地をベースに、野 菜や肉などの具材を混ぜて焼くものです。このお好み焼きの特徴は、表面に焦げ目がついており、香ばしい風味を想像させま す。また、ソースやマヨネーズなどの調味料がかかっており、食欲をそそる見た目になっています。鉄板の上のお好み焼き は、黒い鉄のプレートの上に載っており、その下には油が敷かれています。鉄板自体は黒く、光沢があり、熱伝導が良さそう です。背景では、ぼんやりとした人物の一部が見えますが、顔ははっきりとは識別できません。しかしながら、人物が食事を している様子が伺えます。おそらく、鉄板を共有している家族や友人と思われます。彼らはおそらく会話を楽しんでいるか、 あるいは美味しい料理を囲んで和やかな時間を過ごしていることでしょう。全体的な雰囲気は家庭的で温かみがあります。画 像は、食事が進行中であることを捉えており、見る人に安らぎと満足感を与えるようなシーンを演出しています。
  18. ©2023 CyberAgent Inc. Distribution prohibited まとめ • CyberAgentLM(CALM)の取り組みについて紹介 ◦ LLMの開発や拡張について紹介

    • マルチモーダルモデルの取り組みについて紹介 ◦ VLMモデルの開発や特化モデルの開発について紹介 24