SSII2024 [OS3] 企業における基盤モデル開発の実際

SSII2024  企業における基盤モデル開発の実際  2024.6.14  石上亮介（株式会社サイバーエージェント）

©2023 CyberAgent Inc. Distribution prohibited 自己紹介株式会社サイバーエージェント AI事業本部極LP/基盤モデル事業部石上亮介
2021年株式会社サイバーエージェント中途入社。 AI事業本部で「極予測LP」の開発、大規模言語モデル（LLM）をはじめとした「基盤モデルプロジェクト」のリードを担当。画像やテキストを対象としたマルチモーダルなAIの社会実装に従事している。 2

©2023 CyberAgent Inc. Distribution prohibited CALM1 CALM2 パラメータ数 70億 70億
アーキテクチャ GPT-NeoX LLaMA context_length 2048 4096 学習方法事前学習事前学習学習データ量 1000億トークン 1兆トークン言語日本語日本語/英語/Code vocab 52000 65000 dtype fp16 bf16 • CALM2はCALM1と比べて学習Token数が大幅に増加 • H100の導入により効率的に学習が可能に CALMについて CALM２の学習曲線 6

©2023 CyberAgent Inc. Distribution prohibited H100とA100の速度比較 GPU iter_time samples/sec flops
A100x8 33.5 4.78 181.6 TFLOPS H100x8 13.03 12.27 466.6 TFLOPS • ﬂops計算で約2.57倍 • Transformer Engineで更に高速化する見込み 7

©2023 CyberAgent Inc. Distribution prohibited CALMのベンチマーク結果 model 日本語英語コード
CALM1 (7B) 32.38 36.37 0.00 CALM2 (7B) 50.69 59.27 10.26 8 • 日本語：llm-jp-eval • 英語：GPT4ALL Benchmark • コード：HumanEval, MBPP • ベースモデル（instruction-tuningなし）のスコア

©2023 CyberAgent Inc. Distribution prohibited 事前学習データの落とし穴 9 • 事前学習データセットにベンチマークの言い換えが含まれている •
n-gramでは検出できないベンチマークデータに似たデータも存在している • この種のデータに偏らせることで「ベンチマーク上でGPT-4を超える性能」も達成可能（過学習のため未知タスクには対応不可）事前学習データに含まれる言い換えサンプル https://arxiv.org/abs/2311.04850 n-gramでは検出できない似たサンプルによる学習結果 https://arxiv.org/abs/2401.12246

©2023 CyberAgent Inc. Distribution prohibited チューニングの落とし穴 10 モデルA ベンチマークモデルB
モデルC モデルD ベンチマークへの過学習 • 同じベンチマークでチューニングと評価を繰り返すと過学習が起きる • チューニング用と評価用を分けるのが望ましいモデルチューニング用ベンチマーク評価用ベンチマークチューニング用と評価用ベンチマークの区別 • チェックポイントの選択 • 指示チューニング • アライメントチューニング • モデルマージ • モデルの最終評価 • 他モデルとの比較 • チェックポイントの選択 • 指示チューニング • アライメントチューニング • モデルマージ • モデルの最終評価 • 他モデルとの比較

©2023 CyberAgent Inc. Distribution prohibited LLM開発の失敗例勾配爆発で学習失敗💥 ◦ 上手く行っているように見えても突然学習に失敗する
◦ 少し前のcheckpointから再開できることもあれば、再開不能な場合も https://tech-blog.abeja.asia/entry/abeja-g pt-project-202207 https://drive.google.com/file/d/18wMZFRp huwRwOfeDmVlnBxxVOKjt1PVw 11

©2023 CyberAgent Inc. Distribution prohibited 学習の安定化に影響する要素について ◦ LR, QK-LayerNorm, Z
loss, warm up, weight decay, width vs depth, μParam 参考になる論文 https://arxiv.org/abs/2309.14322 Context Length 初期値の設定 ◦ Context Lengthが長いほど不安定に ▪ 参考：https://arxiv.org/abs/2108.06084 ◦ 重みの初期値の設定によって不安定に 12

©2023 CyberAgent Inc. Distribution prohibited Context Lengthの拡張について https://www.reddit.com/r/LocalLLaMA/comments/14mrgpr/d ynamically_scaled_rope_further_increases/ NTK
RoPE scaling RoPE+ABF https://arxiv.org/abs/2309.16039 • 位置埋め込みRoPEに変更を加えることでContext Lengthを拡張する手法が複数提案されている 13

©2023 CyberAgent Inc. Distribution prohibited CALM2のContext Lengthの拡張 CALM2-7B CALM2-7B (dynamic
scale=2) CALM2-7B (theta=500k) positional encoding RoPE NTK RoPE RoPE+ABF 追加学習なしなしあり max_pos_ emb 4096 4096 32768 theta 10000 10000 500000 元モデルとの比較 • CALM2-7BのContext Lengthを拡張 ◦ NTK RoPEに変更（追加学習なし） ◦ RoPE ABFに変更して40Bトークン追加学習 • 長文の途中に含まれるパスワードを答えるToyタスクで評価 ◦ https://github.com/CStanKonrad/long_llama/blob/main/examples/passkey.py passkeyによる評価（Accuracy） ctx CALM2-7B CALM2-7B (dynamic scale=2) CALM2-7B (theta=500k) 2k 100% 100% 100% 4k 100% 100% 100% 8k 0% 88% 100% 16k 0% 15% 100% 32k 0% 0% 100% 14

©2023 CyberAgent Inc. Distribution prohibited Grouped Query Attention (GQA)への拡張について https://arxiv.org/abs/2305.13245
MHA-pretrainとGQA-tuningの学習曲線 MHAとGQAの比較 • GQAはQueryをグループ化して、グループごとにKeyとValueを共有する高速化手法 • MHAで事前学習を行ったCALM2-7Bの重み変換を行い、GQAとして追加学習 • MHAのスクラッチ学習と比べて収束が早い 15

©2023 CyberAgent Inc. Distribution prohibited 広告領域での活用を目指した開発 17 画像テキスト動画
音声モーダル • クリエイティブは複数のモーダル(データ形式)の組み合わせであり、複雑 • 公開データセットは英語が基本で日本的なデータが少ない • 日本語/文化の理解/認識から生成/効果予測まで一貫した開発が必要広告領域向けのマルチモーダルモデル開発の課題

©2023 CyberAgent Inc. Distribution prohibited CALM2のVLM化 18 • CALM2+SigLIPでVision&Language Model
(VLM)を構築 • 日本語文化を理解しつつ、視覚的な情報も加味できるモデル

©2023 CyberAgent Inc. Distribution prohibited VLMのベンチマーク結果 19 Model  Detail  Conv 
Complex  Average  GPT-4V  83.33  77.53  78.25  79.70  Claude 3 Opus  74.52  68.42  77.74  73.56  Gemini Pro  55.63  64.31  64.02  61.32  LLaVA-CyberAgentLM2-7B  64.78  54.23  55.16  58.05  LLaVA 1.5 7B  42.42  45.89  35.50  41.27  Qwen-VL 7B  46.34  50.56  52.27  49.72  StabilityAI StableVLM 7B  25.15  51.23  37.84  38.07  SakanaAI EvoVLM-JP  50.31  44.42  40.47  45.07  Heron BLIP v1 (620k)  49.09  41.51  45.72  45.44  Heron GIT  42.77  54.20  43.53  46.83  引用: https://arxiv.org/html/2404.07824v1 ※評価値は24/4現在 Heron-Bench

©2023 CyberAgent Inc. Distribution prohibited 特化モデルの開発 20 CyberAgentLM2-7B (+Vision) 広告特化型モデル
・広告画像の深い理解・構成案の提案/アドバイス説明特化型モデル・画像を超詳細に説明・視覚的な情報をテキスト化社内の高品質データ

©2023 CyberAgent Inc. Distribution prohibited 広告特化モデルの検証例 21 この広告のデザインについて詳しくレビューしてください。
この広告は非常にシンプルで洗練されたデザインです。背景は暗めの緑色で、左側に黒く丸いロゴがあり、そこには「極予測LP」というテキストが配置されています。ロゴは脳の形をしており、AI技術との関連性を示唆しているようです。テキストは、サービスの特徴と導入効果を強調しており、視覚的に訴えかけるデザインとなっています。 https://www.cyberagent.co.jp/news/detail/id=28185

©2023 CyberAgent Inc. Distribution prohibited 説明特化モデルの検証例 22 この画像を詳しく説明してください。画像の中心には、鉄板の上で焼かれている美味しそうな料理が写っています。料理は、表面がカリッとしていて、中はジュー
シーな見た目の「お好み焼き」です。お好み焼きは、日本の伝統的な料理で、小麦粉と卵を主原料とした生地をベースに、野菜や肉などの具材を混ぜて焼くものです。このお好み焼きの特徴は、表面に焦げ目がついており、香ばしい風味を想像させます。また、ソースやマヨネーズなどの調味料がかかっており、食欲をそそる見た目になっています。鉄板の上のお好み焼きは、黒い鉄のプレートの上に載っており、その下には油が敷かれています。鉄板自体は黒く、光沢があり、熱伝導が良さそうです。背景では、ぼんやりとした人物の一部が見えますが、顔ははっきりとは識別できません。しかしながら、人物が食事をしている様子が伺えます。おそらく、鉄板を共有している家族や友人と思われます。彼らはおそらく会話を楽しんでいるか、あるいは美味しい料理を囲んで和やかな時間を過ごしていることでしょう。全体的な雰囲気は家庭的で温かみがあります。画像は、食事が進行中であることを捉えており、見る人に安らぎと満足感を与えるようなシーンを演出しています。

©2023 CyberAgent Inc. Distribution prohibited まとめ • CyberAgentLM（CALM）の取り組みについて紹介 ◦ LLMの開発や拡張について紹介
• マルチモーダルモデルの取り組みについて紹介 ◦ VLMモデルの開発や特化モデルの開発について紹介 24

SSII2024 [OS3] 企業における基盤モデル開発の実際

SSII2024 [OS3] 企業における基盤モデル開発の実際

画像センシングシンポジウム PRO

More Decks by 画像センシングシンポジウム

Other Decks in Research

Featured

Transcript

SSII2024  企業における基盤モデル開発の実際  2024.6.14  石上亮介（株式会社サイバーエージェント）

©2023 CyberAgent Inc. Distribution prohibited 自己紹介株式会社サイバーエージェント AI事業本部極LP/基盤モデル事業部石上亮介

©2023 CyberAgent Inc. Distribution prohibited サイバーエージェントの基盤モデル開発に関するリリース H100の導入日本語LLMを公開モデル公開中🤗：https://huggingface.co/cyberagent 3

©2023 CyberAgent Inc. Distribution prohibited 4 https://www.cyberagent.co.jp/news/detail/id=29643 基盤モデルの事業応用例

©2023 CyberAgent Inc. Distribution prohibited CyberAgentLM (CALM)の開発について 5

©2023 CyberAgent Inc. Distribution prohibited CALM1 CALM2 パラメータ数 70億 70億

©2023 CyberAgent Inc. Distribution prohibited H100とA100の速度比較 GPU iter_time samples/sec flops

©2023 CyberAgent Inc. Distribution prohibited CALMのベンチマーク結果 model 日本語英語コード

©2023 CyberAgent Inc. Distribution prohibited 事前学習データの落とし穴 9 • 事前学習データセットにベンチマークの言い換えが含まれている •

©2023 CyberAgent Inc. Distribution prohibited チューニングの落とし穴 10 モデルA ベンチマークモデルB

©2023 CyberAgent Inc. Distribution prohibited LLM開発の失敗例勾配爆発で学習失敗💥 ◦ 上手く行っているように見えても突然学習に失敗する

©2023 CyberAgent Inc. Distribution prohibited 学習の安定化に影響する要素について ◦ LR, QK-LayerNorm, Z

©2023 CyberAgent Inc. Distribution prohibited Context Lengthの拡張について https://www.reddit.com/r/LocalLLaMA/comments/14mrgpr/d ynamically_scaled_rope_further_increases/ NTK

©2023 CyberAgent Inc. Distribution prohibited CALM2のContext Lengthの拡張 CALM2-7B CALM2-7B (dynamic

©2023 CyberAgent Inc. Distribution prohibited Grouped Query Attention (GQA)への拡張について https://arxiv.org/abs/2305.13245

©2023 CyberAgent Inc. Distribution prohibited マルチモーダルモデルの開発について 16

©2023 CyberAgent Inc. Distribution prohibited 広告領域での活用を目指した開発 17 画像テキスト動画

©2023 CyberAgent Inc. Distribution prohibited CALM2のVLM化 18 • CALM2+SigLIPでVision&Language Model

©2023 CyberAgent Inc. Distribution prohibited VLMのベンチマーク結果 19 Model  Detail  Conv

©2023 CyberAgent Inc. Distribution prohibited 特化モデルの開発 20 CyberAgentLM2-7B (+Vision) 広告特化型モデル

©2023 CyberAgent Inc. Distribution prohibited 広告特化モデルの検証例 21 この広告のデザインについて詳しくレビューしてください。

©2023 CyberAgent Inc. Distribution prohibited まとめ 23

©2023 CyberAgent Inc. Distribution prohibited まとめ • CyberAgentLM（CALM）の取り組みについて紹介 ◦ LLMの開発や拡張について紹介