Slide 1

Slide 1 text

Databricks Mosaic AI Model Training 1 February 2024

Slide 2

Slide 2 text

©2023 Databricks Inc. — All rights reserved MosaicML 大規模なAIモデルのトレーニングを最大7倍高速かつ低コストで実現 大規模なAIモデルのトレーニングを 簡素化、スケーラブル、かつコスト 効率よく実行可能 セキュアな環境で、お客様のデー タを使って独自の生成 AIモデルをト レーニングまたはファインチューニ ング モデルの完全な管理とデータのプ ライバシー

Slide 3

Slide 3 text

©2023 Databricks Inc. — All rights reserved 3 効率アップ & コスト削減 シンプルに利用可能なマルチノードモデルトレーニングスタック • 事前学習とファインチューニングのための使いやすい API • ディープラーニングライブラリ+コンピューティングの最適化シ ステム • 柔軟なGPUオプションを備えたデフォルトのマルチクラウド • モデルサイズとGPUのシームレスなスケーリング • ビルトインのフォールトトレランス

Slide 4

Slide 4 text

©2023 Databricks Inc. — All rights reserved Mosaicが提供するモデル学習機能 最大限に効率を向上 • マルチノードのトレーニング の複雑さを解消 • シームレスなデータ並列性 • コードを追加することなく GPUを簡単にスケールアッ プ ランの失敗を軽減 • GPUエラーの検出 • シンプルで高速な再起動 • クラスタ間での再開 分散学習 フォールト トレランス トレーニングジョブを即デプロイ • インフラストラクチャのセットアッ プや継続的な管理は不要 • ジョブスケジューリングでアイド ルGPU時間を制限 • アドミニおよびガバナンスコント ロール オーケストレーショ ン

Slide 5

Slide 5 text

©2023 Databricks Inc. — All rights reserved ETL & リアルタイム分析 オーケストレーション データウェアハウス Databricks AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake 生成AIによりテーブル定義や利用履歴により各社固有のドメイン知識を獲得 データインテリジェンスエンジン オープンデータレイク 全タイプのデータ (ログ、テキスト、音声、動画、画像 ) Unity Catalog メタデータ管理:データカタログ+自然言語でデータの探索 Delta Lake データを構造化しデータレイクとデータウェアハウスの機能を統合 Databricks SQL データウェアハウス機能 Workflows ジョブスケジュール実行 Delta Live Tables データ品質の自動化 Data-centric AI Gen AI • カスタムモデル • モデルサービング • RAG End-to-end AI • MLOps • AutoML • モニタリング • ガバナンス Mosaic AI カスタムLLMの学習、チューニ ング、サービング

Slide 6

Slide 6 text

大規模学習でのGPU ハードウェア障害の影響 課題: • 256 台のH100を使用する場合、年間で予想さ れるGPU障害の数は93回 • 1 週間あたり 1.78 回の失敗 • GPU に障害が発生するとほとんどの場合、学 習全体の実行が 5 ~ 10 時間停止 ソリューション: • Mosaic はジョブをリアルタイムで監視して障 害を検出 • 障害が発生すると、実行は一時停止され、 チェックポイントから自動的に再開 *Mosaicトレーニングは 500台のGPUで実行さ れます。上図の各色はGPUの障害発生からの 再起動を示します GPUは1000 GPU日ごとにハードウェア障害が発生します

Slide 7

Slide 7 text

7 一般的なクラウドGPUのリザベーション Month 1 Month 2 Month 3 Month 4 Month 5 Month 6 Month 7 Month 8 Month 9 Month 10 Month 11 Month 12 テスト 30B (3+ months) ファインチューン & 評価 70B (6+ months) ファインチューン & 評価 256 GPUs ● 柔軟性の欠如によるGPUの効率的な活用が難しい ● ハードウェアの故障によるトレーニング時間の遅延 ● インフラ管理には専任スタッフと複雑なソフトウェアが必要

Slide 8

Slide 8 text

8 オンプレのGPUクラスター Month 1 Month 2 Month 3 Month 4 Month 5 Month 6 Month 7 Month 8 Month 9 Month 10 Month 11 Month 12 セット アップ テスト 30B (3+ months) ファインチューン & 評価 256 GPUs 256 GPUs リード タイム ● 柔軟性の欠如によるGPUの効率的な活用が難しい ● ハードウェアの故障によるトレーニング時間の遅延 ● インフラ管理には専任スタッフと複雑なソフトウェアが必要

Slide 9

Slide 9 text

9 Mosaicの柔軟なGPUリザベーション Month 1 Month 2 Month 3 Month 4 Month 5 Month 6 Month 7 Month 8 Month 9 Month 10 Month 11 Month 12 512 GPUs <-30B (25 days) 512 GPUs <-70B (55 days) 別の モデル開発 ファインチューン & 評価 テスト ファインチューン & 評価 128 GPUs 64 GPUs ● 柔軟なGPUリザベーションにより利用率を最大化 ● トレーニング時間を短縮する分散トレーニングフレームワークとオーケストレーションプラット機能 ● ハードウェア障害後に自動的にトレーニング実行を再開する耐障害性

Slide 10

Slide 10 text

10 柔軟なリザベーションによりより多くのモデルをト レーニング Month 1 Month 2 Month 3 Month 4 Month 5 Month 6 Month 7 Month 8 Month 9 Month 10 Month 11 Month 12 512 GPUs <- 30B (25 days) 512 GPUs <- 70B (55 days) 256 GPUs <- 7B (10 days) 別の モデル開発 ファインチューン & 評価 ファインチューン & 評価 ファインチューン & 評価 128 GPUs 64 GPUs ● 柔軟なGPUリザベーションにより利用率を最大化 ● トレーニング時間を短縮する分散トレーニングフレームワークとオーケストレーションプラット機能 ● ハードウェア障害後に自動的にトレーニング実行を再開する耐障害性

Slide 11

Slide 11 text

11 Mosaicの柔軟なGPUリザベーション Week 1 Week 2 Week 3 Week 4 Week 5 Week 6 Week 7 Week 8 Week 9 Week 10 Week 11 Week 12 Week 13 Week 14 Week 15 Week 16 512 GPUs <- 70B テスト ファイン チューン モデル評 価 128 GPUs ● 柔軟なGPUリザベーションにより利用率を最大化 ● トレーニング時間を短縮する分散トレーニングフレームワークとオーケストレーションプラット機能 ● ハードウェア障害後に自動的にトレーニング実行を再開する耐障害性

Slide 12

Slide 12 text

まとめ & Next step まとめ: • Mosaicの最適化されたトレーニング機能は業界をリードする効率を提供する • 柔軟なGPUのリザベーションにより、初期費用と TCO が削減可能 • Mosaicのチームは、ML関連の専門知識とモデル開発ガイダンスを提供する • その結果、より少額のコストでより多くの最先端モデルをより迅速にトレーニング可能 Next steps: • 技術的な検証アプローチを決定し、評価のために技術リーダーをアサイン

Slide 13

Slide 13 text

©2023 Databricks Inc. — All rights reserved 13 Appendix

Slide 14

Slide 14 text

©2023 Databricks Inc. — All rights reserved 14 RAG is part of Mosaic AI Mosaic AI works for all types of AI — classical ML, deep learning, and generative AI. MLOps + LLMOps Implement CI/CD processes and automation across all of your AI workloads Prepare Data & Vectors Prepare data & features with native tools Serve Applications Serve models into real-time apps, with monitoring and alerts Build & Evaluate Models Train or fine-tune custom models, and prompt engineer pre-trained models Serve Data & Vectors Serve structured data and vector databases as real-time APIs Governance Govern data and AI models together under Unity Catalog Data Platform Build on top of your open Lakehouse, powered by Delta Lake

Slide 15

Slide 15 text

©2023 Databricks Inc. — All rights reserved 15 Serve Applications Build & Evaluate Models Prepare Data & Vectors MLOps + LLMOps Serve Data & Vectors Governance Data Platform RAG is part of Mosaic AI Mosaic AI capability (AI) Lakehouse capability (Data + AI) Mosaic AI works for all types of AI — classical ML, deep learning, and generative AI. MLflow Asset Bundles (DABs) CI/CD support SQL Workflows Delta Live Tables Notebooks Model Serving AI Functions Models from SQL Lakehouse Apps Lakehouse Monitoring Notebooks w/ ML Runtime AutoML Fine Tuning Models in Marketplace MPT LLaMA2 AI Playground MLflow Track & Evaluate Feature Serving Vector Search Function Serving Model Registry in Unity Catalog Unity Catalog Feature Store in Unity Catalog Delta Tables Structured Data Files (Volumes) Unstructured Data RAG-related update in Dec. 2023

Slide 16

Slide 16 text

スケーラブル: 1つのコマンドでコンピュートのシー ムレスなスケーリングが可能 ストレージを指定するだけで、 MosaicMLが起動、監視、自動リ カバリーを実施

Slide 17

Slide 17 text

マルチクラウド: 既存のインフラをあらゆるクラウド で利用 AWS、Azure、GCP、OCIなど、あらゆる パブリッククラウドでの分散トレーニングへ の最速なパスを提供

Slide 18

Slide 18 text

Use Case - MPT-30B ● オリジナルGPT-3の品質を上回る精度 ● $714Kで2週間以内に1兆トークンをゼロから 学習 ● 長文の入力にも対応(他OSSモデルの 2k~4kに対して65kのコンテキスト長) ● H100 GPUでトレーニングされた初のオープ ンソースモデル

Slide 19

Slide 19 text

©2021 Databricks Inc. — All rights reserved replitオンラインの統合開発環境(IDE)とコード共有プラットフォームを提供する企業です Challenge replitは開発者を支援するた めに自社の製品で LLM を使 用したいと考えていました。 LLMの学習は非常コストが高 くかつ失敗も非常に多いのが 課題でした Solution replitは、Mosaic AIの提供する Pre-trainingを使用して2.7Bパラ メータのLLMを学習することによ り、コード生成モデルである Ghostwriterをゼロから構築しま した Impact 3日間 LLMのトレーニング(数週間/数ヶ 月に対して) 1日 未加工データから実稼働モデルへ の展開 コスト削減

Slide 20

Slide 20 text

©2022 Databricks Inc. — All rights reserved Thank you 20