Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Mosaic AI の Model Trainingとは?

Mosaic AI の Model Trainingとは?

Mosaic AI の Model Trainingについて説明します。

Databricks Japan

April 12, 2024
Tweet

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. ©2023 Databricks Inc. — All rights reserved MosaicML 大規模なAIモデルのトレーニングを最大7倍高速かつ低コストで実現 大規模なAIモデルのトレーニングを

    簡素化、スケーラブル、かつコスト 効率よく実行可能 セキュアな環境で、お客様のデー タを使って独自の生成 AIモデルをト レーニングまたはファインチューニ ング モデルの完全な管理とデータのプ ライバシー
  2. ©2023 Databricks Inc. — All rights reserved 3 効率アップ &

    コスト削減 シンプルに利用可能なマルチノードモデルトレーニングスタック • 事前学習とファインチューニングのための使いやすい API • ディープラーニングライブラリ+コンピューティングの最適化シ ステム • 柔軟なGPUオプションを備えたデフォルトのマルチクラウド • モデルサイズとGPUのシームレスなスケーリング • ビルトインのフォールトトレランス
  3. ©2023 Databricks Inc. — All rights reserved Mosaicが提供するモデル学習機能 最大限に効率を向上 •

    マルチノードのトレーニング の複雑さを解消 • シームレスなデータ並列性 • コードを追加することなく GPUを簡単にスケールアッ プ ランの失敗を軽減 • GPUエラーの検出 • シンプルで高速な再起動 • クラスタ間での再開 分散学習 フォールト トレランス トレーニングジョブを即デプロイ • インフラストラクチャのセットアッ プや継続的な管理は不要 • ジョブスケジューリングでアイド ルGPU時間を制限 • アドミニおよびガバナンスコント ロール オーケストレーショ ン
  4. ©2023 Databricks Inc. — All rights reserved ETL & リアルタイム分析

    オーケストレーション データウェアハウス Databricks AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake 生成AIによりテーブル定義や利用履歴により各社固有のドメイン知識を獲得 データインテリジェンスエンジン オープンデータレイク 全タイプのデータ (ログ、テキスト、音声、動画、画像 ) Unity Catalog メタデータ管理:データカタログ+自然言語でデータの探索 Delta Lake データを構造化しデータレイクとデータウェアハウスの機能を統合 Databricks SQL データウェアハウス機能 Workflows ジョブスケジュール実行 Delta Live Tables データ品質の自動化 Data-centric AI Gen AI • カスタムモデル • モデルサービング • RAG End-to-end AI • MLOps • AutoML • モニタリング • ガバナンス Mosaic AI カスタムLLMの学習、チューニ ング、サービング
  5. 大規模学習でのGPU ハードウェア障害の影響 課題: • 256 台のH100を使用する場合、年間で予想さ れるGPU障害の数は93回 • 1 週間あたり

    1.78 回の失敗 • GPU に障害が発生するとほとんどの場合、学 習全体の実行が 5 ~ 10 時間停止 ソリューション: • Mosaic はジョブをリアルタイムで監視して障 害を検出 • 障害が発生すると、実行は一時停止され、 チェックポイントから自動的に再開 *Mosaicトレーニングは 500台のGPUで実行さ れます。上図の各色はGPUの障害発生からの 再起動を示します GPUは1000 GPU日ごとにハードウェア障害が発生します
  6. 7 一般的なクラウドGPUのリザベーション Month 1 Month 2 Month 3 Month 4

    Month 5 Month 6 Month 7 Month 8 Month 9 Month 10 Month 11 Month 12 テスト 30B (3+ months) ファインチューン & 評価 70B (6+ months) ファインチューン & 評価 256 GPUs • 柔軟性の欠如によるGPUの効率的な活用が難しい • ハードウェアの故障によるトレーニング時間の遅延 • インフラ管理には専任スタッフと複雑なソフトウェアが必要
  7. 8 オンプレのGPUクラスター Month 1 Month 2 Month 3 Month 4

    Month 5 Month 6 Month 7 Month 8 Month 9 Month 10 Month 11 Month 12 セット アップ テスト 30B (3+ months) ファインチューン & 評価 256 GPUs 256 GPUs リード タイム • 柔軟性の欠如によるGPUの効率的な活用が難しい • ハードウェアの故障によるトレーニング時間の遅延 • インフラ管理には専任スタッフと複雑なソフトウェアが必要
  8. 9 Mosaicの柔軟なGPUリザベーション Month 1 Month 2 Month 3 Month 4

    Month 5 Month 6 Month 7 Month 8 Month 9 Month 10 Month 11 Month 12 512 GPUs <-30B (25 days) 512 GPUs <-70B (55 days) 別の モデル開発 ファインチューン & 評価 テスト ファインチューン & 評価 128 GPUs 64 GPUs • 柔軟なGPUリザベーションにより利用率を最大化 • トレーニング時間を短縮する分散トレーニングフレームワークとオーケストレーションプラット機能 • ハードウェア障害後に自動的にトレーニング実行を再開する耐障害性
  9. 10 柔軟なリザベーションによりより多くのモデルをト レーニング Month 1 Month 2 Month 3 Month

    4 Month 5 Month 6 Month 7 Month 8 Month 9 Month 10 Month 11 Month 12 512 GPUs <- 30B (25 days) 512 GPUs <- 70B (55 days) 256 GPUs <- 7B (10 days) 別の モデル開発 ファインチューン & 評価 ファインチューン & 評価 ファインチューン & 評価 128 GPUs 64 GPUs • 柔軟なGPUリザベーションにより利用率を最大化 • トレーニング時間を短縮する分散トレーニングフレームワークとオーケストレーションプラット機能 • ハードウェア障害後に自動的にトレーニング実行を再開する耐障害性
  10. 11 Mosaicの柔軟なGPUリザベーション Week 1 Week 2 Week 3 Week 4

    Week 5 Week 6 Week 7 Week 8 Week 9 Week 10 Week 11 Week 12 Week 13 Week 14 Week 15 Week 16 512 GPUs <- 70B テスト ファイン チューン モデル評 価 128 GPUs • 柔軟なGPUリザベーションにより利用率を最大化 • トレーニング時間を短縮する分散トレーニングフレームワークとオーケストレーションプラット機能 • ハードウェア障害後に自動的にトレーニング実行を再開する耐障害性
  11. まとめ & Next step まとめ: • Mosaicの最適化されたトレーニング機能は業界をリードする効率を提供する • 柔軟なGPUのリザベーションにより、初期費用と TCO

    が削減可能 • Mosaicのチームは、ML関連の専門知識とモデル開発ガイダンスを提供する • その結果、より少額のコストでより多くの最先端モデルをより迅速にトレーニング可能 Next steps: • 技術的な検証アプローチを決定し、評価のために技術リーダーをアサイン
  12. ©2023 Databricks Inc. — All rights reserved 14 RAG is

    part of Mosaic AI Mosaic AI works for all types of AI — classical ML, deep learning, and generative AI. MLOps + LLMOps Implement CI/CD processes and automation across all of your AI workloads Prepare Data & Vectors Prepare data & features with native tools Serve Applications Serve models into real-time apps, with monitoring and alerts Build & Evaluate Models Train or fine-tune custom models, and prompt engineer pre-trained models Serve Data & Vectors Serve structured data and vector databases as real-time APIs Governance Govern data and AI models together under Unity Catalog Data Platform Build on top of your open Lakehouse, powered by Delta Lake
  13. ©2023 Databricks Inc. — All rights reserved 15 Serve Applications

    Build & Evaluate Models Prepare Data & Vectors MLOps + LLMOps Serve Data & Vectors Governance Data Platform RAG is part of Mosaic AI Mosaic AI capability (AI) Lakehouse capability (Data + AI) Mosaic AI works for all types of AI — classical ML, deep learning, and generative AI. MLflow Asset Bundles (DABs) CI/CD support SQL Workflows Delta Live Tables Notebooks Model Serving AI Functions Models from SQL Lakehouse Apps Lakehouse Monitoring Notebooks w/ ML Runtime AutoML Fine Tuning Models in Marketplace MPT LLaMA2 AI Playground MLflow Track & Evaluate Feature Serving Vector Search Function Serving Model Registry in Unity Catalog Unity Catalog Feature Store in Unity Catalog Delta Tables Structured Data Files (Volumes) Unstructured Data RAG-related update in Dec. 2023
  14. Use Case - MPT-30B • オリジナルGPT-3の品質を上回る精度 • $714Kで2週間以内に1兆トークンをゼロから 学習 •

    長文の入力にも対応(他OSSモデルの 2k~4kに対して65kのコンテキスト長) • H100 GPUでトレーニングされた初のオープ ンソースモデル
  15. ©2021 Databricks Inc. — All rights reserved replitオンラインの統合開発環境(IDE)とコード共有プラットフォームを提供する企業です Challenge replitは開発者を支援するた

    めに自社の製品で LLM を使 用したいと考えていました。 LLMの学習は非常コストが高 くかつ失敗も非常に多いのが 課題でした Solution replitは、Mosaic AIの提供する Pre-trainingを使用して2.7Bパラ メータのLLMを学習することによ り、コード生成モデルである Ghostwriterをゼロから構築しま した Impact 3日間 LLMのトレーニング(数週間/数ヶ 月に対して) 1日 未加工データから実稼働モデルへ の展開 コスト削減