AI Models & Tools Cloud Storage Prepare Data Develop & Evaluate AI Serve AI SQL Workflows DLT Features Model Serving (CPU/GPU) Model Registry Notebooks Marketplace AI Functions Lakehouse Monitoring Spark AutoML Databricks AI specific capabilities Lakehouse common capabilities Unity Catalog MLflow CI/CD support OpenAI … Delta Files (Volumes) MosaicML Serve Data Data & AI Governance MLOps + LLMOps Hugging Face Feature Store MLflow (Track/Evaluate) External Services MLflow AI Gateway Vector Search Runtimes
do you serve models and pipelines efficiently? How do you fine-tune and pretrain models efficiently? How do you move from R&D to production? How does GenAI fit into your MLOps platform and processes? データは競争力です。 データを管理し、GenAIア プリケーションやカスタムモ デルに活用しましょう。 最適化されたサービングシ ステムを活用する。 主要なML/AIプラットフォー ム上でモデルの微調整と 事前学習を計画する GenAIはデータ中心のプラッ トフォーム上で展開するのが 最適である。 従来のMLOpsのほとんどは GenAIに対応するが、GenAI のいくつかの新しい要件に注 意する コスト 本番利用 コントロール
use case Data requirements Training time Advantages Considerations Prompt engineering モデルの行動を導くた めの特別なプロンプト の作成 迅速なオンザフラ イ・モデル・ガイダ ンス None None 迅速、費用対効果、 トレーニング不要 微調整よりもコント ロール性が劣る Retrieval augmented generation (RAG) Combining an LLM with external knowledge retrieval Dynamic datasets & external knowledge External knowledge base or vector database Moderate (e.g. computing embeddings) Dynamically updated context, enhanced accuracy Increases prompt length and inference computation Fine-tuning Adapting a pre-trained LLM to specific datasets or domains Domain or task specialization Thousands of domain-specific or instruction examples Moderate - long (depending on data size) Granular control, high specialization Requires labeled data, computational cost Pre-training Training an LLM from scratch Unique tasks or domain-specific corpora Large datasets (billions to trillions of tokens) Long (days to many weeks) Maximum control, tailored for specific needs Extremely resource-intensive GenAI journey
use case Data requirements Training time Advantages Considerations Prompt engineering モデルの行動を導くた めの特別なプロンプト の作成 迅速なオンザフラ イ・モデル・ガイダ ンス None None 迅速、費用対効果、 トレーニング不要 微調整よりもコント ロール性が劣る Retrieval augmented generation (RAG) LLMと外部知識検索 の組み合わせ ダイナミックなデー タセットと外部知識 外部の知識ベース またはベクトルデー タベース 適度な (埋め込み計算な ど) コンテクストが動的に 更新され、精度が向 上 プロンプトの長さと推 論の計算量が増加 Fine-tuning Adapting a pre-trained LLM to specific datasets or domains Domain or task specialization Thousands of domain-specific or instruction examples Moderate - long (depending on data size) Granular control, high specialization Requires labeled data, computational cost Pre-training Training an LLM from scratch Unique tasks or domain-specific corpora Large datasets (billions to trillions of tokens) Long (days to many weeks) Maximum control, tailored for specific needs Extremely resource-intensive GenAI journey
Unified management of all models you need to serve Model Serving Custom Models External Models Foundational Models UC / Marketplace / Workspaceから任意のMLflow モデルをAPIとしてServerless Computeでデプロイ。 CPUとGPU。 Feature Serving やVector Searchとの統合。 トップのFoundationモデルをAPI として呼び出します。 迅速な実験のためのトークン単 位の課金。 専用コンピュート用のスループッ トベースのDBU価格設定 外部モデルと API を管理しま す。 これは、MLflow AI Gatewayの ガバナンスに加え、従来の Databricks Model Servingのモ ニタリングとペイロードロギング を提供します。 Available now as Model Serving Available via MosaicML Inference Available via AI Gateway preview
Central Management and Governance Unified APIs for AI Models and Providers Enable Multiple Gen AI Use Cases ルート ユーザは、各組織が管理するクレデ ンシャルを使用して、指定されたモデルを 照会できます 組織は、コストを管理するためにルートを 制 限することができます。 ルートは、より良いトラッキングと観測可能 性のために、リクエストの ロギングとキャッ シングを可能にする。 多様なモデルやプロバイダーに 共通のAPI を提供することで、ユーザーはベンダー固有 のAPIやドキュメントに精通する必要がなくな る。 残りのコードを再構築することなく 、最新かつ 最高のLLMに簡単にアップグレードできま す。 モデルへのアクセスと 管理を一元化すること で、開発者は最終製品に集中でき、インフラの 更新に費やす時間を減らすことができる。 シンプルな統合により、リリースされる最適な モデルを常に使用できる柔軟性を提供するこ とで、将来性を証明します。 コスト管理と運用監視 により、AIアプリケーショ ンを責任を持ってスケールアウトすることがで きます。 23 モデルの管理、統治、評価、切り替えが容易 All of Databricks Model Serving will provide these benefits.
モデルの管理、統治、評価、切り替えが容易 以前は「AI Gateway」と呼ばれていた All of Databricks Model Serving will provide these benefits. Central Management and Governance Unified APIs for AI Models and Providers Enable Multiple Gen AI Use Cases ルート ユーザは、各組織が管理するクレデ ンシャルを使用して、指定されたモデルを 照会できます 組織は、コストを管理するためにルートを 制 限することができます。 ルートは、より良いトラッキングと観測可能 性のために、リクエストの ロギングとキャッ シングを可能にする。 多様なモデルやプロバイダーに 共通のAPI を提供することで、ユーザーはベンダー固有 のAPIやドキュメントに精通する必要がなくな る。 残りのコードを再構築することなく 、最新かつ 最高のLLMに簡単にアップグレードできま す。 モデルへのアクセスと 管理を一元化すること で、開発者は最終製品に集中でき、インフラの 更新に費やす時間を減らすことができる。 シンプルな統合により、リリースされる最適な モデルを常に使用できる柔軟性を提供するこ とで、将来性を証明します。 コスト管理と運用監視 により、AIアプリケーショ ンを責任を持ってスケールアウトすることがで きます。
用する Your data + an LLM “brain” Retrieval Augmented Generation (RAG) Users Query RAG chain “What is Spark Connect?” 2 Vector Database or Feature Store Retrieve relevant info/data (context) “The Spark Connect client translates DataFrame…” 3 Prompt with context Augment prompt with context Respond to Q based on D: Relevant docs Question Instruction-following LLM 4 Generate answer from context “Spark Connect allows a decoupled client-server…”
architecture: RAG Users Construct Prompts 3 Send prompts to LLM to generate response Response 5 1 Instruction Following Model 4 Query AI Gateway Templates Prompts Model Serving (CPU/GPU) Related docs (from ) 2 2 Search for related content Data Serving Vector Search See implemented in https://www.dbdemos.ai/demo.html?demoName=llm-dolly-chatbot ETL Prepare docs (cleanse, chunk, …) Ingest docs Files Tables Volumes Delta Live Tables RAG Chain Embedding Model Model Serving (GPU) … OpenAI Mosaic Inference Automatically sync with Delta table Choose and load model(s) Compute embeddings Query RAG model Monitoring Model Hub Hugging Face Hub … Models in Unity Catalog Model Serving (CPU) 🦜🔗 …
architecture: RAG Users Construct Prompts 3 Send prompts to LLM to generate response Response 5 1 Instruction Following Model 4 Query Templates Prompts Related docs (from ) 2 2 Search for related content Data Serving Vector Search See implemented in https://www.dbdemos.ai/demo.html?demoName=llm-dolly-chatbot ETL Prepare docs (cleanse, chunk, …) Ingest docs Files Tables Volumes Delta Live Tables RAG Chain Model Serving (CPU) Embedding Model Model Serving (GPU) … OpenAI Mosaic Inference Automatically sync with Delta table Choose and load model(s) Compute embeddings Query RAG model Monitoring Automatic ingestion Unity Catalog governance Choice of models MLOps integration Choice of frameworks Model Hub Hugging Face Hub … Models in Unity Catalog 🦜🔗 … AI Gateway Model Serving (CPU/GPU)
一般的なエンベッディングと命令追従アーキテクチャを微調 整するためのシンプルなツール Set configs • Training cost • Quality target • Serving cost • Serving latency Bring custom training data Choose model architecture Custom code in Databricks 最新のツールを使って、あらゆるGenAI モデルを微調整: Hugging Face、 DeepSpeed、PyTorch、TensorFlowな ど。 標準的なDatabricksワークフローを使 用: GPUクラスター、MLflow、ノートブッ ク/ジョブ、... Examples: • Hugging Face and MLflow (docs) • Hugging Face and DeepSpeed (blog) • Parameter Efficient Fine-Tuning with LoRA (blog) Fine-tuning with Databricks Available in AutoML Private Preview Fine Tuning Build custom models using your data via a simple API and configs MosaicML More in the next section! Generally available
Orchestrator & Tools Files Application workflow: fine-tuning Load base model 3 Compute 4 myModel Register customized model 5 Fine-tune model Models in Unity Catalog Ingest training docs 1 DeepSpeed MosaicML Notebooks Tables GPU cluster Trainer PEFT Spark Hugging Face Hub … Prepare data 2 Volumes PyTorch MLflow Data Preparation TensorFlow Notebooks Transformers Spark PyTorch Delta Live Tables … … Seamless transition from Data Engineering to Data Science Unity Catalog governance Simple infrastructure for your custom code Scalability Unity Catalog governance
7X faster and cheaper training of large AI Models 大規模なAIモデルのトレーニングを 簡素化、スケーラブル、かつコスト 効率よく行うことができます お客様のセキュアな環境で、お客 様のデータを使って独自の生成 AI モデルをトレーニングまたは微調 整します モデルの完全な制御とデータのプ ライバシー Your data, your model, built in your secure environment.
changes with LLMs? Properties of LLMs Implications for MLOps サードパーティの APIは、プロプライエタリモデルとオープン ソースモデルを提供する。 API governance: • APIプロバイダー間のオプションと柔軟性を持つために、集中型 APIガバナンスを使用する。
Gen AI • edX LLM Courses (also on Databricks Academy) • Generative AI Fundamentals (Databricks Academy) Learn about Gen AI on Databricks • RAG End-to-End Example (code) • Vector Search + Lakehouse Monitoring (talk) • LLM Eval best practices and LLM Eval in MLflow (blogs) Learn about MLOps • Big Book of MLOps (includes a Gen AI section) • LLMOps Data+AI Summit 2023 talk
and Data+AI Summit 2023 talk on Databricks AI and LLMs for many use cases easyJet blog post on LLMs for digital customer service, personalization and operations Comcast Data+AI Summit 2023 talk on the Databricks AI platform Texas Rangers YouTube short on Databricks AI for powering player performance and fan experience Barracuda blog post on Databricks AI for preventing email phishing attacks at scale Customer Stories
governance Unified data storage, management, and sharing Unity Catalog Delta Lake Intelligence Engine LakehouseIQ Real-time Analytics ETL & Orchestration Data Warehousing Data Science & Gen AI Databricks AI Delta Live Tables Workflows Databricks SQL Databricks Generative Data Platform
inference of Models with up to 10X lower latency and reduced costs 高可用性、低レイテンシー、自動スケーリ ングによるサービス提供 自動機能検索、モニタリング、統合ガバナ ンス OSS GenAIモデルに最適化 レイテンシーとコストを最大10倍削減
Build Custom Model Serve Models into Real-Time Apps and Monitor Prepare data & features with native tools Data Platform — Delta Lake Governance — Unity Catalog Datasets Models Applications
with Databricks Foundation model + your data Custom model fine tuned or trained on your data Data requirements Small: 10s of thousands of words Medium - Large: Millions - Trillions of words Objective Securely host an open source model and connect to your enterprise data Customize models on your data for your specific use cases Models MPT family • Llama 2 • Falcon MPT family • Llama 2 • Your Specific Model
+ Your Data Customer has small amounts of text (~100k words max), such as ▪ HR handbook ▪ Instruction manual ▪ Support tickets Customer data is organized using Vector Search and queried using an open source model hosted in Databricks Model Serving Falcon LlaMA 2
medium to large amounts of text (1M-1T words) • Enables models to have domain knowledge • Enables new modalities, such as code, images and proteinomics Customer data is used to securely build a custom model in customer’s private environment using MosaicML. This model is unique to their data and becomes their IP Custom Model fine-tuned or trained with your data