Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Generative AIとDatabricks

Generative AIとDatabricks

[データブリックス レイクハウス プラットフォームにおける最新動向 LT大会 登壇資料]
小谷 尚太郎 氏 (データブリックス)

イベント開催日:2023年7月26日

イベントの趣旨:
データブリックス社とエーピーコミュニケーションズ共同開催のLTイベントです。
6月にサンフランシスコで行われたDatabricks社主催の世界最大のデータ&分析&AIをテーマにしたカンファレンス「DATA+AI SUMMIT 2023」の内容から、関連した情報や今後のDatabricksにおける技術情報などをテーマとしています。
データ分析基盤に少しでも興味のある方、データブリックスやLLM(大規模言語モデル)、AIなどデータ分析基盤の導入を検討中のユーザー様を対象にしています。

アーカイブ動画:https://youtu.be/RDcjUBjygBI

More Decks by AP Communications Co., Ltd.

Other Decks in Technology

Transcript

  1. Use Existing Model or Build Your Own Model Serving and

    Monitoring Data Collection and Preparation DATA PLATFORM UNITY CATALOG LLMOps and Model Management Curated AI Models AutoML for LLM training Models in Unity Catalog Unified Governance/Lineage Features in Unity Catalog Feature + Function Serving Vector DB MLflow AI Gateway Mlflow Evaluation Databricks CLI for MLOps Model Serving LLM optimized Lakehouse Monitoring Automagic Feature Serving Lakehouse AI— AIとデータを統合するSuite
  2. Use Existing Model or Build Your Own Model Serving and

    Monitoring Data Collection and Preparation DATA PLATFORM UNITY CATALOG LLMOps and Model Management Curated AI Models AutoML for LLM training Models in Unity Catalog Unified Governance/Lineage Features in Unity Catalog Feature + Function Serving Vector DB MLflow AI Gateway Mlflow Evaluation Databricks CLI for MLOps Model Serving LLM optimized Lakehouse Monitoring Automagic Feature Serving Lakehouse AI— AIとデータを統合するSuite 多すぎる!!!
  3. ©2023 Databricks Inc. — All rights reserved アメリカ現地で頂いた質問事項!! 新機能の解説をお願いします !!

    例えば、LakehouseIQ と LakehouseAI の違いを関係性 !? Delta UniForm は Native Iceberg よりも Read 性能が良い理由は !? Liquid Cluster は今までのOptimizeの改善 !? さらに、LakehouseAI と Vector Search や MosaicML との関係性は !? LakehouceIQ はDelta Lakeの新機能 !? SparkのEnglish SDKとは別機能 !? 生成系AIは社会的なインパクトが多きすぎ て、米国でも世論が否定的な意見が出て きてるという背景があるのか !? プロンプトエンジニアリングができる画面や 生成AIの評価指標がもう少し知りたい。実 際のアーキテクチャは !?
  4. モデルテクニックは すぐにコモディティ化… SaaS 型 LLM モデルの価格は 指数関数的に下落するでしょう (前年比 10 分の

    1 ) 高品質のオープンソース モデルが利用可能に …自社データこそが最も競 争優位性に繋がる 生成AIが *自社* データの価値を 解き放つ 自社でしか作れない AI アプリ にこそ価値がある
  5. Use Existing Model or Build Your Own Modelは汎用<特化型を作ることが インダストリー・Tech企業でもスタンダードになるでしょう Large

    Language Models in Healthcare Keynote session by Eric Schmidt The science behind building LLM with MosaicML How to build your own LLM by Replit
  6. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary Serve AI Unity Catalog Monitor Data & AI Packaging Packaging Features Indexes AI Assets AI Assets Logs Metrics Logs Features Indexes Data Models Chains Agents Features Indexes 11 APIs BI / SQL ETL / streaming pipelines Prepare Data Batch, streaming, real time Serve Data Governance & Lineage Features Develop AI Features Indexes Lakehouse AIはUnity Catalogを中心に完全に統合
  7. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary Serve AI Unity Catalog Monitor Data & AI Packaging Packaging Features Indexes AI Assets AI Assets Logs Metrics Logs Features Indexes Data Models Chains Agents Features Indexes 12 APIs BI / SQL ETL / streaming pipelines Prepare Data Batch, streaming, real time Serve Data Governance & Lineage Features Features Indexes Develop AI 🤗 pipelines 🦜🔗 chains + prompt + credential function(...) Lakehouse AIはUnity Catalogを中心に完全に統合
  8. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary Serve AI Unity Catalog Monitor Data & AI Packaging Packaging Features Indexes AI Assets AI Assets Logs Metrics Logs Features Indexes Data Models Chains Agents Features Indexes 13 APIs BI / SQL ETL / streaming pipelines Prepare Data Batch, streaming, real time Governance & Lineage Features Features Indexes Develop AI Serve Data Lakehouse AIはUnity Catalogを中心に完全に統合
  9. ©2023 Databricks Inc. — All rights reserved | Confidential and

    proprietary Lakehouse AIはUnity Catalogを中心に完全に統合 Serve AI Unity Catalog Monitor Data & AI Packaging Packaging Features Indexes AI Assets AI Assets Logs Metrics Logs Features Indexes Data Models Chains Agents Features Indexes APIs BI / SQL ETL / streaming pipelines Prepare Data Batch, streaming, real time Governance & Lineage Features Features Indexes Develop AI Serve Data
  10. データプラットフォーム UNITY CATALOG Lakehouse AI — データ中心の AIプラットフォーム データ収集と データ加工

    データセット モデルサービング およびモデル監視 アプリケーション 既存のモデルを構築 もしくは 自身でモデル構築 モデル
  11. 例:サポートチャットボット “今日の夕飯は何が いいかな”. Large Language Model 文脈に即したレスポンスを返す Data Collection and

    Preparation Answer ステーキはいかが、焼肉はいかがと推薦されてしまった、、 しかしこれから米国帰りの私は少し体調を気遣って欲しい
  12. 例:サポートチャットボット “今日の夕飯は何が いいかな”. Documents Answer Online features 米国で食べた食事を食事管理アプリか ら連携し、特徴量として提供 Vector

    Store レシピ・栄養素一覧など文書データ Large Language Model 個人の食事経歴と栄養素を考慮した最 適な食事を提案 Data Collection and Preparation
  13. Data Collection and Preparation Feature Serving • モデルへのリアルタイム提供 • ソースのDelta

    Tableとの自動同期 Delta Table 私を含めたユーザーの 食事記録テーブル 食事記録テーブルから私の IDで食事履歴を抽出する
  14. Data Collection and Preparation Vector Search packaged model Delta Table

    🤗 Hugging Face many others • サーバレス • ソースのDelta Tableとの自動同期 • Unity Catalogのガバナンスとリネージが適用 • モデルサービングと同期 食品の栄養素一覧や レシピのテキスト情報 ”夕飯”という話題で、レシピを 検索 テキスト情報をキーワード検 索できるように変換
  15. 例:サポートチャットボット “今日の夕飯は何が いいかな”. Documents Answer Online features 米国で食べた食事を食事管理アプリか ら連携し、特徴量として提供 Vector

    Store レシピ・栄養素一覧など文書データ Large Language Model 個人の食事経歴と栄養素を考慮した最 適な食事を提案 Data Collection and Preparation
  16. データプラットフォーム UNITY CATALOG Lakehouse AI — データ中心の AIプラットフォーム 既存のモデルを活用 もしくは

    自身でモデル構築 モデル データ収集と データ加工 データセット モデルサービング およびモデル監視 アプリケーション
  17. Text generation following instructions MPT-7B-Instruct MPT-30B-Instruct Falcon-7B-Instruct Falcon-40B-Instruct Text embeddings

    (English only) instructor-xl e5-large-v2 e5-base-v2 all-mpnet-base-v2 Code generation StarCoderBase StarCoder replit-code-v1-3b 簡単にエンベディングや 推論を実行するための厳選された オープンソースモデルリスト INTRODUCING Curated models by Databricks Transcription (speech to text) whisper-large-v2 whisper-medium Image generation stable-diffusion-2-1 Use Existing Model or Build Your Own
  18. Curate models Data Training cost limit Serving cost Quality metric

    target Serving latency Auto ML 社内のデータで独自のモデルをチューニ ングさせるGUIインタフェース INTRODUCING AutoML to build your custom LLMs Use Existing Model or Build Your Own
  19. INTRODUCING AutoML to build your custom LLMs Use Existing Model

    or Build Your Own NLPに精通していなくても、、 モデルとデータセットをGUIで選択するだけ で、モデルをチューニング
  20. MLflow Evaluation INTRODUCING Use Existing Model or Build Your Own

    いくつかモデルができたが どれがベストか? mlflowでモデルごとの質 問と回答の比較を行いベ ストなモデルを選ぶ
  21. Use Existing Model or Build Your Own データプラットフォーム UNITY CATALOG

    Models Lakehouse AI — データ中心の AIプラットフォーム モデルサービング およびモデル監視 アプリケーション データ収集と データ加工 データセット
  22. LLMに最適 化された Model Serving INTRODUCING Model Serving and Monitoring Falcon-7B-Instruc

    t whisper-large-v2 stable-diffusion-2- 1 MPT-7B-Instruct 社内で一度に数百人がLLMアプリを使います どのような基盤でモデルをデプロイしたらいいか? ・リクエスト数に応じて、クラスターをオートスケール ・もちろんGPU対応
  23. Manage, govern, evaluate, and switch models easily MLflow AI Gateway

    INTRODUCING Multiple Generative AI use cases across the organization BI Pipelines Apps Users MLflow AI Gateway Multiple Generative AI Models Credentials Caching Logging Rate limiting Model Serving and Monitoring 社内でLLMアプリが乱立している それぞれの運用を可視化・トラッキングしたい