Slide 1

Slide 1 text

Generative AIと Databricks のプロダクトコンセプト Shotaro Kotani, Databricks

Slide 2

Slide 2 text

Use Existing Model or Build Your Own Model Serving and Monitoring Data Collection and Preparation DATA PLATFORM UNITY CATALOG LLMOps and Model Management Curated AI Models AutoML for LLM training Models in Unity Catalog Unified Governance/Lineage Features in Unity Catalog Feature + Function Serving Vector DB MLflow AI Gateway Mlflow Evaluation Databricks CLI for MLOps Model Serving LLM optimized Lakehouse Monitoring Automagic Feature Serving Lakehouse AI— AIとデータを統合するSuite

Slide 3

Slide 3 text

Use Existing Model or Build Your Own Model Serving and Monitoring Data Collection and Preparation DATA PLATFORM UNITY CATALOG LLMOps and Model Management Curated AI Models AutoML for LLM training Models in Unity Catalog Unified Governance/Lineage Features in Unity Catalog Feature + Function Serving Vector DB MLflow AI Gateway Mlflow Evaluation Databricks CLI for MLOps Model Serving LLM optimized Lakehouse Monitoring Automagic Feature Serving Lakehouse AI— AIとデータを統合するSuite 多すぎる!!!

Slide 4

Slide 4 text

©2023 Databricks Inc. — All rights reserved アメリカ現地で頂いた質問事項!! 新機能の解説をお願いします !! 例えば、LakehouseIQ と LakehouseAI の違いを関係性 !? Delta UniForm は Native Iceberg よりも Read 性能が良い理由は !? Liquid Cluster は今までのOptimizeの改善 !? さらに、LakehouseAI と Vector Search や MosaicML との関係性は !? LakehouceIQ はDelta Lakeの新機能 !? SparkのEnglish SDKとは別機能 !? 生成系AIは社会的なインパクトが多きすぎ て、米国でも世論が否定的な意見が出て きてるという背景があるのか !? プロンプトエンジニアリングができる画面や 生成AIの評価指標がもう少し知りたい。実 際のアーキテクチャは !?

Slide 5

Slide 5 text

プロダクトを理解するステップ 個別機能詳細 主要機能 コンセプト トップダウン型

Slide 6

Slide 6 text

データこそが AI 戦略の中心となるべき

Slide 7

Slide 7 text

モデルテクニックは すぐにコモディティ化… SaaS 型 LLM モデルの価格は 指数関数的に下落するでしょう (前年比 10 分の 1 ) 高品質のオープンソース モデルが利用可能に …自社データこそが最も競 争優位性に繋がる 生成AIが *自社* データの価値を 解き放つ 自社でしか作れない AI アプリ にこそ価値がある

Slide 8

Slide 8 text

Use Existing Model or Build Your Own Modelは汎用<特化型を作ることが インダストリー・Tech企業でもスタンダードになるでしょう Large Language Models in Healthcare Keynote session by Eric Schmidt The science behind building LLM with MosaicML How to build your own LLM by Replit

Slide 9

Slide 9 text

MosaicML 日経経済新聞 Newspicks

Slide 10

Slide 10 text

©2023 Databricks Inc. — All rights reserved | Confidential and proprietary 歴史は繰り返す

Slide 11

Slide 11 text

©2023 Databricks Inc. — All rights reserved | Confidential and proprietary Serve AI Unity Catalog Monitor Data & AI Packaging Packaging Features Indexes AI Assets AI Assets Logs Metrics Logs Features Indexes Data Models Chains Agents Features Indexes 11 APIs BI / SQL ETL / streaming pipelines Prepare Data Batch, streaming, real time Serve Data Governance & Lineage Features Develop AI Features Indexes Lakehouse AIはUnity Catalogを中心に完全に統合

Slide 12

Slide 12 text

©2023 Databricks Inc. — All rights reserved | Confidential and proprietary Serve AI Unity Catalog Monitor Data & AI Packaging Packaging Features Indexes AI Assets AI Assets Logs Metrics Logs Features Indexes Data Models Chains Agents Features Indexes 12 APIs BI / SQL ETL / streaming pipelines Prepare Data Batch, streaming, real time Serve Data Governance & Lineage Features Features Indexes Develop AI 🤗 pipelines 🦜🔗 chains + prompt + credential function(...) Lakehouse AIはUnity Catalogを中心に完全に統合

Slide 13

Slide 13 text

©2023 Databricks Inc. — All rights reserved | Confidential and proprietary Serve AI Unity Catalog Monitor Data & AI Packaging Packaging Features Indexes AI Assets AI Assets Logs Metrics Logs Features Indexes Data Models Chains Agents Features Indexes 13 APIs BI / SQL ETL / streaming pipelines Prepare Data Batch, streaming, real time Governance & Lineage Features Features Indexes Develop AI Serve Data Lakehouse AIはUnity Catalogを中心に完全に統合

Slide 14

Slide 14 text

©2023 Databricks Inc. — All rights reserved | Confidential and proprietary Lakehouse AIはUnity Catalogを中心に完全に統合 Serve AI Unity Catalog Monitor Data & AI Packaging Packaging Features Indexes AI Assets AI Assets Logs Metrics Logs Features Indexes Data Models Chains Agents Features Indexes APIs BI / SQL ETL / streaming pipelines Prepare Data Batch, streaming, real time Governance & Lineage Features Features Indexes Develop AI Serve Data

Slide 15

Slide 15 text

データプラットフォーム UNITY CATALOG Lakehouse AI — データ中心の AIプラットフォーム データ収集と データ加工 データセット モデルサービング およびモデル監視 アプリケーション 既存のモデルを構築 もしくは 自身でモデル構築 モデル

Slide 16

Slide 16 text

例:サポートチャットボット “今日の夕飯は何が いいかな”. Large Language Model 文脈に即したレスポンスを返す Data Collection and Preparation Answer

Slide 17

Slide 17 text

例:サポートチャットボット “今日の夕飯は何が いいかな”. Large Language Model 文脈に即したレスポンスを返す Data Collection and Preparation Answer ステーキはいかが、焼肉はいかがと推薦されてしまった、、 しかしこれから米国帰りの私は少し体調を気遣って欲しい

Slide 18

Slide 18 text

例:サポートチャットボット “今日の夕飯は何が いいかな”. Documents Answer Online features 米国で食べた食事を食事管理アプリか ら連携し、特徴量として提供 Vector Store レシピ・栄養素一覧など文書データ Large Language Model 個人の食事経歴と栄養素を考慮した最 適な食事を提案 Data Collection and Preparation

Slide 19

Slide 19 text

Data Collection and Preparation Feature Serving ● モデルへのリアルタイム提供 ● ソースのDelta Tableとの自動同期 Delta Table 私を含めたユーザーの 食事記録テーブル 食事記録テーブルから私の IDで食事履歴を抽出する

Slide 20

Slide 20 text

Data Collection and Preparation Vector Search packaged model Delta Table 🤗 Hugging Face many others ● サーバレス ● ソースのDelta Tableとの自動同期 ● Unity Catalogのガバナンスとリネージが適用 ● モデルサービングと同期 食品の栄養素一覧や レシピのテキスト情報 ”夕飯”という話題で、レシピを 検索 テキスト情報をキーワード検 索できるように変換

Slide 21

Slide 21 text

例:サポートチャットボット “今日の夕飯は何が いいかな”. Documents Answer Online features 米国で食べた食事を食事管理アプリか ら連携し、特徴量として提供 Vector Store レシピ・栄養素一覧など文書データ Large Language Model 個人の食事経歴と栄養素を考慮した最 適な食事を提案 Data Collection and Preparation

Slide 22

Slide 22 text

データプラットフォーム UNITY CATALOG Lakehouse AI — データ中心の AIプラットフォーム 既存のモデルを活用 もしくは 自身でモデル構築 モデル データ収集と データ加工 データセット モデルサービング およびモデル監視 アプリケーション

Slide 23

Slide 23 text

Text generation following instructions MPT-7B-Instruct MPT-30B-Instruct Falcon-7B-Instruct Falcon-40B-Instruct Text embeddings (English only) instructor-xl e5-large-v2 e5-base-v2 all-mpnet-base-v2 Code generation StarCoderBase StarCoder replit-code-v1-3b 簡単にエンベディングや 推論を実行するための厳選された オープンソースモデルリスト INTRODUCING Curated models by Databricks Transcription (speech to text) whisper-large-v2 whisper-medium Image generation stable-diffusion-2-1 Use Existing Model or Build Your Own

Slide 24

Slide 24 text

Curate models Data Training cost limit Serving cost Quality metric target Serving latency Auto ML 社内のデータで独自のモデルをチューニ ングさせるGUIインタフェース INTRODUCING AutoML to build your custom LLMs Use Existing Model or Build Your Own

Slide 25

Slide 25 text

INTRODUCING AutoML to build your custom LLMs Use Existing Model or Build Your Own NLPに精通していなくても、、 モデルとデータセットをGUIで選択するだけ で、モデルをチューニング

Slide 26

Slide 26 text

MLflow Evaluation INTRODUCING Use Existing Model or Build Your Own いくつかモデルができたが どれがベストか? mlflowでモデルごとの質 問と回答の比較を行いベ ストなモデルを選ぶ

Slide 27

Slide 27 text

Use Existing Model or Build Your Own データプラットフォーム UNITY CATALOG Models Lakehouse AI — データ中心の AIプラットフォーム モデルサービング およびモデル監視 アプリケーション データ収集と データ加工 データセット

Slide 28

Slide 28 text

LLMに最適 化された Model Serving INTRODUCING Model Serving and Monitoring Falcon-7B-Instruc t whisper-large-v2 stable-diffusion-2- 1 MPT-7B-Instruct 社内で一度に数百人がLLMアプリを使います どのような基盤でモデルをデプロイしたらいいか? ・リクエスト数に応じて、クラスターをオートスケール ・もちろんGPU対応

Slide 29

Slide 29 text

Manage, govern, evaluate, and switch models easily MLflow AI Gateway INTRODUCING Multiple Generative AI use cases across the organization BI Pipelines Apps Users MLflow AI Gateway Multiple Generative AI Models Credentials Caching Logging Rate limiting Model Serving and Monitoring 社内でLLMアプリが乱立している それぞれの運用を可視化・トラッキングしたい

Slide 30

Slide 30 text

Lakehouse Monitoring INTRODUCING Model Serving and Monitoring 最近導入したチャットボットアプリの評判が悪い →そもそも伝聞レベルではなくメトリクスで LLMの性能を評価使用 →Unity Catalogのリネージと統合され、元のテーブルまで遡って原因を調査できる

Slide 31

Slide 31 text

まとめ • Databricksの機能群を理解するにはまずコンセプトから • LLMは汎用より自社データ特化型に価値がある • Unity Catalogによって、データ・モデル・アプリ・開発のガバナンスを統合する • 以上のコンセプトがあった上で、Vector Search・Auto LLM・Model Serving・Monitoring等が機能する

Slide 32

Slide 32 text

©2023 Databricks Inc. — All rights reserved