Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データブリックスエンジニアが語るデータ・AI基盤の現在地とこれから

 データブリックスエンジニアが語るデータ・AI基盤の現在地とこれから

データブリックスはApache Spark、Delta Lake、MLflow等のOSSを牽引しつつ、現在ではデータ基盤から生成AIまでプロダクション利用できる統合プラットフォーム、データインテリジェンスプラットフォームをAWS、Azure、GCP上で提供しています。SRE・インフラ安定運用向けのリアルタイムなログデータ監視・分析から、WebアプリへのLLMエージェントの組込みなど様々な事例・経験値をもとに「データとAI」を支えるオープンかつシンプルな技術・サービス・実装例の現在地と今後のトレンドなどを紹介します。

Databricks Japan

February 16, 2024
Tweet

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. ©2024 Databricks Inc. — All rights reserved 1 データブリックスエンジニアが語る データ・AI基盤の現在地とこれから

    Databricks Japan 2024/2/16 1 北村 匡彦 桑野 章弘 北岡 早紀 志賀 優毅 16-D-2 Developer’s Summit 2024
  2. ©2024 Databricks Inc. — All rights reserved 自己紹介 2 北村

    匡彦 - フィールドエンジニアリング本部・マネージャー (好きな言葉は「人間だもの」) 桑野 章弘 - フィールドエンジニアリング本部・ソリューションアーキテクト (ベイブレードで手を負傷しました) 北岡 早紀 - フィールドエンジニアリング本部・ソリューションアーキテクト (最近ゼルダをクリアしました) 志賀 優毅 - フィールドエンジニアリング本部・ソリューションアーキテクト (ラーメン二郎すき)
  3. ©2024 Databricks Inc. — All rights reserved プロダクト セーフ ハーバー

    ステートメント この情報は、データブリックスの一般的な製品の方向性を概説するために提供さ れるものであり、情報提供のみを目的としています。データブリックスのサービス を購入するお客様は、現在利用可能なサービス、特徴、機能のみに依拠して購 入を決定してください。将来見通しに関する記述に記載されている未発表の機能 または特徴は、データブリックスの裁量で変更される可能性があり、計画通りま たは全く提供されない可能性があります。
  4. ©2024 Databricks Inc. — All rights reserved Databricksって、結局何なん ??? OSSクリエーター

    LLMの学習データセットの公開 DBMS Ranking #11 https://db-engines.com/
  5. ©2023 Databricks Inc. — All rights reserved ETL & リアルタイム分析

    オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricks データインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 )
  6. ©2023 Databricks Inc. — All rights reserved Databricks Data Intelligence

    Platform Databricks AI Data Warehousing ETL and Process Engine Orchestration Data and AI Governance Intelligence Engine Collaboration Lakehouse Monitoring and Observability bronze silver gold Cloud Storage Storage リファレンス・アーキテクチャ Ingest Sensors and IoT (unstructured) RDBMS (structured) Transform BI Tools Query and Process Source 6 Apps Operational Database 3rd party * Private Preview Files / Logs (semi-structured) Business Apps (structured) Media (unstructured) Other clouds Ingest tool Serve Analysis/Output Hugging Face External AI services … CI/CD MLOps/LLMOps Feature Store Model Registry AutoML Notebooks Feature Engineering Model Serving Vector Search * Delta Sharing Databricks Marketplace Feature Serving Federation Event Streaming CDC Structured Streaming Performance Optimization DatabricksIQ Photon Delta Live Tables Databricks SQL Serverless SQL Structured Streaming Auto Loader Lakehouse Federation OpenAI Unity Catalog Assistant Discovery & Search Databricks Workflows Lakeview 展示ブースで 深掘りしましょう
  7. ©2023 Databricks Inc. — All rights reserved Unified Data One

    platform to store and manage all structured, semi-structured, and unstructured data Unified Governance One security and governance model for all data access across the organization Cloud Data Lake All Raw Data (Logs, Texts, Audio, Video, Images) 7
  8. ©2024 Databricks Inc. — All rights reserved RAWデータ きれいな分析データ アナリティクス

    機械学習 ビジネスインサイト データクオリティ データの変換 連続バッチもしくはス トリーミング処理 エラーハンドリングと自 動リトライ データパイプライン監 視 自動デプロイ オーケストレーション 連続または定期的な データ収集 業務アプリ Photon UNITY CATALOG Data Engineerの仕事 データパイプラインの整備 : Delta Live Table, Workflow データの整備→ETL/ELT データの可視化 データの収集 分析データ データの変換 データセキュリティ・データガバナンスの確保
  9. ©2024 Databricks Inc. — All rights reserved AIで変わるData Engineerの仕事 AIを活用する事でData

    Engineerの仕事を楽に! これが Data Intelligence Platform の一つの形 ・・・例えばこんな課題 データ処理の試行錯誤 取得したいデータがあるがど うSQLで表して良いのかわ からない AIアシスタント コードの修正や、やりたい事のリコメンド Data Rooms 自然言語でのデータ集計
  10. ©2024 Databricks Inc. — All rights reserved AIで変わるData Engineer:Data Room

    自然言語で書いた内容でデータを取得することが可能、SQLを書く必要なし!
  11. ©2024 Databricks Inc. — All rights reserved Unity Catalog: あらゆるデータとAI資産を一元管理

    外部の計算エンジン データブリックスのサービス BI & Data Warehousing Data Engineering Data Streaming Data Science & ML オープンなインターフェース データベースやデータウェアハウス クラウドデータレイク 構造化データ/準構造, 非構造化データ 外部のカタログ Databricks Unity Catalog 構造化データから非構造化データとAIを含めた一元的なガバナンスモデル
  12. ©2024 Databricks Inc. — All rights reserved 19 AI/MLプロダクトの実現に必要な要素 ④AIの展開

    ②データの加工 ⑧ MLOps or LLMOps ③AIの開発と評価 ⑥AIのモニタリング • モデルに入力可能な形への変換 • テーブルの結合や集計 • スクラッチのモデルの開発 • ファインチューニング • プロンプトエンジニアリング • 定性評価と定量評価 • 低レイテンシのモデルサービング • モデルログ • モデルの精度と品質を評価する • モデルの品質を維持するためのモ ニタリングと再トレーニング • モデルのビジネス KPIインパクトの 理解 ⑤データの展開 • オンラインの特徴量サービング • Vector DB の作成 ⑦AIとデータのガバナンス • モデルとデータのセキュリティと権限 • モデルとデータのリネージ • コード、データ、モデルを開発と本番の間で移動 • モデル、実験の管理 Data ①自社データを収集する CRM ERP 社内ドキュメント ログ Data Data Data Data Data Data
  13. ©2024 Databricks Inc. — All rights reserved ④AIの展開 ②データを加工する ⑧

    MLOps or LLMOps ③AIの開発と評価 ⑥AIのモニタリング • モデルに入力可能な形への変換 • テーブルの結合や集計 • スクラッチのモデルの開発 • ファインチューニング • プロンプトエンジニアリング • 定性評価と定量評価 • 低レイテンシのモデルサービング • モデルログ • モデルの精度と品質を評価する • モデルの品質を維持するためのモ ニタリングと再トレーニング • モデルのビジネス KPIインパクトの 理解 ⑤データの展開 • オンラインの特徴量サービング • Vector DB ⑦AIとデータのガバナンス • モデルとデータのセキュリティと権限 • モデルとデータのリネージ • コード、データ、モデルを開発と本番の間で移動 • モデル、実験の管理 Data ①自社データを収集する CRM ERP 社内ドキュメント ログ Data Data Data Data Data Data Unity Catalog Delta Lake Spark Auto ML Model Serving Vector index Monitoring Mlflow External Models Feature Serving Foundation Model Mlflow Evaluation Databricks では全てのステップを支援
  14. ©2024 Databricks Inc. — All rights reserved AutoML 数行のコードでベースラインモデルを作成 21

    # Spark Pandas API によるデータの読み込み import pyspark.pandas as ps train_df = ps.read_csv(train_csv_path) # AutoML による学習 summary = automl.regress( train_df.drop(columns=["Id"]), primary_metric="rmse", target_col="SalePrice", experiment_name=experiment_name, )