Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricksのご紹介

 Databricksのご紹介

データ分析における課題、それに対するソリューション、機能紹介(ガバナンス、データエンジニアリング、データサイエンス、BI、生成AI)という流れでDatabricksの概要を説明しています。

Takaaki Yayoi

May 23, 2024
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. ©2024 Databricks Inc. — All rights reserved Databricksのご紹介 2024/5/24 Databricks

    Japan 弥生 隆明 Databricksとは何か? 生成AIの活用と開発を促進する データインテリジェンスプラットフォーム
  2. ©2023 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明

    (やよい たかあき) Databricks アカウントSA部 部長 ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki
  3. ©2024 Databricks Inc. — All rights reserved Learning Spark 2nd

    Editionの翻訳 + αの内容となっています! Apache Spark徹底入門 本書は、ビッグデータを主な対象としたデータ分析フレームワークである Apache Spark、MLflow、Delta Lake の中級入門書です。「動かしてみる」だけではなく、どのような仕組みになっているのか、 どうすれば効率的な実装が行えるかまで踏み込みつつ、データ AIの実装者がApache Spark、MLflow およびDelta Lakeを使いこなすための解説を行います。 • Python、SQL、Scala、またはJavaの高レベルの構造化 APIの学習 • Spark の操作とSQLエンジンの理解 • Spark 構成とSpark UIを使用したSpark操作の検査、調整、デバッグ • JSON、Parquet、CSV、Avro、ORC、Hive、S3、またはKafkaといったデータソース への接続 • 構造化ストリーミングを使用してバッチ データとストリーミング データの 分析を実施 • オープンソースのDelta LakeとSparkを使用して信頼性の高いデータ パイプラインを構築 • MLlibを使用する機械学習パイプラインの開発、 MLflowを使用するモデルの 管理、本番化 • [日本語版オリジナルコンテンツ ]pandas dataframe、spark dataframeに関する各 種データフレームの使い分け • [日本語版オリジナルコンテンツ ]LLMやEnglish SDK for SparkなどAIを活用 した新たなコーディングスタイル、 LLMの利用方法の実践
  4. ©2024 Databricks Inc. — All rights reserved 6000+ の従業員 $1.5B+

    の収益 $4B の投資 レイクハウスの発明者 & 生成AIのパイオニア Gartnerに認知されるリーダー Database Management Systems データ & AIカンパニー のクリエイター
  5. ©2024 Databricks Inc. — All rights reserved データ + AI

    カンパニー がすべての業界で勝者に
  6. ©2024 Databricks Inc. — All rights reserved すべてのフライトのデジタルツ インをモデリングするためにAI を活用

    オペレーション、メンテナンス、 カスタマーサービス横断で統合 された意思決定を提供 AIで182Mのワイアレス利用者と 15Mの家庭ブロードバンドを 保護 予測アプリケーションが 不正が起きる前に リアルタイムで80%の不正をス トップ AIでローンアプリケーション 体験をシンプルに パーソナライズされたアプリ ケーションを通じて40,000のス モールビジネスに対する$1.4B のローンを促進
  7. ©2024 Databricks Inc. — All rights reserved 多くの企業はこのビジョンの 実現に苦戦しています データレイク

    オーケストレーショ ン & ETL データ ウェアハウス ガバナンス 機械学習 ストリーミング BI データサイエンス 生成 AI
  8. ©2024 Databricks Inc. — All rights reserved 多くの企業はこのビジョンの 実現に苦戦しています データレイク

    オーケストレーショ ン & ETL データ ウェアハウス ガバナンス 機械学習 ストリーミング BI データサイエンス 生成 AI サイロ化された データ、AI ガバナンス AIがもたらすデータ プライバシー& コントロールの課題 高度に技術的な スタッフへの依存
  9. ©2024 Databricks Inc. — All rights reserved データレイクハウス すべてのデータに対するオープンで統合された基盤 統合セキュリティ、ガバナンス、カタログ

    信頼性と共有のための統合データストレージ オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) データ サイエンス & AI ETL & リアル タイム分析 オーケストレーショ ン データ ウェアハウス
  10. ©2024 Databricks Inc. — All rights reserved データレイクハウス すべてのデータに対するオープンで統合された基盤 オープンデータレイク

    すべての生データ (ログ、テキスト、音声、動画、画像) Databricksが レイクハウス アーキテクチャを発明 2020 統合セキュリティ、ガバナンス、カタログ 信頼性と共有のための統合データストレージ ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL Unity Catalog Delta Lake グローバル企業の 74% がレイクハウスを導 入 現在 MIT Technology Review Insights, 2023
  11. ©2024 Databricks Inc. — All rights reserved すべてのデータに対するオープンで 統合された基盤 データレイクハウス

    データとAIを容易にスケール、活用 生成AI 皆様の組織全体のデータ + AIを民主化 データインテリジェンス プラットフォーム
  12. ©2024 Databricks Inc. — All rights reserved すべての生データ (ログ、テキスト、音声、動画、画像 )

    ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake Databricksデータインテリジェンスプラットフォーム オープンデータレイク
  13. ©2024 Databricks Inc. — All rights reserved ETL & リアルタイム分析

    オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 )
  14. ©2024 Databricks Inc. — All rights reserved ETL & リアルタイム分析

    オーケストレーション データウェアハウス データサイエンス & AI Databricks AI Delta Live Tables Workflows Databricks SQL 統合セキュリティ、ガバナンス、カタログ Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化 Databricks SQL テキストからSQL Workflows 過去の処理に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Mosaic AI カスタムLLMの作成チュー ニング、提供
  15. ©2024 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム Databricks AI

    生成AI • カスタムモデル • モデルサービング • RAG エンドツーエンドAI • MLOps (MLflow) • AutoML • モニタリング • ガバナンス あなたのデータのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 ) Databricks SQL テキストからSQL Workflows 過去の処理に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Mosaic AI カスタムLLMの作成チュー ニング、提供 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウトを最適化
  16. ©2024 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム あなたのデータのセマンティクスを理解するために データインテリジェンスエンジ

    オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像 Workflo 過去の処理に ジョブコストの Delta Live Tables データ品質の自動化 Unity Catalog 自然言語でセキュアに洞察を取得 Delta Lake 利用パターンに基づき自動でデータレイアウト Mosaic AI カスタムLLMの作成チュー ニング、提供 オペレーション 財務 マーケティング カスタマー サービス どうすれば 組織の皆に データとAIを展開 できるのか? “Project Genie” 自然言語で誰でもデータや AIを活用
  17. データ分析における課題 • データを保存しているシステムがバラバラ ✔ データ分析においては、”多種多様な”データを一元的に分析する必要があります ✔ 例: 顧客データ(構造化データ) + 画像/動画/音声/IoT(非構造化データ) • データ量が増加することで、処理が追いつかない

    & 質が低下する ✔ アウトプットには期限がありますが、サンプリングで対応すると、アウトプットの質が落ちてしまいます。 ✔ また、データの由来や説明が分からず、データの品質を保つことが困難となります。 • 迅速なデータ分析環境の構築 ✔ 分析テーマやフェーズによって対象となるデータセットやデータ量、必要な処理のサイズは大幅に変化します ✔ データの分析内容に適した計算資源を迅速に準備する必要があります • プロジェクトを進める上でチーム内の効率的な連携が難しい ✔ 分析データの用意(データエンジニアリング)、モデルの作成/検証(データサイエンス)、洞察の抽出(ビジネスアナリティクス) ✔ 異なるスキルセット、異なる言語、 異なるツールが混在する中で、同じゴールに向けて試行錯誤を共に反復する必要がある
  18. データエンジニアが抱える課題 20 データエンジニア • データベースやテーブルが野放図に作成されており、管理できていない • データパイプラインの開発や運用に多大な工数を要している • データの処理に時間がかかってしまい、データサイエンティストが分析に 着手するのに時間を要する

    • データサイエンティストが個別にAIモデルを構築しており、 ブラックボックス化している • データサイエンティストが構築するAIモデルを管理するための 仕組みがない データエンジニアはデータガバナンス、データパイプラインの開発・運用などに責任を持ちます
  19. データサイエンティストが抱える課題 21 データサイエンティスト • 分析データが散在しており、どこに何があるかわからない • データを見つけたのは良いが、どのように準備されたのかが 分からず、分析に利用できない • 構造化データだけではなく、画像などの非構造化データも分析

    したいが実現できていない • 分析環境の構築に時間を要する • 分析のロジックをレビューしてもらいたいが、リモートワーク 環境でのコミュニケーションが困難 • AIモデルのチューニングを繰り返した結果、どれがベストモデル か分からなくなってしまった • ベストモデルを本番環境にデプロイしたいが、人手での作業が 多くミスが起こりがち データサイエンティストはパフォーマンスの高い機械学習モデルの構築に責任を持ちます
  20. ©2024 Databricks Inc. — All rights reserved Databricksの提供価値 • データを保存しているシステムがバラバラ

    ✔ Unity Catalogによるデータの一元管理 ✔ レイクハウスフェデレーションによる外部データとの連携 • データ量が増加することで、処理が追いつかない & 質が低下する ✔ Delta Live TablesやSparkによるデータの高速処理 ✔ Unity CatalogによるデータとAIのガバナンスの実現 • 迅速なデータ分析環境の構築 ✔ SaaS型で提供される分析環境 ✔ 分析テーマに即した計算資源の迅速なセットアップ • プロジェクトを進める上でチーム内の効率的な連携が難しい ✔ 同一プラットフォームを活用したデータとAIのコラボレーション ✔ アクセス管理、監査ログなどによるセキュリティの確保
  21. ©2024 Databricks Inc. — All rights reserved Unity Catalog アクセス制御

    リネージ データ共有 モニタリング 検索 監査 テーブル ファイル ダッシュボード/ ノートブック 他のデータ システム ユーザー アプリ モデル オープンAPI においては、統合されたガバナンス、セ キュリティ、コラボレーションが 基盤となります Databricks Unity Catalog データインテリジェンスプ ラットフォーム
  22. ©2024 Databricks Inc. — All rights reserved データとAIのアクセス制御 Unity Catalog

    アクセス 制御 リネージ データ共有 モニタ リング 検索 監査 権限と監査を管理するための シンプルなインタフェース データとAIのエンドツーエンドガバ ナンスに対する唯一の ソリューション きめ細かいアクセス制御
  23. ©2024 Databricks Inc. — All rights reserved データ共有とコラボレーション Unity Catalog

    アクセス 制御 リネージ データ共有 モニタ リング 検索 監査 企業、BU横断でテーブルや ファイル、ノートブック、 AIモデルを共有 Databricksマーケットプレースの サードパーティデータの活用 (オープンソースのDelta Sharingによ る)プラットフォーム横断の コラボレーション プライバシー保護のマルチ パーティコラボレーションの ためのクリーンルーム
  24. ©2024 Databricks Inc. — All rights reserved 集中管理された検索 すべてのデータとAI資産に対する 統合されたインテリジェント検索

    AI提案のドキュメント、タグ、 利用に関する洞察 クエリーフェデレーションによるプ ラットフォーム横断の検索 Unity Catalog アクセス 制御 リネージ データ共有 モニタ リング 検索 監査
  25. ©2024 Databricks Inc. — All rights reserved リネージ リアルタイムで自動生成されるデータとAI資産に対する カラムレベルのリネージ

    システムテーブル経由でのプログラムによるアクセスによって、インパクト分析 のようなキーユースケースを促進 Unity Catalog アクセス 制御 リネージ データ共有 モニタ リング 検索 監査 すべての言語と製品界面で捕捉。ジョブ、DLT、ノートブック、ML、 DBSQL…
  26. ©2024 Databricks Inc. — All rights reserved AIが支援するモニタリングと 観測可能性 詳細な監査とコスト按分のための

    システムテーブル データやモデルの問題に対する プロアクティブな警告 課金、使用量、コンプライアンスに対 するエンドツーエンドの 観測可能性 Unity Catalog アクセス 制御 リネージ データ共有 モニタ リング 検索 監査
  27. ©2024 Databricks Inc. — All rights reserved レイクハウス フェデレーション 外部データソースに対するガバナンス

    すべてのソースにわたるデータ アクセス、 きめ細かいアクセス制御、リネージおよび監査 • MySQL • PostgreSQL • Amazon Redshift • Snowflake • Microsoft SQL Server • Azure Synapse (SQL Data Warehouse) • Google BigQuery
  28. ©2024 Databricks Inc. — All rights reserved レイクハウスフェデレーションの動作原理 発見 外部データソースを

    Unity カタログに登録 クエリ 単一のビューを取得して、す べてのユースケースの 最も完全なデータを安全に探 索します - 取り込みは必要ありません ガバナンス データリネージ、 洞察、監査、権限を すべて Unity カタログか ら取得します 本番利用化 必要に応じて マテリアライズド ビューを 使用するかパイプラインを 構築することで、 速度とパフォーマンスを 向上させます
  29. ©2024 Databricks Inc. — All rights reserved Databricksにおけるデータエンジニアリング • Databricksワークフローによる

    データオーケストレーション • Delta Live Tablesによる完全なデータ パイプラインの管理 • Delta Lakeによるキュレーテッド データレイクアプローチを通じて データエンジニアリングをシンプルに
  30. ©2024 Databricks Inc. — All rights reserved Delta Live Tablesのご紹介

    BRONZE SILVER GOLD 新鮮かつ高品質データを構築、管理するシンプルな方法 パイプラインの容易な開発、維持 データパイプライン(バッチ、ストリーミング)を構 築、管理するための記述ツール 自動テスト ビルトインの品質管理、データ品質モニタリング 簡素化されたオペレーション パイプラインオペレーションに対するディープな 可視化を通じた自動エラーハンドリング 36
  31. ©2024 Databricks Inc. — All rights reserved Databricksワークフローとは? すべてのクラウドで誰もが高信頼のデータ、分析、AIワークフローを構築できる 完全マネージドのレイクハウスオーケストレーションサービス

    完全マネージド 完全マネージドのオーケストレー ションサービスによって運用オー バーヘッドを取り除くことで、イン フラストラクチャの管理ではなく ワークロード自身にフォーカス。 プラットフォームと密接に インテグレーション お使いのレイクハウスプラット フォーム向けに設計され組み込 まれているので、すべてのワー クフローに対する深いモニタリン グ機能と集中管理された観測能 力を提供。 何でもどこでも オーケストレーション すべてのクラウドで完全なデー タとAIのライフサイクルにおける 様々なワークロードを実行。 Delta Live Tables、SQL、 Spark、ノートブック、dbt、MLモ デルなどのジョブをオーケスト レーション。 シンプルなワークフロー作成 特殊スキルを持つ人に限らず データチームの誰でも活用でき る簡単なポイント&クリックの作 成体験。 データ、分析、AIのための高信頼オーケストレーション 立証された信頼性 AWS、Azure、GCPで日々実行 されている数千万のプロダクショ ンワークロードで立証された信 頼性に基づいて安心してワーク ロードを実行。 https://www.databricks.com/jp/product/workflows
  32. ©2024 Databricks Inc. — All rights reserved Databricksワークフロー - ワークフロージョブ

    38 ▪ これは何? DAG(有効非巡回グラフ)による容易なコードの 作成、スケジュール、オーケストレーション ▪ キーとなる機能 ▪ シンプルさ: UIでの容易な作成とモニタリング ▪ ワークロードに合わせた多数のタスク タイプ ▪ Databricksに完全にインテグレーションされてお り、結果の調査とデバッグを迅速に ▪ 立証されたDatabricksスケジューラの信頼性 ▪ 容易にステータスをモニタリングする 観測可能性 ワーク フロー ジョブ タスクの DAG
  33. ©2024 Databricks Inc. — All rights reserved DatabricksにおけるML & データサイエンス

    機械学習 • MLflow連携によるモデルレジストリ、再現 性、本格運用への投入 • 再現性確保にDelta Lakeを活用 • シチズンデータサイエンティストのための AutoML データサイエンス • インタラクティブ分析向けコラボレーティブ ノートブック、ダッシュボード • Python、R、SQL、Scalaのネイティブサ ポート • Delta Lakeデータのネイティブサポート
  34. ©2024 Databricks Inc. — All rights reserved DatabricksにおけるMLOpsとエンドツーエンドのリネージ Staging Production

    Archived V2 V3 V1 モデルレジストリ Labels week 1 Requests + predictions week 1 モデルサービング Client / app モデルモニタリング Labels week 2 Requests + predictions week 2 Metric computation & logging Monitoring Alerting Request logging & label joining Powered by
  35. ©2024 Databricks Inc. — All rights reserved 専門レベルに合わせた機械学習の実現 多言語ノートブック Python,

    R, Scala, SQL対応の共同編集ノートブック AutoMLによるローコードML ガラスボックスアプローチによるUIベースのML開発
  36. ©2024 Databricks Inc. — All rights reserved DatabricksにおけるSQLワークロード • Databricks

    SQLでは、Delta Lakeに おけるBI、SQLワークロードの優れた性 能、同時実行性を実現 • 分析に適したネイティブSQLインタフェー ス • Delta Lakeの最新データに直接 クエリーすることによるBIツールの サポート
  37. ©2024 Databricks Inc. — All rights reserved Databricks SQLサーバレス 優れた生産性:

    待ち時間を削減 することでより多 くのことを • より高速なウェアハウ スの起動 • 高速なオート スケーリング • アイドル状態の コスト削減 優れた セキュリティ: 複数レイヤーの 分離 セキュリティ分離 レイヤーを実装する ことでお客様の セキュリティを維持 優れた信頼性: 価値を生まないク ラウドタスクを排 除 • キャパシティ プランニング • ネットワーク設定 • etc. 多くの機能: サーバレスに 最適化された 機能 • マテリアライズド ビュー • キャッシュ • etc. シンプルかつ即時に利用できるマネージドな計算資源
  38. ©2024 Databricks Inc. — All rights reserved Lakeviewダッシュボード • 最終的にはDBSQL(とノートブック)のダッシュボードを置き換える次世代ダッシュ

    ボード • 現時点ではDQSQLダッシュボードと並行稼働していますが、最終的には来年 以降にDBSQLダッシュボードを廃止します • ノートブックダッシュボードの置き換えはそれよりも少し後になります • キーとなる違い • 整理されたコンテンツモデル • モダンなビジュアライゼーションライブラリ & 設定体験 • 組織内 / ワークスペース外に配布する機能 • 検索、リネージ & アシスタントとのインテグレーション
  39. ©2024 Databricks Inc. — All rights reserved ノートブック、SQLエディタ、 ファイルエディタでネイティブに 動作する文脈を解するAIアシスタント

    コードやクエリーの生成、オートコンプリート 問題の説明と修正 企業の知識グラフを用いてお使いのデータ資産に適した文脈 考慮の結果を取得 50 Databricksアシスタント
  40. ©2024 Databricks Inc. — All rights reserved 51 LLMで強化されたQ&Aによってビ ジネスユーザーがデータを

    操作できるように 自然言語で質問を行い、テキストと可視化の 回答を取得 カスタム指示によるデータセット固有体験のキュレー ション Powered by Databricks SQL & DatabricksIQ Genie Data Room
  41. ©2024 Databricks Inc. — All rights reserved Jupyter Notebookとの違い Jupyter

    Notebook Databricks 計算リソース Juypter Notebookが稼働しているラップトップ、サー バーのリソースに制限を受けます。多くの 場合、pandasの利用が前提となるのでメモリーの制約 を受けます。 クラウドプロバイダー(AWS/Azure/GCP)が提供する リソースを理論上無制限に活用できます。 pandasに加えて Sparkも活用できるので、並列処理による恩恵を享受 することができます。 コラボレーション ラップトップで動作している Jupyter Notebookでの他 のユーザーとのコラボレーションは限定的であり、 JupyterHubを用いたとしてもその機能は 限定的です。 複数ユーザーによるコラボレーションを前提として おり、ノートブックやデータに対するアクセス制御やノートブック の同時参照、同時編集をサポートして います。 ガバナンス ラップトップで動作している Jupyter Notebookでは、個 人のデータサイエンティストによる管理しか行えず、企業 全体でのデータやコード、機械学習モデルの管理を統一 することができません。 MLOpsを前提としており、データ、コード、機械学習 モデルは全てUnity Catalogによって管理されます。 本格運用(Production) ラップトップ上で実験的にPythonを実行するには適して ますが、本格運用するためにジョブを組むには別のシス テムが必要となります。 Databricksにはワークフローの機能が搭載されているので、 実験・テストを経たロジックを簡単に本格運用に 移行することができます。また、 さまざまなAPIを公開 しているので、他のシステムとの連携も容易です。
  42. ©2024 Databricks Inc. — All rights reserved 参考資料 • Databricksドキュメント

    | Databricks on AWS • はじめてのDatabricks #Databricks - Qiita • Databricksチュートリアル #Databricks - Qiita • Databricks記事のまとめページ(その1) #Databricks - Qiita