Upgrade to Pro — share decks privately, control downloads, hide ads and more …

はじめてのDatabricks (2025年7月版)

はじめてのDatabricks (2025年7月版)

初めてのDatabricksの資料です。

使用したノートブックはこちら。

https://github.com/taka-yayoi/databricks_101

Avatar for Takaaki Yayoi

Takaaki Yayoi

August 24, 2025
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. ©2025 Databricks Inc. — All rights reserved はじめに ▪ 本日のセッションは後日オンデマンドでもご覧いただけます。

    ▪ ご質問がありましたら、Q&Aボックスにご入力ください。 ▪ 今後より良いコンテンツをお送りするためにも、ぜひアンケートへのご協力をよろし くお願いいたします。
  2. ©2025 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明

    (やよい たかあき) シニア スペシャリスト ソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサル、総合電機メーカー にてデータ分析・Webサービス構築 などに従事。インド赴任経験あり。 ▪ Databricks Certified (Data Engineer | Machine Learning) Professional, Generative AI Engineer Associate ▪ Qiitaでいろいろ書いています。 3 @taka_aki
  3. データ+AIカンパニー クリエーター 15,000+ グローバルのお客様 $2.4B+ 年間収益 14B+ の投資 レイクハウス の

    発明者 生成AIの パイオニア A LEADER 2024 Magic Quadrant for Cloud Database Management Systems A LEADER 2025 Magic Quadrant for Data Science and Machine Learning Platforms - Analytic Stream Processing - Data Intelligence Software - MLOps Gartner®, Magic Quadrant™ for Cloud Database Management Systems, Henry Cook et al., 18 December 2024 Gartner®, Magic Quadrant™ for Data Science and Machine Learning Platforms, Afraz Jaffri et al., 17 June 2024 GARTNERは、Gartner, Inc.および/または米国とその他の国におけるその関連会社の商標およびサービスマークであり、 MAGIC QUADRANTは、Gartner, Inc.および/またはその関連会社の登録商標であり、本書では許可を得て使用しています。 All rights reserved. Gartnerは、Gartnerリサーチの発行物に掲載された特定のベンダー、製品またはサービスを推奨するものではありません。また、最高のレーティング又はその他の評価を得たベンダーのみを選択するようにテクノロジーユーザーに助言するものではありません。 Gartnerリサーチの発行物 は、Gartnerリサーチの見解を表したものであり、事実を表現したものではありません。 Gartnerは、明示または黙示を問わず、本リサーチの商品性や特定目的への適合性を含め、一切の責任を負うものではありません。
  4. データレイク 高コストとロックインに よる複雑性の悪夢です ガバナンス 機械学習 BI データ サイエンス 生成 AI

    オーケストレーション とETL データウェアハ ウス ストリーミング データ資産は散在しています
  5. 一般的な知能テストでLLMは限界に達しています 2019 2020 2021 2022 2023 オープンソース vs. プライベートモデル、 5-ShotのMMLUパフォーマンス

    プライベート オープンソース Falcon 180 LlaMA 2 Flan-T5-XXL LlaMA DBRX LlaMA 3 GPT-2.1.5B GPT-3 PaLM 540B GPT 3.5 Claude 2 GPT-4 Flan-PaLM 2 PaLM 2 Claude 3 GPT-4o 現在 0 100 20 40 60 80 ©2025 Databricks Inc. — All rights reserved
  6. 従来のカタログ 全てのデータ+AIのガバナンスを統合 テーブル AIモデル ファイル ノートブック ダッシュボード 全てのデータ&AI 資産に対する単一の オープンガバナンスモ

    デル リネージ、監視、 観測可能性による データへの信頼 アクセス制御 ディスカバリー リネージ 監査 セキュアな データ共有 品質監視 コスト制御 ビジネス セマンティクス セキュリティ コラボレーション 品質 管理
  7. ディザスターリカバリ コストコントロール エンタープライズセキュリティ 100% サーバレス レイクハウス AI/BI ビジネス インテリジェンス Databricks

    SQL データウェアハウス Lakeflow 取り込み、ETL ストリーミング Mosaic AI 人工知能 Databricks データ・インテリジェンス・プラットフォーム
  8. FactsetはFortune 500の 金融サービス企業です Factsetは英語のクエリーを受け取り、そ れらをFQLに変換したいと考えて いました FQL (Factset Query Language)は

    FactSetのデータへのアクセスに 用いられるプロプライエタリなデータ収集 言語です FF_BASIC_DERIVED( FF_PRD_EPS(ANN_R, #ALL#, "0CY") AS "EPS_Current_Year", FF_PRD_EPS(TTM_R, #ALL#, "0CY") AS "EPS_TTM" ) WHERE FF_SECURITY_TYPE("#ALL#") IN ("EQ") AND FF_COUNTRY("#ALL#") IN ("US") FQL “全ての米国上場株式における今年以降のEPSをください” 等価の英語 問題 ゴール ©2025 Databricks Inc. — All rights reserved
  9. データインテリジェンスとエージェントが プロダクション品質を提供 vs 85% の精度 6s のレイテンシー エージェント 1 FQL数式の収集

    ベクトル検索 エージェント 2 クエリー指示の 適用 ファインチューニング されたOSSモデル エージェント 3 数値引数の生成 関数呼び出しと OSSモデル エージェント 4 最終的な数式の 生成 商用LLM 59% の精度 15s のレイテンシー 数式の生成 GPT4 あなたの企業データに基づく推論 あなたのユースケースに 対するカスタムの評価 データ、モデル、ツールに対するガバナンス
  10. Databricksによるエージェントシステムの構築 データ準備 エージェントの 構築 エージェント のデプロイ エージェント の評価 エージェントの管理 エージェントサービング

    LLMジャッジ ピアラベリング トレース MLOps/LLMOps ML特徴量 ベクトルインデックス リネージ データ取り込み モデルチューニング ツールカタログ 関数呼び出し AIガードレイル 使用量追跡 認証情報 レート制限 Mosaic AI
  11. ディザスターリカバリ コストコントロール エンタープライズセキュリティ 100% サーバレス レイクハウス AI/BI ビジネス インテリジェンス Databricks

    SQL データウェアハウス Lakeflow 取り込み、ETL ストリーミング Mosaic AI 人工知能 Databricks データ・インテリジェンス・プラットフォーム Databricks SQL データウェアハウス
  12. Apache Spark pandas PowerBI Tableau Microsoft Excel Databricks PostgreSQL MySQL

    Snowflake Amazon Redshift AzureSQL Azure Synapse Google BigQuery 外部データソースを Unity Catalogに接続 ETL不要なオープンの クラウド横断、プラットフォーム 横断のデータ共有 全てのシステムに あなたのデータ インテリジェンスを拡張 Apache Hive AWS Glue
  13. 完全なDWの機能 行レベルの同時実行 ダッシュボード共有 Tableauへの公開 PowerBIへの公開 クラウドフェッチ Python UDF 基本的な機能 1P/3P

    コネクター CDCサポート マテリアライズドビュー ストリーミングテーブル SQL Rest API SQLアラート サーバレスウェアハウス Python/Goコネクター Autoloaderによる取り込み ワークフローのスケジュール ダッシュボード SQLエディタ 1p/3p オーケストレーション Variantデータ型 地理空間SQL (ST_) Identifier句 セッション変数 HyperLogLog Array関数 ラテラル列エイリアス 名前付き引数 H3 GeoSpatial SQL UDF ANSI SQL SQLスクリプティング ビュー/一時ビュー ABAC HMSフェデレーション 100K+のユーザーをサポート 行/列のセキュリティ ER図 レイクハウスフェデレーション データ品質監視 ガバナンスや管理 テーブルリネージ OAuth マーケットプレース テーブルACL インターネット on/off Warehousesシステムテーブル Queriesシステムテーブル WHイベントシステムテーブル 外部/主キー Billingシステムテーブル クエリー履歴 クエリー実行時間の制限 ウェアハウス監視 クエリーのプロファイリング Can monitor権限 外部/主キー 移行コストを削減 ©2025 Databricks Inc. — All rights reserved
  14. ディザスターリカバリ コストコントロール エンタープライズセキュリティ 100% サーバレス レイクハウス AI/BI ビジネス インテリジェンス Databricks

    SQL データウェアハウス Workflows/DLT 取り込み、ETL ストリーミング Mosaic AI 人工知能 Lakeflow 取り込み、ETL ストリーミング Databricks データ・インテリジェンス・プラットフォーム
  15. Lakeflow SaaS アプリケーションや データベースに対する ネイティブな取り込み コネクター 全てのETL ユースケースに 対するデータフローを シンプルに

    データ・インテリジェンス・ プラットフォーム全体に おけるワークフローの オーケストレーション コネクト 宣言型パイプライン ジョブ データインテリジェンスを活用した単一のデータエンジニアリング体験 ©2025 Databricks Inc. — All rights reserved
  16. Lakeflow宣言型パイプライン 0 1000 2000 3000 4000 5000 Stateless Stream-Static Join

    Stateless Transform Stateful Simple Aggregation Stateful Deduplication Stateful Stream-Static Join + Aggregation リアルタイムモード (p99) マイクロバッチ Latency (ms) Sparkリアルタイムモード vs マイクロバッチ 10秒のp50レイテンシーと約 100msのp99レイテンシー ETL コストの削減 自動のインクリメンタル処理でパイプラインを高速、安 価に 信頼できるデータ 自動品質チェックを通じて信頼できる分析データを 生産性の向上 SQLやPythonによる宣言型開発 単一のアプローチ バッチ、ストリーミング処理に対する統合 API 全てのETL ユースケースにおけるデータフローをシンプルに ©2025 Databricks Inc. — All rights reserved
  17. Lakeflowジョブ 柔軟なワークフロー Java、Python、SQLによる任意のワークフローの作成、デプロイ オペレーションの信頼性 インテリジェントなオートスケールとリトライによるサーバレス インフラストラクチャ 完全な観測可能性 リネージとアラートによるワークフローにおけるディープな モニタリング 全ての分析、AIワークロードの

    自動化 自信を持ってプロダクション ワークロードをスケール プロダクションの影響を最小化するた めに問題をクイックに特定、修正 データインテリジェンスプラットフォームにおけるワークフローの オーケストレーション
  18. ディザスターリカバリ コストコントロール エンタープライズセキュリティ 100% サーバレス レイクハウス AI/BI ビジネス インテリジェンス Databricks

    SQL データウェアハウス Lakeflow 取り込み、ETL ストリーミング Mosaic AI 人工知能 AI/BI ビジネス インテリジェンス Databricks データ・インテリジェンス・プラットフォーム
  19. 既知のオブジェクトを 参照することで別の文で試 してください。 あなたが探しているものを 著者に伝えるには こちらをクリックして ください ベンダー 3 しかし、現実のデータで何が起きるのでしょうか?

    自分のパイプラインは? あなたのパイプラインは : $0 Opp_stage “Prospecting” や “Qualification” や “Needs Analysis” で フィルタリングしました ベンダー 2 ベンダー 1 こちらが予測カテゴリー ごと のパイプラインです: null pipeline forecast データセット: セールスのオポチュニティ
  20. Query Agent Query Agent AI Agents エージェントシステム はあなた固有のデータとセマンティクス を継続的に学習します 協調した特化AIエージェントの

    アンサンブル 必要な場合には明確化しようとします ツールと文脈を活用 • Unity Catalog のメタデータ • (全てのワークロードの )クエリー履歴 • 関連する資産 (ノートブック、ダッシュボード、 クエリー) • 利用可能な際にはセマンティックモデル 記憶して学習します GENIE あなたの疑問を尋ねましょう … 継続的な セマンティクスの 理解
  21. ディザスターリカバリ コストコントロール エンタープライズセキュリティ 100% サーバレス レイクハウス AI/BI ビジネス インテリジェンス Databricks

    SQL データウェアハウス Lakeflow 取り込み、ETL ストリーミング Mosaic AI 人工知能 Databricks データ・インテリジェンス・プラットフォーム
  22. ©2025 Databricks Inc. — All rights reserved トレーニングコースを受ける 無料の2時間講師付き基本コースに 登録

    • データエンジニアリング • データ分析 • 機械学習 • プラットフォーム管理
  23. ©2025 Databricks Inc. — All rights reserved Databricks Academy academy.databricks.com

    にアクセス: • お客様は無料の基本e-learning • ペルソナごとにキュレーションされた セルフペースのカリキュラムを フィーチャー • プラットフォームに対する知識を証明 したいユーザー向けに数多くの資格試験を 提供 登録手順はこちら
  24. ©2025 Databricks Inc. — All rights reserved 構築をスタートしましょう! フリートライアルアカウントであなたの Databricks

    を構築 • Databricks環境のデプロイ方法 ◦ AWS Docs Video | Azure | GCP コミュニティに参加 • 最新機能のキャッチアップ、国内ユーザーとのネットワーキング のためにDatabricks JapanコミュニティJEDAIに参加しましょ う。Discordもあります。 • 専門家のヘルプを得ることができる Databricks Community に参加しましょう。Tokyoグループも あります。 • お客様専用のオフィスアワーで、Databricksに 関するあなたのすべての質問を尋ねることができるライ ブQ&Aを通じて、専門家と直接対話しましょう
  25. ©2025 Databricks Inc. — All rights reserved Databricksソリューションアクセラレータ データ分析とAIの価値創出を加速 最も一般的でインパクトの大きいユースケース

    に取り組むために必要なものが完全に動作する リソースのセット Databricksのお客様が2週間以内のPoCで アイデアを具現化できるようにデザイン 同梱物: ノートブック、Webページ、 説明動画、ブログなど 50
  26. ©2025 Databricks Inc. — All rights reserved 80以上のソリューションアクセラレータ 51 •

    パーソナライズのための トランザクション エンべディング • モデルリスク管理 • リスク管理 (VaR) • 規制レポート • リアルタイム不正検知 • 時系列を用いたモダン投資 プラットフォーム • ESGパフォーマンス分析 • スマートクレーム • カスタマーサービス分析で のNLP活用 • などなど • OMOPを用いたRWEの 抽象化 • 自動PHI除去 • 薬害イベント検知 • ゲノミクスパイプライン (GWAS) • 知識グラフを用いた R&Dの 最適化 • デジタル病理学画像分析 • FHIR & HL7相互運用 • 価格透明性 • 生化学文献での LLM活用 • 臨床ノート要約での LLM 活用 • などなど • マルチタッチ属性 • リアルタイムビッドの 最適化 • メディアミックス モデリング • 売り上げ予測 & 広告属性 • ゲームにおける有害行為 検知 • レスポンシブルゲーミング • 動画の体験品質 • 購読者解約予測 • 通信ネットワーク分析 • などなど • 顧客特定の解像度 • 顧客セグメント • 傾向スコアリング • 生存分析 & LTV • レコメンデーション • 需要予測 • リアルタイム POS • 在庫可用性 • 安全在庫分析 • Redkiteによる価格分析 • 小売り向けLLM - 製品 検索、製品レビュー要約 • などなど • デジタルツイン • 予兆保全 (IoT) • OEE: 装置監視 • コンピュータビジョンの基盤 • 部品予測 • コンピュータビジョンによる 品質チェック • サプライチェーン最適化 • グリッド・エッジ分析 • バーコードトレーサ ビリティによるリコールの管 理 • などなど 金融サービス ヘルスケア & ライフサイエンス 製造 & エネルギー 通信、メディア & エンターテイメント 小売 & 消費財 LLM • LLM - カスタマー サービス & 知識ベース • 製品検索 • 製品レコメンデーション • 製品レビュー要約 • LLMパフォーマンス (CleanLabを使用) サイバー • Splunkコネクター • DNSによる脅威検知 • Graphistryによるインシデ ント調査 • IOCマッチング & マルチク ラウドフェデレー ション 公共 • エンティティ解決 • 自動レコードリンク 業界横断 & 公共 https://www.databricks.com/jp/solutions/accelerators
  27. ©2025 Databricks Inc. — All rights reserved 学習リソース • Databricks

    Academy - アクセス方法、セルフペーストレーニング動画の参照方法を確認するために、 これらの手順をご覧ください。 ◦ Course Catalog あなたの会社メールアドレスでアカウントを作成しましょう。 • Databricks Certifications - Databricksで資格を取得しましょう。 • Databricks Demo Hub - Databricks製品のショートデモをご覧ください! • チュートリアル - すぐに利用できるベストプラクティスのデモを、あなたのワークスペースに インストールしましょう。 • Instructor Led Training (購入した場合) - ラーニングパスをチェックするようにしてください! • Databricks Japanのエンジニアによる技術記事 • Databricks ブログ
  28. ©2025 Databricks Inc. — All rights reserved 有用なリソース Pythonを用いたDatabricksでの開発 Pythonを用いたDatabricksでの開発

    AWS, Azure Pythonライブラリのアップロード AWS, Azure Pythonにおける可視化 AWS, Azure データフレームのご紹介 AWS, Azure Pandasユーザー定義関数 AWS, Azure シングルノードワークロードを Databricksに移行 AWS, Azure Databricks Connect AWS, Azure Pandas APIs on Apache Spark Apache Spark Docs, AWS, Azure DatabricksでのBIツールの活用 BIアプリケーションへの接続 AWS, Azure DatabricksにおけるSQL AWS, Azure ETL & ストリーミング Delta Lake公式ドキュメント AWS, Azure Delta Lakeベストプラクティス AWS, Azure 構造化ストリーミングガイド AWS, Azure Databricks Deltaを用いてストリーミング ストックデータ分析をシンプルに Blogpost 構造化ストリーミングと Delta Lakeによる ETLパイプラインのデザイン Video ワークフローとジョブ Databricksジョブ AWS, Azure Delta Live Tables AWS, Azure