Slide 1

Slide 1 text

©2025 Databricks Inc. — All rights reserved 1 1 ハンズオンで学ぶ Databricks はじめてのDatabricks 2025/3/4 Databricks Japan 弥生 隆明

Slide 2

Slide 2 text

©2025 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明 (やよい たかあき) シニア スペシャリスト ソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサル、総合電機メーカー にてデータ分析・Webサービス構築 などに従事。インド赴任経験あり。 ▪ Databricks Certified (Data Engineer | Machine Learning) Professional, Generative AI Engineer Associate ▪ Qiitaでいろいろ書いています。 2 @taka_aki

Slide 3

Slide 3 text

©2025 Databricks Inc. — All rights reserved 1. 座学(1時間) a. Databricksとは b. Databricksの使い方 c. Unity Catalogとは d. ノートブックとは e. pandasとPySpark 2. ハンズオン(1.5時間) a. ノートブックの基本的な使い方 b. pandasとPySparkによるファイルの読み書き

Slide 4

Slide 4 text

データ+AIカンパニー クリエーター 10,000+ グローバルのお客様 $2.4B+ 年間収益 4B+ の投資 レイクハウス の 発明者 生成AIの パイオニア LEADER 2023 Cloud Database Management Systems LEADER 2024 Data Science & Machine Learning Analytic Stream Processing

Slide 5

Slide 5 text

©2025 Databricks Inc. — All rights reserved レイクハウスとは?

Slide 6

Slide 6 text

データウェアハウス ETL 構造化データ データウェアハウス ビジネス インテリジェンス 利点 ▪ 偉大なるビジネスインテリジェン ス(BI)アプリケーション 課題 ▪ 限定的な機械学習(ML)の サポート ▪ SQLインタフェースのみを備えた プロプライエタリなシステム 1990年代〜

Slide 7

Slide 7 text

構造化、準構造化、非構造化データ 機械学習 ETL データレイク 利点 ▪ MLをサポート ▪ オープンなフォーマット、 巨大なエコシステム 課題 ▪ 貧弱なBIサポート ▪ 複雑化したデータ品質問題 データレイク 2010年代〜

Slide 8

Slide 8 text

©2025 Databricks Inc. — All rights reserved 互換性のない2つのアーキテクチャが障害に データとAIの成熟度 競合優位性 レポート データ クレンジング アドホックク エリー データ探索 予測 モデリング 処方的分析 意思決定の 自動化 データレイク for AI データウェアハウス for BI データ成熟度曲線 何が起きる? 何が起きた?

Slide 9

Slide 9 text

©2025 Databricks Inc. — All rights reserved ほぼすべてのクラウドデプロイメントは2階層 であり、5個以上のプラットフォームを必要とします ガバナンスとセキュリティ テーブルACL ビジネス インテリジェンス SQL 分析 高い信頼性と効率性 データサイエンス & ML ガバナンスとセキュリティ ファイルとBlob データ ストリーミング すべてのデータと高い適応性 データの一部をコピー 構造化テーブル データウェアハウス すべての生データ ログ、テキスト、音声、動画、画像 データレイク 9

Slide 10

Slide 10 text

©2025 Databricks Inc. — All rights reserved 複雑で重複したアーキテクチャ ガバナンスとセキュリティ テーブルACL ビジネス インテリジェンス SQL 分析 高い信頼性と効率性 データサイエンス & ML ガバナンスとセキュリティ ファイルとBlob データ ストリーミング すべてのデータと高い適応性 データの一部をコピー 構造化テーブル データウェアハウス すべての生データ ログ、テキスト、音声、動画、画像 データレイク 分断され重複したデー タサイロ 互換性のない セキュリティと ガバナンスのモデル ユースケースの 不完全なサポート 10

Slide 11

Slide 11 text

レイクハウスはデータ、分析、AIをシンプルに データレイクハウス 構造化テーブルと非構造化ファイル すべてのデータタイプに対 するオープンで高信頼の データストレージ ガバナンスとセキュリティ ファイル、Blob、テーブルACL すべてのデータに対する 単一のセキュリティ と ガバナンス のアプローチ すべてのユース ケースをサポート データ ストリーミング データサイエンス & 機械学習 SQL分析 ビジネス インテリジェンス 11

Slide 12

Slide 12 text

©2025 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム オープンデータレイク すべての構造化、半構造化、非構造化データ (ログ、テキスト、音声、動画、画像など) ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL セキュリティ、ガバナンス、カタログの統合 Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake 12 ©2025 Databricks Inc. — All rights reserved あなたのすべてのデータのためのオープン統合基盤

Slide 13

Slide 13 text

©2025 Databricks Inc. — All rights reserved データレイクハウス オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像など) Databricksが レイクハウス アーキテクチャを発表 2020 グローバル企業の 74%がレイクハウスを導 入 現在 MIT Technology Review Insights, 2023 セキュリティ、ガバナンス、カタログの統合 信頼性と共有のための統合データストレージ ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL Unity Catalog Delta Lake あなたのすべてのデータのためのオープン統合基盤 ©2025 Databricks Inc. — All rights reserved 13

Slide 14

Slide 14 text

©2025 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) データ中心の AI 生成AI • カスタムモデル • モデルサービング • RAG エンドツーエンドの AI • MLOps (MLflow) • AutoML • モニタリング • ガバナンス Databricks SQL Text-to-SQL Workflows 実行履歴に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Mosaic AI カスタムLLMの作成チュー ニング サービング Unity Catalog 自然言語で洞察をセキュアに獲得 Delta Lake 利用パターンに基づいてデータレイアウトを自動で最適化 ©2025 Databricks Inc. — All rights reserved あなたのデータのセマンティクスを理解するためにAIを活用するデータインテリジェンスエンジン DatabricksIQ 14

Slide 15

Slide 15 text

©2025 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム 運用 財務 マーケティング カスタマー サービス 組織の全員にデータとAIを 展開するにはどうすれば? “Genie” 自然言語で誰でも データとAIを オープンデータレイク W 実行 ジョブ Delta Live Tables データ品質の自動化 Mosaic AI カスタムLLMの作成チュー ニング サービング Unity Catalog 自然言語で洞察をセキュア Delta Lake 利用パターンに基づいてデータレイアウ ©2025 Databricks Inc. — All rights reserved あなたのデータのセマンティクスを理解するためにAIを活 DatabricksIQ

Slide 16

Slide 16 text

©2025 Databricks Inc. — All rights reserved 使い方は?

Slide 17

Slide 17 text

©2025 Databricks Inc. — All rights reserved Databricksの使い方 ノートブックから計算資源を用いてデータを操作します 計算資源 データベース ファイルシステム ノートブック ユーザー

Slide 18

Slide 18 text

©2025 Databricks Inc. — All rights reserved Databricksの使い方 ノートブックから計算資源を用いてデータを操作します クラスター Unity Catalog Databricks ノートブック ユーザー

Slide 19

Slide 19 text

©2025 Databricks Inc. — All rights reserved Unity Catalogとは?

Slide 20

Slide 20 text

©2025 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム 20 ©2025 Databricks Inc. — All rights reserved あなたのすべてのデータのためのオープン統合基盤 オープンデータレイク すべての構造化、半構造化、非構造化データ (ログ、テキスト、音声、動画、画像など) ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL セキュリティ、ガバナンス、カタログの統合 Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake

Slide 21

Slide 21 text

©2025 Databricks Inc. — All rights reserved Databricks Unity Catalog Unity Catalog データレイク メタデータ データウェアハウス MLモデル ダッシュボード データ アナリスト データ エンジニア データ サイエンティスト 21 データ、分析、AIに対する統合ガバナンス

Slide 22

Slide 22 text

©2025 Databricks Inc. — All rights reserved 22 Unity Catalog - 鍵となる機能 ● メタデータとユーザー の集中管理 ● データアクセスコントロール の集中管理 ● データリネージ ● データアクセス監査 ● データ検索と発見 ● Delta Sharingによるセキュアなデータ共有 Databricks ワークスペース Databricks ワークスペース Unity Catalog GRANT … ON … TO … REVOKE … ON … FROM … カタログ, データベース (スキーマ), テーブル, ビュー, ストレージ資格情 報, 外部ロケーション

Slide 23

Slide 23 text

©2025 Databricks Inc. — All rights reserved 3レベルの名前空間 SELECT * FROM main.paul.red_wine; -- .. SELECT * FROM hive_metastore.default.customers; Unity Catalog カタログ 2 カタログ 1 スキーマ 2 スキーマ 1 External Table ビュー ボリューム テーブル hive_metastore (レガシー) default (スキーマ) customers (テーブル) 既存メタストアへのシームレスなアクセス

Slide 24

Slide 24 text

©2025 Databricks Inc. — All rights reserved 24 アクセス制御の集中管理 GRANT ON TO `` GRANT SELECT ON iot.events TO engineers 権限 レベルを選択 お使いのID プロバイダーの グループと同期 ‘テーブル’= S3/ADLSの ファイルの集合 ANSI SQL DCLを使用 UIを使用 ワークロードに対するアクセス権限の付与と集中管理

Slide 25

Slide 25 text

©2025 Databricks Inc. — All rights reserved 25 すべてのワークロードに対する自動リネージ ● クラスターやSQLウェアハウスにおける処 理実行時のデータリネージを自動キャプ チャ ● テーブル、カラムレベルでのリネージ追跡 ● Unity Catalogの共通権限モデルを活用 ● テーブル、ダッシュボード、ワーク フロー、ノートブック横断のリネージ あなたの組織でデータがどのように流れ、利用されているのかに関する エンドツーエンドの可視性

Slide 26

Slide 26 text

©2025 Databricks Inc. — All rights reserved 26 ビルトインの検索と発見 ● Unity Catalogに格納されているデータ資 産を検索するためのUI ● DSML + DBSQL横断での統合UI ● Unity Catalogの共通権限モデルを活用 ● データに意味づけするタグを適用し、 タグで検索 低レイテンシーのデータ発見による価値創出の加速

Slide 27

Slide 27 text

©2025 Databricks Inc. — All rights reserved Unity Catalogガバナンスによる 非テーブルデータ へのアクセス、 格納、整理、処理 データサイエンス、機械学習を含む任意のファイルの新た な処理機能の解放 すべてのファイルフォーマット。構造化、半構造化、非構造 化データ UI、Spark API、FUSE、dbutils、REST、SQL、 Databricks CLI、Terraform経由でアクセス可能なファイ ル ボリューム 27 Unity Catalogにおけるファイルのカタログコレクション

Slide 28

Slide 28 text

©2025 Databricks Inc. — All rights reserved Unity Catalogにおけるボリューム 非テーブルデータのアクセス、格納、制御、整理、処理 * 28 - ボリュームタイプ: マネージド、外部 - Unity Catalogで集中管理される3レベルの名前空間で整理されるファイル .. - Hadoop分散ファイルシステムの実装、FUSEサポート - パス Hadoop [dbfs:]/Volumes///// FUSE /Volumes///// - ANSI SQLのGRANTやREVOKEコマンドをベースとしたガバナンスモデル - ボリュームレベル - カタログエクスプローラやノートブックのファイル参照、管理のためのユーザインタフェース - API(Spark、dbutils、REST、SQL、ローカルファイルシステム)やDatabricks CLI経由でアクセスできるコン テンツ * テーブルではなくファイルとして直接アクセスできるデータ

Slide 29

Slide 29 text

©2025 Databricks Inc. — All rights reserved Unity Catalogにおけるボリューム 29 Unity Catalogガバナンスによるファイルのアクセス、格納、整理、処理 - ボリュームは以下のような非テーブルデータに対するガバナン スを追加します - MLで活用される画像、音声、動画、PDFファイルのような 非構造化データ - MLモデルトレーニングで活用される半構造のトレーニング、検証、 テストデータセット - ad-hocや初期段階のデータ探索で使用される生のデータ、 保存されるアウトプット - ワークスペース横断で利用されるライブラリ、設定ファイル - ロギングやチェックポイントの出力ファイルのようなオペレーション データ - … - 一方でテーブルはテーブルデータセットに対するガバナンスを 提供します

Slide 30

Slide 30 text

©2025 Databricks Inc. — All rights reserved ノートブックとは?

Slide 31

Slide 31 text

©2025 Databricks Inc. — All rights reserved Confidential and Proprietary 31 マルチ言語 1つのノートブックでPython、SQL、Scala、R を活用 Jupyterとの互換性 ノートブックでJupyterエコシステムの パワーを活用 探索に最適 ビルトインのチャートとデータプロファイルに よるデータの探索、可視化、要約 プロダクションを迅速に ジョブとしてクイックにノートブックをスケ ジュール、ジョブの結果から ダッシュボードを作成 コラボレーティブ リアルタイムの同時参照、同時編集、 コメント 再現可能性 Reposバージョン履歴を自動で追跡、 Reposによるgitバージョン管理の活用 エンタープライズレディ エンタープライズレベルのアクセス 制御、ID管理、監査 適応性 標準ライブラリのインストール、 ローカルモジュールの使用 レイクハウスの玄関 Databricksノートブック

Slide 32

Slide 32 text

©2025 Databricks Inc. — All rights reserved Confidential and Proprietary Databricksアシスタントによ るAIを活用した開発 レイクハウス連携 Databricksノートブックにようこそ モダンで直感的な UX

Slide 33

Slide 33 text

©2025 Databricks Inc. — All rights reserved Confidential and Proprietary モダンで直感的なUX 33

Slide 34

Slide 34 text

©2025 Databricks Inc. — All rights reserved Confidential and Proprietary 最適化されたセルのデザイン よりモダンなルックアンド フィール🚀 34 • クリーンでシンプルなデザイン • 1クリックでセルを実行 • 強化されたマークダウンレンダリング • はっきり表示される実行タイマー • フォーカスモード

Slide 35

Slide 35 text

©2025 Databricks Inc. — All rights reserved Confidential and Proprietary モダンな結果テーブル 見た目のアップデート & 馴染みのある操作感 🤝 35 • レンダリング性能の改善 • シンプル & モダンなUX • Excelやその他の人気のデータグリッド ツールと同じ選択操作 • ビルトインのフィルタリング

Slide 36

Slide 36 text

©2025 Databricks Inc. — All rights reserved Confidential and Proprietary 36 ビジュアライゼーションのアップデート より速く、よりプリティに ✨ • 拡張されたカラーパレット • レンダリングの高速化 • ツールチップやシリーズ選択の ソート、ズーム機能 • 製品全体で統一

Slide 37

Slide 37 text

©2025 Databricks Inc. — All rights reserved Confidential and Proprietary Databricksアシスタント によるAIを活用した開発 37

Slide 38

Slide 38 text

©2025 Databricks Inc. — All rights reserved Confidential and Proprietary 開発アシスタント 🤖 38 • ノートブック、ファイルエディタ、SQLエディ タに組み込まれたLLMを活用した開発ア シスタント • より正確なレスポンスを行うために コンテキスト を活用 • コードのセル • ライブラリ • Databricksランタイムバージョン • ドキュメント • テーブルのスキーマ • 最近アクセスした、お気に入りのテー ブル • 人気のテーブル • 人気のjoin • UCの説明文とタグ • リネージ

Slide 39

Slide 39 text

©2025 Databricks Inc. — All rights reserved Confidential and Proprietary セルのアクション 🪄

Slide 40

Slide 40 text

©2025 Databricks Inc. — All rights reserved Confidential and Proprietary ゴーストテキスト 👻

Slide 41

Slide 41 text

©2025 Databricks Inc. — All rights reserved Confidential and Proprietary Text-to-SQL 📊 41 • 適切なテーブルを特定 : 強化された検索 でデータ資産の発見を容易に • あなたにパーソナライズ : 会社の専門 用語を用いてクエリーを作成、洗練するた めに自然言語を活用 • インラインでの提案 : コメントを記述 して、よく使われるクエリースニペットをア シスタントに提案させる

Slide 42

Slide 42 text

©2025 Databricks Inc. — All rights reserved Confidential and Proprietary レイクハウス連携 42 レイクハウスに最適なノートブック

Slide 43

Slide 43 text

©2025 Databricks Inc. — All rights reserved Confidential and Proprietary 柔軟なコンピュート サーバレス • 完全マネージド、スケーリングの設定なしに高速 に起動 • 使った分だけ支払い—アイドル状態の コンピュートはありません SQLウェアハウス ● ノートブックでSQLウェアハウスを使ってSQLを実 行 ● SQLウェアハウスを用いたジョブとして ノートブックをスケジュール サーバレス、SQLウェアハウス、クラシック 📊 43

Slide 44

Slide 44 text

©2025 Databricks Inc. — All rights reserved Confidential and Proprietary レイクハウスの探索をシンプルに エディタを離れることなしにデータを検索 🔍 44 • スキーマブラウザ • アクティブなテーブルで フィルタリング • ノートブックセルから テーブルにジャンプ • ファイルブラウザ • Delta-Live-Tablesの出力 • 表出化させる手段の探索 : • データリネージ • レイクハウスモニタリング • エクスペクテーション

Slide 45

Slide 45 text

©2025 Databricks Inc. — All rights reserved Confidential and Proprietary パーソナライズされたオートコンプリート あなたのすべてのコアのフローにコンテキストを 🔄 45 • 以下に基づく提案による強化 オートコンプリート : • 人気のテーブルとjoin • お気に入りのテーブル • 最近使用した、参照した テーブル

Slide 46

Slide 46 text

©2025 Databricks Inc. — All rights reserved pandasとPySpark

Slide 47

Slide 47 text

©2025 Databricks Inc. — All rights reserved データサイエンティストの典型的な道のり ▪ 教育 (オンラインコース、書籍、大学) → pandas

Slide 48

Slide 48 text

©2025 Databricks Inc. — All rights reserved ▪ 教育 (オンラインコース、書籍、大学) → pandas ▪ 小規模データセットの分析 → pandas データサイエンティストの典型的な道のり

Slide 49

Slide 49 text

©2025 Databricks Inc. — All rights reserved ▪ 教育 (オンラインコース、書籍、大学) → pandas ▪ 小規模データセットの分析 → pandas ▪ 大規模なデータセットの分析 → Sparkのデータフレーム データサイエンティストの典型的な道のり

Slide 50

Slide 50 text

©2025 Databricks Inc. — All rights reserved pandasデータフレーム PySparkデータフレーム 列 df['col'] df['col'] 可変性 可変 不変 実行 貪欲(eager) 遅延(lazy) 列の追加 df['c'] = df['a'] + df['b'] df = df.withColumn('c', df['a'] + df['b']) 列名変更 df.columns = ['a','b'] df = df.select(df['c1'].alias('a'), df['c2'].alias('b')) df = df.toDF('a', 'b') 値のカウント df['col'].value_counts() df.groupBy(df['col']).count() .orderBy('count', ascending=False) pandasデータフレーム vs. PySparkデータフレーム

Slide 51

Slide 51 text

©2025 Databricks Inc. — All rights reserved Sparkのご紹介 PCで処理できるデータ量であればpandasで十分ですが… ● Apache Sparkは、多数のマシンで並列でコードを実行するための洗練された分散処理 フレームワークです。これによって、大量データも効率的に処理することができます。 ● Sparkでもデータフレーム でデータを取り扱うことが可能です。Python(PySpark)やSQLなどのAPI を提供しており、pandasとの相互運用も可能です。 pandas pandas API on Spark (旧Koalas) Apache Spark(PySpark) データセットが小さい場合は pandasが正しい選択肢となり ます。 大量データを操作する必要が あり、PySparkではなくpandas APIを活用したいと考える際に は最適な選択肢となります。 ※APIの対応状況など注意事項があります。 大量データに対する処理が必 要な場合は、Apache Sparkの ような並列データフレームを使 用することで高速化が期待でき ます。

Slide 52

Slide 52 text

©2025 Databricks Inc. — All rights reserved SparkとDatabricksの関係 Databricksでは処理エンジンとしてSparkを活用しています ● Databricks は、ビッグデータと機械学習のための統合アナリティクス エンジンである Apache Spark の上に構築されています。PySpark は、学習、実装、保守が容易な柔軟な 言語である Python プログラミング言語を使用して Apache Spark とインターフェースするのに役 立ちます。 また、Databricks でのデータビジュアライゼーションのための多くの オプションも提供します。 ● Databricksは、Apache Sparkの機能の開発とリリースを続けています。 Databricks ランタイムには、C++で書き直されたApache Sparkの最適化バージョンであるPhotonなど、 Apache Spark上に構築および拡張する追加の最適化と独自の機能が含まれています。 Azure Databricks における Apache Spark - Azure Databricks | Microsoft Learn

Slide 53

Slide 53 text

©2025 Databricks Inc. — All rights reserved PySparkとは SparkのPython APIです ● PySparkとは、Sparkを実行するためのPython APIです。Apache SparkとPythonの コラボレーションをサポートするためにリリースされました。開発者はPySparkを用いることで、 Pythonからデータフレームを操作する形でSparkを活用することができます。

Slide 54

Slide 54 text

©2025 Databricks Inc. — All rights reserved PySparkの概念 PySparkにはプログラミングを促進する様々なAPIが存在します ● Spark SQL と DataFrames を使用したリレーショナル クエリによる構造化データの処理。 Spark SQL を使用すると、SQL クエリと Spark プログラムを混在できます。 Spark DataFrames を使用 すると、Python と SQL を使用してデータの読み取り、書き込み、 変換、分析を効率的に行うことができます。つまり、常に Spark の全機能を活用できます。 ● Spark 上の Pandas API (Pandas API on Spark)を使用して Apache Spark で動作する Pandas データ構造とデータ分析ツール。 Spark 上の Pandas API を使用すると、Pandas (テスト、小規模 なデータセット) と Spark (運用、分散データセット) で動作する単一の コードベースを使用して、複数のノードに分散された Pandas ワークロードを任意のサイズにスケー リングできます。 Azure Databricks の PySpark - Azure Databricks | Microsoft Learn

Slide 55

Slide 55 text

©2025 Databricks Inc. — All rights reserved PySparkの概念 PySparkでもpandas同様のデータフレームを取り扱います Apache Sparkデータフレーム は、名前付き列に編成されたデータセットです。 これらは、型が異なる列 を持つ 2 次元のラベルの付いたデータ構造です。 データフレームには、一般的なデータ分析の問題を 効率的に解決できる豊富な関数セットが用意されており、組み込みのメソッドを 使用してデータを簡単に変換して、データの並べ替え、フィルター処理、集計を行うことが できます。 Azure Databricks の PySpark - Azure Databricks | Microsoft Learn

Slide 56

Slide 56 text

©2025 Databricks Inc. — All rights reserved PySparkの概念 メソッドを活用してデータを操作します ● 以下のようなメソッドがあります。 メソッド 説明 sql 指定されたクエリーの結果を表現するデータフレームを返却。 table 指定されたテーブルをデータフレームとして返却。 read データフレームとしてデータを読み込む際に使用できるDataFrameReaderを 返却。 range startからend(含まない)の範囲とステップ値、パーティション数を持つ要素を 含むカラムを持つデータフレームを生成。 createDataFrame タプルのリストからデータフレームを作成、主にテストで使用。

Slide 57

Slide 57 text

©2025 Databricks Inc. — All rights reserved Databricksにおける データパイプライン

Slide 58

Slide 58 text

©2025 Databricks Inc. — All rights reserved 最終形 ベストプラクティスのパイプライン クレンジング 取り込み ブロンズ シルバー ゴールド 再サンプリング 内挿された 時系列 特徴量拡張 特徴量削減 生データ ▪ データ処理なし ▪ 間違いを修正するためにデータを保持 クレンジングされたデータ ▪ 直接クエリー可能 ▪ PIIのマスキング/検閲 ▪ 共有することで整形されたデー タを複数人で活用可能 ▪ 異なる用途に合わせて 右のゴールドを作成可能 整理されたビジネスレベルのテーブル ▪ プロジェクト/ユースケース固有 ▪ 非正規化、読み取りに最適化した データモデル

Slide 59

Slide 59 text

ハンズオン

Slide 60

Slide 60 text

ハンズオンの流れ 60 1. Databricksノートブックの基礎 • Databricksノートブックの基本的な使い方を学びます。 2. Databricksにおけるファイルとテーブルの取り扱い • Pythonを用いてインターネットから CSVファイルを取得 • Unity Catalogのボリュームに CSVファイルを保存 • CSVファイルを読み込んで内容を表示 (Pandas/PySpark) • データを加工 (Pandas/PySpark) • データをテーブルに永続化 (PySpark) • テーブルからのデータの読み込み (PySpark) 2つのノートブックを用いてハンズオンを行います。

Slide 61

Slide 61 text

©2025 Databricks Inc. — All rights reserved 61 ハンズオンの準備 クラスターとカタログ / スキーマの準備を行います。 ワークスペース名 : xxxxxxx クラスター ● クラスター名 : xxxxxxx カタログ ● カタログ名 : rd_shared (作成済みです) スキーマ ● スキーマ名 : 7桁の社員番号 のスキーマを rd_shared カタログ配下に作成いただきます。

Slide 62

Slide 62 text

©2025 Databricks Inc. — All rights reserved 62 スキーマの作成 カタログエクスプローラで作成済みのカタログにアクセスします ①rd_sharedをクリックします ②スキーマを作成 をクリックします

Slide 63

Slide 63 text

©2025 Databricks Inc. — All rights reserved 63 スキーマの作成 スキーマ名を入力します ①スキーマ名 を入力します ②必要に応じてコメントを入力します ③作成をクリックします

Slide 64

Slide 64 text

©2025 Databricks Inc. — All rights reserved 64 スキーマの作成 スキーマ名には7桁の社員番号を入力します

Slide 65

Slide 65 text

©2025 Databricks Inc. — All rights reserved 65 スキーマの作成 これでスキーマが作成されました

Slide 66

Slide 66 text

©2025 Databricks Inc. — All rights reserved サイドメニューのワークスペース にアクセスし、画面右上の3点リーダー をクリック し、インポート を選択します。 66 ノートブックのインポート

Slide 67

Slide 67 text

©2025 Databricks Inc. — All rights reserved URLを選択し、URLのボックスに以下のURLを貼り付けます。 67 ノートブックのインポート https://sajpstorage.blob.core.windows.net/yayoi/20250205_notebook_tutorial/20250304_notebook_basics.dbc

Slide 68

Slide 68 text

©2025 Databricks Inc. — All rights reserved これでノートブックが取り込まれました。 68 ノートブックのインポート

Slide 69

Slide 69 text

リソース

Slide 70

Slide 70 text

©2025 Databricks Inc. — All rights reserved 学習リソース ● Databricks Academy - アクセス方法、セルフペーストレーニング動画の参照方法を確認するために、 これらの手順をご覧ください。 ○ Course Catalog あなたの会社メールアドレスでアカウントを作成しましょう。 ● Databricks Certifications - Databricksで資格を取得しましょう。 ● Databricks Demo Hub - Databricks製品のショートデモをご覧ください! ● チュートリアル - すぐに利用できるベストプラクティスのデモを、あなたのワークスペースに インストールしましょう。 ● Instructor Led Training (購入した場合) - ラーニングパスをチェックするようにしてください! ● Databricks Japanのエンジニアによる技術記事 ● Databricks ブログ

Slide 71

Slide 71 text

©2025 Databricks Inc. — All rights reserved 有用なリソース Pythonを用いたDatabricksでの開発 Pythonを用いたDatabricksでの開発 AWS, Azure Pythonライブラリのアップロード AWS, Azure Pythonにおける可視化 AWS, Azure データフレームのご紹介 AWS, Azure Pandasユーザー定義関数 AWS, Azure シングルノードワークロードをDatabricksに移行 AWS, Azure Databricks Connect AWS, Azure Pandas APIs on Apache Spark Apache Spark Docs, AWS, Azure DatabricksでのBIツールの活用 BIアプリケーションへの接続 AWS, Azure DatabricksにおけるSQL AWS, Azure ETL & ストリーミング Delta Lake公式ドキュメント AWS, Azure Delta Lakeベストプラクティス AWS, Azure 構造化ストリーミングガイド AWS, Azure Databricks Deltaを用いてストリーミング ストックデータ分析をシンプルに Blogpost 構造化ストリーミングとDelta Lakeによる ETLパイプラインのデザイン Video ワークフローとジョブ Databricksジョブ AWS, Azure Delta Live Tables AWS, Azure

Slide 72

Slide 72 text

©2025 Databricks Inc. — All rights reserved Qiitaの記事 https://qiita.com/taka_yayoi まとめページを作っています ● Databricks記事のまとめページ(その1) ● Databricks記事のまとめページ(その2) トピック ● Databricks入門者向けコンテンツ ● Databricksとは何か ● ユースケース ● ソリューションアクセラレータ(ゲノム分析、 病理画像分析、etc.) ● 生成AI ● Spark ● Unity Catalog ● Delta Lake ● MLflow ● CI/CD ● etc.

Slide 73

Slide 73 text

©2025 Databricks Inc. — All rights reserved Qiitaの記事 ほぼ毎日書いてます 入門編 • はじめてのDatabricks #Databricks - Qiita • Databricksチュートリアル #Databricks - Qiita • 私はDatabricksをどのように学んできたのか(学習コンテンツのご紹介) #Databricksクイックスタートガイド - Qiita • 今さら聞けないPython - Pythonの基礎 #Databricks - Qiita • [2024年12月版] Databricksとは何か? #生成AI - Qiita 生成AI • Databricks生成AIクックブック #Databricks - Qiita • DatabricksのLLMバッチ推論を用いた感情抽出 • エンベディングと生成AIによる異常検知 • Databricksでstable-diffusion-xl-1.0-inpaintingを使って顔ハメ看板を作ってみる • 生成AIによる時系列予測のご紹介 • LLaVAを用いたビジョンチャットアシスタントの作成

Slide 74

Slide 74 text

©2025 Databricks Inc. — All rights reserved Qiitaの記事 ほぼ毎日書いてます ユースケース • COVID-19への迅速な対応による感染拡大の抑制 (Databricksユースケース) • データドリブンのドローンが救命治療を世界中にデリバリー (Databricksユースケース) • Databricks研究レポート:リアルワールドエビデンスの価値を解放する ソリューションアクセラレータ • Databricksにおける機械学習による病理画像分析の自動化 • Databricks Delta Lakeによる大規模ゲノミクスパイプラインの簡略化 • ヘルスケアにおける大規模テキストデータへの自然言語処理の適用 • リアルワールドデータによる高リスク患者の検知 • 自然言語処理によるリアルワールド診療データからのオンコロジー(腫瘍学)に関する洞察の抽出 • Glow V1.0.0 - 次世代ゲノムワイド分析 • NLPを用いた薬害イベント検知による薬品安全性の改善 • Smolderを用いてリアルタイムで電子医療レコードを使い倒す • Databricksのプロジェクトdbignite:患者分析における相互運用性 • Databricksにおけるヘルスケア関連のサンプル集

Slide 75

Slide 75 text

©2025 Databricks Inc. — All rights reserved Qiitaの記事 ほぼ毎日書いてます データエンジニアリング • Databricksにおけるエンドツーエンドのデータパイプラインの構築 • ETLのT(Transformation)実践 • ETLのE(Extract)実践 • Databricksにおけるビジネスアナリストからデータエンジニアへの転換 • Databricksのメダリオンレイクハウスアーキテクチャとは? ジョブ管理 • Databricks Jobsを使ってみる • Databricksジョブのクイックスタート • 最近のDatabricksワークフローの機能(Slack投稿など)を試してみる • DatabricksワークフローとジョブとDelta Live Tablesの関係性 • Databricks SDK for Pythonによるジョブ作成の効率化 • Databricksジョブでfor eachタスクがサポートされました!

Slide 76

Slide 76 text

©2025 Databricks Inc. — All rights reserved Thank you! 76