ハンズオンで学ぶ Databricks - はじめてのDatabricks

Slide 1

Slide 1 text

Slide 2

Slide 2 text

©2025 Databricks Inc. — All rights reserved 自己紹介弥生隆明 (やよいたかあき) シニアスペシャリストソリューションアーキテクト ▪ 2020年からデータブリックスジャパンにおいて、プレセールス、POCに従事 ▪ 前職はコンサル、総合電機メーカーにてデータ分析・Webサービス構築などに従事。インド赴任経験あり。 ▪ Databricks Certiﬁed (Data Engineer | Machine Learning) Professional, Generative AI Engineer Associate ▪ Qiitaでいろいろ書いています。 2 @taka_aki

Slide 3

Slide 3 text

©2025 Databricks Inc. — All rights reserved 1. 座学(1時間) a. Databricksとは b. Databricksの使い方 c. Unity Catalogとは d. ノートブックとは e. pandasとPySpark 2. ハンズオン(1.5時間) a. ノートブックの基本的な使い方 b. pandasとPySparkによるファイルの読み書き

Slide 4

Slide 4 text

データ+AIカンパニークリエーター 10,000+ グローバルのお客様 $2.4B+ 年間収益 4B+ の投資レイクハウスの発明者生成AIのパイオニア LEADER 2023 Cloud Database Management Systems LEADER 2024 Data Science & Machine Learning Analytic Stream Processing

Slide 5

Slide 5 text

Slide 6

Slide 6 text

データウェアハウス ETL 構造化データデータウェアハウスビジネスインテリジェンス利点 ▪ 偉大なるビジネスインテリジェンス(BI)アプリケーション課題 ▪ 限定的な機械学習(ML)のサポート ▪ SQLインタフェースのみを備えたプロプライエタリなシステム 1990年代〜

Slide 7

Slide 7 text

構造化、準構造化、非構造化データ機械学習 ETL データレイク利点 ▪ MLをサポート ▪ オープンなフォーマット、巨大なエコシステム課題 ▪ 貧弱なBIサポート ▪ 複雑化したデータ品質問題データレイク 2010年代〜

Slide 8

Slide 8 text

Slide 9

Slide 9 text

©2025 Databricks Inc. — All rights reserved ほぼすべてのクラウドデプロイメントは2階層であり、5個以上のプラットフォームを必要としますガバナンスとセキュリティテーブルACL ビジネスインテリジェンス SQL 分析高い信頼性と効率性データサイエンス & ML ガバナンスとセキュリティファイルとBlob データストリーミングすべてのデータと高い適応性データの一部をコピー構造化テーブルデータウェアハウスすべての生データログ、テキスト、音声、動画、画像データレイク 9

Slide 10

Slide 10 text

©2025 Databricks Inc. — All rights reserved 複雑で重複したアーキテクチャガバナンスとセキュリティテーブルACL ビジネスインテリジェンス SQL 分析高い信頼性と効率性データサイエンス & ML ガバナンスとセキュリティファイルとBlob データストリーミングすべてのデータと高い適応性データの一部をコピー構造化テーブルデータウェアハウスすべての生データログ、テキスト、音声、動画、画像データレイク分断され重複したデータサイロ互換性のないセキュリティとガバナンスのモデルユースケースの不完全なサポート 10

Slide 11

Slide 11 text

レイクハウスはデータ、分析、AIをシンプルにデータレイクハウス構造化テーブルと非構造化ファイルすべてのデータタイプに対するオープンで高信頼のデータストレージガバナンスとセキュリティファイル、Blob、テーブルACL すべてのデータに対する単一のセキュリティとガバナンスのアプローチすべてのユースケースをサポートデータストリーミングデータサイエンス & 機械学習 SQL分析ビジネスインテリジェンス 11

Slide 12

Slide 12 text

©2025 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォームオープンデータレイクすべての構造化、半構造化、非構造化データ (ログ、テキスト、音声、動画、画像など) ETL & リアルタイム分析オーケストレーションデータウェアハウスデータサイエンス & AI Mosaic AI Delta Live Tables Workﬂows Databricks SQL セキュリティ、ガバナンス、カタログの統合 Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake 12 ©2025 Databricks Inc. — All rights reserved あなたのすべてのデータのためのオープン統合基盤

Slide 13

Slide 13 text

©2025 Databricks Inc. — All rights reserved データレイクハウスオープンデータレイクすべての生データ (ログ、テキスト、音声、動画、画像など) Databricksがレイクハウスアーキテクチャを発表 2020 グローバル企業の 74%がレイクハウスを導入現在 MIT Technology Review Insights, 2023 セキュリティ、ガバナンス、カタログの統合信頼性と共有のための統合データストレージ ETL & リアルタイム分析オーケストレーションデータウェアハウスデータサイエンス & AI Mosaic AI Delta Live Tables Workﬂows Databricks SQL Unity Catalog Delta Lake あなたのすべてのデータのためのオープン統合基盤 ©2025 Databricks Inc. — All rights reserved 13

Slide 14

Slide 14 text

©2025 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォームオープンデータレイクすべての生データ (ログ、テキスト、音声、動画、画像) データ中心の AI 生成AI • カスタムモデル • モデルサービング • RAG エンドツーエンドの AI • MLOps (MLﬂow) • AutoML • モニタリング • ガバナンス Databricks SQL Text-to-SQL Workﬂows 実行履歴に基づくジョブコストの最適化 Delta Live Tables データ品質の自動化 Mosaic AI カスタムLLMの作成チューニングサービング Unity Catalog 自然言語で洞察をセキュアに獲得 Delta Lake 利用パターンに基づいてデータレイアウトを自動で最適化 ©2025 Databricks Inc. — All rights reserved あなたのデータのセマンティクスを理解するためにAIを活用するデータインテリジェンスエンジン DatabricksIQ 14

Slide 15

Slide 15 text

©2025 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム運用財務マーケティングカスタマーサービス組織の全員にデータとAIを展開するにはどうすれば？ “Genie” 自然言語で誰でもデータとAIをオープンデータレイク W 実行ジョブ Delta Live Tables データ品質の自動化 Mosaic AI カスタムLLMの作成チューニングサービング Unity Catalog 自然言語で洞察をセキュア Delta Lake 利用パターンに基づいてデータレイアウ ©2025 Databricks Inc. — All rights reserved あなたのデータのセマンティクスを理解するためにAIを活 DatabricksIQ

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

©2025 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム 20 ©2025 Databricks Inc. — All rights reserved あなたのすべてのデータのためのオープン統合基盤オープンデータレイクすべての構造化、半構造化、非構造化データ (ログ、テキスト、音声、動画、画像など) ETL & リアルタイム分析オーケストレーションデータウェアハウスデータサイエンス & AI Mosaic AI Delta Live Tables Workﬂows Databricks SQL セキュリティ、ガバナンス、カタログの統合 Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake

Slide 21

Slide 21 text

Slide 22

Slide 22 text

©2025 Databricks Inc. — All rights reserved 22 Unity Catalog - 鍵となる機能 ● メタデータとユーザーの集中管理 ● データアクセスコントロールの集中管理 ● データリネージ ● データアクセス監査 ● データ検索と発見 ● Delta Sharingによるセキュアなデータ共有 Databricks ワークスペース Databricks ワークスペース Unity Catalog GRANT … ON … TO … REVOKE … ON … FROM … カタログ, データベース (スキーマ), テーブル, ビュー, ストレージ資格情報, 外部ロケーション

Slide 23

Slide 23 text

©2025 Databricks Inc. — All rights reserved 3レベルの名前空間 SELECT * FROM main.paul.red_wine; -- .. SELECT * FROM hive_metastore.default.customers; Unity Catalog カタログ 2 カタログ 1 スキーマ 2 スキーマ 1 External Table ビューボリュームテーブル hive_metastore (レガシー) default (スキーマ) customers (テーブル) 既存メタストアへのシームレスなアクセス

Slide 24

Slide 24 text

©2025 Databricks Inc. — All rights reserved 24 アクセス制御の集中管理 GRANT ON TO `` GRANT SELECT ON iot.events TO engineers 権限レベルを選択お使いのID プロバイダーのグループと同期 ‘テーブル’= S3/ADLSのファイルの集合 ANSI SQL DCLを使用 UIを使用ワークロードに対するアクセス権限の付与と集中管理

Slide 25

Slide 25 text

©2025 Databricks Inc. — All rights reserved 25 すべてのワークロードに対する自動リネージ ● クラスターやSQLウェアハウスにおける処理実行時のデータリネージを自動キャプチャ ● テーブル、カラムレベルでのリネージ追跡 ● Unity Catalogの共通権限モデルを活用 ● テーブル、ダッシュボード、ワークフロー、ノートブック横断のリネージあなたの組織でデータがどのように流れ、利用されているのかに関するエンドツーエンドの可視性

Slide 26

Slide 26 text

Slide 27

Slide 27 text

©2025 Databricks Inc. — All rights reserved Unity Catalogガバナンスによる非テーブルデータへのアクセス、格納、整理、処理データサイエンス、機械学習を含む任意のファイルの新たな処理機能の解放すべてのファイルフォーマット。構造化、半構造化、非構造化データ UI、Spark API、FUSE、dbutils、REST、SQL、 Databricks CLI、Terraform経由でアクセス可能なファイルボリューム 27 Unity Catalogにおけるファイルのカタログコレクション

Slide 28

Slide 28 text

©2025 Databricks Inc. — All rights reserved Unity Catalogにおけるボリューム非テーブルデータのアクセス、格納、制御、整理、処理 * 28 - ボリュームタイプ: マネージド、外部 - Unity Catalogで集中管理される3レベルの名前空間で整理されるファイル .. - Hadoop分散ファイルシステムの実装、FUSEサポート - パス Hadoop [dbfs:]/Volumes///// FUSE /Volumes///// - ANSI SQLのGRANTやREVOKEコマンドをベースとしたガバナンスモデル - ボリュームレベル - カタログエクスプローラやノートブックのファイル参照、管理のためのユーザインタフェース - API(Spark、dbutils、REST、SQL、ローカルファイルシステム)やDatabricks CLI経由でアクセスできるコンテンツ * テーブルではなくファイルとして直接アクセスできるデータ

Slide 29

Slide 29 text

©2025 Databricks Inc. — All rights reserved Unity Catalogにおけるボリューム 29 Unity Catalogガバナンスによるファイルのアクセス、格納、整理、処理 - ボリュームは以下のような非テーブルデータに対するガバナンスを追加します - MLで活用される画像、音声、動画、PDFファイルのような非構造化データ - MLモデルトレーニングで活用される半構造のトレーニング、検証、テストデータセット - ad-hocや初期段階のデータ探索で使用される生のデータ、保存されるアウトプット - ワークスペース横断で利用されるライブラリ、設定ファイル - ロギングやチェックポイントの出力ファイルのようなオペレーションデータ - … - 一方でテーブルはテーブルデータセットに対するガバナンスを提供します

Slide 30

Slide 30 text

Slide 31

Slide 31 text

©2025 Databricks Inc. — All rights reserved Conﬁdential and Proprietary 31 マルチ言語 1つのノートブックでPython、SQL、Scala、R を活用 Jupyterとの互換性ノートブックでJupyterエコシステムのパワーを活用探索に最適ビルトインのチャートとデータプロファイルによるデータの探索、可視化、要約プロダクションを迅速にジョブとしてクイックにノートブックをスケジュール、ジョブの結果からダッシュボードを作成コラボレーティブリアルタイムの同時参照、同時編集、コメント再現可能性 Reposバージョン履歴を自動で追跡、 Reposによるgitバージョン管理の活用エンタープライズレディエンタープライズレベルのアクセス制御、ID管理、監査適応性標準ライブラリのインストール、ローカルモジュールの使用レイクハウスの玄関 Databricksノートブック

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

©2025 Databricks Inc. — All rights reserved Conﬁdential and Proprietary 開発アシスタント 🤖 38 • ノートブック、ファイルエディタ、SQLエディタに組み込まれたLLMを活用した開発アシスタント • より正確なレスポンスを行うためにコンテキストを活用 • コードのセル • ライブラリ • Databricksランタイムバージョン • ドキュメント • テーブルのスキーマ • 最近アクセスした、お気に入りのテーブル • 人気のテーブル • 人気のjoin • UCの説明文とタグ • リネージ

Slide 39

Slide 39 text

Slide 40

Slide 40 text

Slide 41

Slide 41 text

©2025 Databricks Inc. — All rights reserved Conﬁdential and Proprietary Text-to-SQL 📊 41 • 適切なテーブルを特定 : 強化された検索でデータ資産の発見を容易に • あなたにパーソナライズ : 会社の専門用語を用いてクエリーを作成、洗練するために自然言語を活用 • インラインでの提案 : コメントを記述して、よく使われるクエリースニペットをアシスタントに提案させる

Slide 42

Slide 42 text

Slide 43

Slide 43 text

©2025 Databricks Inc. — All rights reserved Conﬁdential and Proprietary 柔軟なコンピュートサーバレス • 完全マネージド、スケーリングの設定なしに高速に起動 • 使った分だけ支払い—アイドル状態のコンピュートはありません SQLウェアハウス ● ノートブックでSQLウェアハウスを使ってSQLを実行 ● SQLウェアハウスを用いたジョブとしてノートブックをスケジュールサーバレス、SQLウェアハウス、クラシック 📊 43

Slide 44

Slide 44 text

©2025 Databricks Inc. — All rights reserved Conﬁdential and Proprietary レイクハウスの探索をシンプルにエディタを離れることなしにデータを検索 🔍 44 • スキーマブラウザ • アクティブなテーブルでフィルタリング • ノートブックセルからテーブルにジャンプ • ファイルブラウザ • Delta-Live-Tablesの出力 • 表出化させる手段の探索 : • データリネージ • レイクハウスモニタリング • エクスペクテーション

Slide 45

Slide 45 text

Slide 46

Slide 46 text

Slide 47

Slide 47 text

Slide 48

Slide 48 text

Slide 49

Slide 49 text

Slide 50

Slide 50 text

©2025 Databricks Inc. — All rights reserved pandasデータフレーム PySparkデータフレーム列 df['col'] df['col'] 可変性可変不変実行貪欲(eager) 遅延(lazy) 列の追加 df['c'] = df['a'] + df['b'] df = df.withColumn('c', df['a'] + df['b']) 列名変更 df.columns = ['a','b'] df = df.select(df['c1'].alias('a'), df['c2'].alias('b')) df = df.toDF('a', 'b') 値のカウント df['col'].value_counts() df.groupBy(df['col']).count() .orderBy('count', ascending=False) pandasデータフレーム vs. PySparkデータフレーム

Slide 51

Slide 51 text

©2025 Databricks Inc. — All rights reserved Sparkのご紹介 PCで処理できるデータ量であればpandasで十分ですが… ● Apache Sparkは、多数のマシンで並列でコードを実行するための洗練された分散処理フレームワークです。これによって、大量データも効率的に処理することができます。 ● Sparkでもデータフレームでデータを取り扱うことが可能です。Python(PySpark)やSQLなどのAPI を提供しており、pandasとの相互運用も可能です。 pandas pandas API on Spark (旧Koalas) Apache Spark(PySpark) データセットが小さい場合は pandasが正しい選択肢となります。大量データを操作する必要があり、PySparkではなくpandas APIを活用したいと考える際には最適な選択肢となります。 ※APIの対応状況など注意事項があります。大量データに対する処理が必要な場合は、Apache Sparkのような並列データフレームを使用することで高速化が期待できます。

Slide 52

Slide 52 text

©2025 Databricks Inc. — All rights reserved SparkとDatabricksの関係 Databricksでは処理エンジンとしてSparkを活用しています ● Databricks は、ビッグデータと機械学習のための統合アナリティクスエンジンである Apache Spark の上に構築されています。PySpark は、学習、実装、保守が容易な柔軟な言語である Python プログラミング言語を使用して Apache Spark とインターフェースするのに役立ちます。また、Databricks でのデータビジュアライゼーションのための多くのオプションも提供します。 ● Databricksは、Apache Sparkの機能の開発とリリースを続けています。 Databricks ランタイムには、C++で書き直されたApache Sparkの最適化バージョンであるPhotonなど、 Apache Spark上に構築および拡張する追加の最適化と独自の機能が含まれています。 Azure Databricks における Apache Spark - Azure Databricks | Microsoft Learn

Slide 53

Slide 53 text

©2025 Databricks Inc. — All rights reserved PySparkとは SparkのPython APIです ● PySparkとは、Sparkを実行するためのPython APIです。Apache SparkとPythonのコラボレーションをサポートするためにリリースされました。開発者はPySparkを用いることで、 Pythonからデータフレームを操作する形でSparkを活用することができます。

Slide 54

Slide 54 text

©2025 Databricks Inc. — All rights reserved PySparkの概念 PySparkにはプログラミングを促進する様々なAPIが存在します ● Spark SQL と DataFrames を使用したリレーショナルクエリによる構造化データの処理。 Spark SQL を使用すると、SQL クエリと Spark プログラムを混在できます。 Spark DataFrames を使用すると、Python と SQL を使用してデータの読み取り、書き込み、変換、分析を効率的に行うことができます。つまり、常に Spark の全機能を活用できます。 ● Spark 上の Pandas API (Pandas API on Spark)を使用して Apache Spark で動作する Pandas データ構造とデータ分析ツール。 Spark 上の Pandas API を使用すると、Pandas (テスト、小規模なデータセット) と Spark (運用、分散データセット) で動作する単一のコードベースを使用して、複数のノードに分散された Pandas ワークロードを任意のサイズにスケーリングできます。 Azure Databricks の PySpark - Azure Databricks | Microsoft Learn

Slide 55

Slide 55 text

©2025 Databricks Inc. — All rights reserved PySparkの概念 PySparkでもpandas同様のデータフレームを取り扱います Apache Sparkデータフレームは、名前付き列に編成されたデータセットです。これらは、型が異なる列を持つ 2 次元のラベルの付いたデータ構造です。データフレームには、一般的なデータ分析の問題を効率的に解決できる豊富な関数セットが用意されており、組み込みのメソッドを使用してデータを簡単に変換して、データの並べ替え、フィルター処理、集計を行うことができます。 Azure Databricks の PySpark - Azure Databricks | Microsoft Learn

Slide 56

Slide 56 text

©2025 Databricks Inc. — All rights reserved PySparkの概念メソッドを活用してデータを操作します ● 以下のようなメソッドがあります。メソッド説明 sql 指定されたクエリーの結果を表現するデータフレームを返却。 table 指定されたテーブルをデータフレームとして返却。 read データフレームとしてデータを読み込む際に使用できるDataFrameReaderを返却。 range startからend(含まない)の範囲とステップ値、パーティション数を持つ要素を含むカラムを持つデータフレームを生成。 createDataFrame タプルのリストからデータフレームを作成、主にテストで使用。

Slide 57

Slide 57 text

Slide 58

Slide 58 text

©2025 Databricks Inc. — All rights reserved 最終形ベストプラクティスのパイプラインクレンジング取り込みブロンズシルバーゴールド再サンプリング内挿された時系列特徴量拡張特徴量削減生データ ▪ データ処理なし ▪ 間違いを修正するためにデータを保持クレンジングされたデータ ▪ 直接クエリー可能 ▪ PIIのマスキング/検閲 ▪ 共有することで整形されたデータを複数人で活用可能 ▪ 異なる用途に合わせて右のゴールドを作成可能整理されたビジネスレベルのテーブル ▪ プロジェクト/ユースケース固有 ▪ 非正規化、読み取りに最適化したデータモデル

Slide 59

Slide 59 text

ハンズオン

Slide 60

Slide 60 text

ハンズオンの流れ 60 1. Databricksノートブックの基礎 • Databricksノートブックの基本的な使い方を学びます。 2. Databricksにおけるファイルとテーブルの取り扱い • Pythonを用いてインターネットから CSVファイルを取得 • Unity Catalogのボリュームに CSVファイルを保存 • CSVファイルを読み込んで内容を表示 (Pandas/PySpark) • データを加工 (Pandas/PySpark) • データをテーブルに永続化 (PySpark) • テーブルからのデータの読み込み (PySpark) 2つのノートブックを用いてハンズオンを行います。

Slide 61

Slide 61 text

©2025 Databricks Inc. — All rights reserved 61 ハンズオンの準備クラスターとカタログ / スキーマの準備を行います。ワークスペース名 : xxxxxxx クラスター ● クラスター名 : xxxxxxx カタログ ● カタログ名 : rd_shared (作成済みです) スキーマ ● スキーマ名 : 7桁の社員番号のスキーマを rd_shared カタログ配下に作成いただきます。

Slide 62

Slide 62 text

Slide 63

Slide 63 text

Slide 64

Slide 64 text

Slide 65

Slide 65 text

Slide 66

Slide 66 text

Slide 67

Slide 67 text

Slide 68

Slide 68 text

Slide 69

Slide 69 text

リソース

Slide 70

Slide 70 text

©2025 Databricks Inc. — All rights reserved 学習リソース ● Databricks Academy - アクセス方法、セルフペーストレーニング動画の参照方法を確認するために、これらの手順をご覧ください。 ○ Course Catalog あなたの会社メールアドレスでアカウントを作成しましょう。 ● Databricks Certiﬁcations - Databricksで資格を取得しましょう。 ● Databricks Demo Hub - Databricks製品のショートデモをご覧ください！ ● チュートリアル - すぐに利用できるベストプラクティスのデモを、あなたのワークスペースにインストールしましょう。 ● Instructor Led Training (購入した場合) - ラーニングパスをチェックするようにしてください！ ● Databricks Japanのエンジニアによる技術記事 ● Databricks ブログ

Slide 71

Slide 71 text

©2025 Databricks Inc. — All rights reserved 有用なリソース Pythonを用いたDatabricksでの開発 Pythonを用いたDatabricksでの開発 AWS, Azure Pythonライブラリのアップロード AWS, Azure Pythonにおける可視化 AWS, Azure データフレームのご紹介 AWS, Azure Pandasユーザー定義関数 AWS, Azure シングルノードワークロードをDatabricksに移行 AWS, Azure Databricks Connect AWS, Azure Pandas APIs on Apache Spark Apache Spark Docs, AWS, Azure DatabricksでのBIツールの活用 BIアプリケーションへの接続 AWS, Azure DatabricksにおけるSQL AWS, Azure ETL & ストリーミング Delta Lake公式ドキュメント AWS, Azure Delta Lakeベストプラクティス AWS, Azure 構造化ストリーミングガイド AWS, Azure Databricks Deltaを用いてストリーミングストックデータ分析をシンプルに Blogpost 構造化ストリーミングとDelta Lakeによる ETLパイプラインのデザイン Video ワークフローとジョブ Databricksジョブ AWS, Azure Delta Live Tables AWS, Azure

Slide 72

Slide 72 text

©2025 Databricks Inc. — All rights reserved Qiitaの記事 https://qiita.com/taka_yayoi まとめページを作っています ● Databricks記事のまとめページ(その1) ● Databricks記事のまとめページ(その2) トピック ● Databricks入門者向けコンテンツ ● Databricksとは何か ● ユースケース ● ソリューションアクセラレータ(ゲノム分析、病理画像分析、etc.) ● 生成AI ● Spark ● Unity Catalog ● Delta Lake ● MLflow ● CI/CD ● etc.

Slide 73

Slide 73 text

©2025 Databricks Inc. — All rights reserved Qiitaの記事ほぼ毎日書いてます入門編 • はじめてのDatabricks #Databricks - Qiita • Databricksチュートリアル #Databricks - Qiita • 私はDatabricksをどのように学んできたのか(学習コンテンツのご紹介) #Databricksクイックスタートガイド - Qiita • 今さら聞けないPython - Pythonの基礎 #Databricks - Qiita • [2024年12月版] Databricksとは何か？ #生成AI - Qiita 生成AI • Databricks生成AIクックブック #Databricks - Qiita • DatabricksのLLMバッチ推論を用いた感情抽出 • エンベディングと生成AIによる異常検知 • Databricksでstable-diffusion-xl-1.0-inpaintingを使って顔ハメ看板を作ってみる • 生成AIによる時系列予測のご紹介 • LLaVAを用いたビジョンチャットアシスタントの作成

Slide 74

Slide 74 text

©2025 Databricks Inc. — All rights reserved Qiitaの記事ほぼ毎日書いてますユースケース • COVID-19への迅速な対応による感染拡大の抑制 (Databricksユースケース) • データドリブンのドローンが救命治療を世界中にデリバリー (Databricksユースケース) • Databricks研究レポート：リアルワールドエビデンスの価値を解放するソリューションアクセラレータ • Databricksにおける機械学習による病理画像分析の自動化 • Databricks Delta Lakeによる大規模ゲノミクスパイプラインの簡略化 • ヘルスケアにおける大規模テキストデータへの自然言語処理の適用 • リアルワールドデータによる高リスク患者の検知 • 自然言語処理によるリアルワールド診療データからのオンコロジー(腫瘍学)に関する洞察の抽出 • Glow V1.0.0 - 次世代ゲノムワイド分析 • NLPを用いた薬害イベント検知による薬品安全性の改善 • Smolderを用いてリアルタイムで電子医療レコードを使い倒す • Databricksのプロジェクトdbignite：患者分析における相互運用性 • Databricksにおけるヘルスケア関連のサンプル集

Slide 75

Slide 75 text

©2025 Databricks Inc. — All rights reserved Qiitaの記事ほぼ毎日書いてますデータエンジニアリング • Databricksにおけるエンドツーエンドのデータパイプラインの構築 • ETLのT(Transformation)実践 • ETLのE(Extract)実践 • Databricksにおけるビジネスアナリストからデータエンジニアへの転換 • Databricksのメダリオンレイクハウスアーキテクチャとは？ジョブ管理 • Databricks Jobsを使ってみる • Databricksジョブのクイックスタート • 最近のDatabricksワークフローの機能(Slack投稿など)を試してみる • DatabricksワークフローとジョブとDelta Live Tablesの関係性 • Databricks SDK for Pythonによるジョブ作成の効率化 • Databricksジョブでfor eachタスクがサポートされました！