ハンズオンで学ぶ Databricks - Databricksにおける機械学習、画像処理

Slide 1

Slide 1 text

Slide 2

Slide 2 text

©2024 Databricks Inc. — All rights reserved 自己紹介弥生隆明 (やよいたかあき) シニアスペシャリストソリューションアーキテクト ▪ 2020年からデータブリックスジャパンにおいて、プレセールス、POCに従事 ▪ 前職はコンサル、総合電機メーカーにてデータ分析・Webサービス構築などに従事。インド赴任経験あり。 ▪ Databricks Certiﬁed (Data Engineer | Machine Learning) Professional, Generative AI Engineer Associate ▪ Qiitaでいろいろ書いています。 2 @taka_aki

Slide 3

Slide 3 text

©2024 Databricks Inc. — All rights reserved 1. 座学(1時間) a. Databricks概要 b. Databricksにおける機械学習 c. Databricksにおける画像の取り扱い 2. ハンズオン(1.5時間) a. Databricksにおける機械学習 i. データの前処理 ii. 機械学習モデルのトレーニング iii. 実験管理 iv. 推論 b. 画像の取り扱い

Slide 4

Slide 4 text

データ+AIカンパニークリエーター 10,000+ グローバルのお客様 $2.4B+ 年間収益 4B+ の投資レイクハウスの発明者生成AIのパイオニア LEADER 2023 Cloud Database Management Systems LEADER 2024 Data Science & Machine Learning Analytic Stream Processing

Slide 5

Slide 5 text

ディザスターリカバリコストコントロールエンタープライズセキュリティ 100% サーバレスレイクハウス AI/BI ビジネスインテリジェンス Databricks SQL データウェアハウス Workﬂows/DLT 取り込み、ETL ストリーミング Mosaic AI 人工知能 Databricksデータインテリジェンスプラットフォーム

Slide 6

Slide 6 text

従来のカタログ全てのデータ+AIのガバナンスを統合テーブル AIモデルファイルノートブックダッシュボード全てのデータ&AI資産に対する単一のオープンガバナンスモデルリネージ、監視、観測可能性によるデータへの信頼アクセス制御ディスカバリーリネージ監査セキュアなデータ共有品質監視コスト制御ビジネスセマンティクスセキュリティコラボレーション品質管理

Slide 7

Slide 7 text

Databricksにおける機械学習

Slide 8

Slide 8 text

走る ● プロダクションに移行 ● CI/CDと開発プロセスの実装 ● エンドツーエンドかつ部門間の自動化と再現性の確保歩いて ● 徐々にデータとワークロードをスケールさせる ● 自動化と再現可能な DS/MLワークロードの自動化と再現 ● 組織内でスケールさせる這って ● 慣れ親しんだツールを使い続ける ● より生産的に ● 未来に備える Databricksにおける機械学習・生成AI構築の哲学

Slide 9

Slide 9 text

這って ● 慣れ親しんだツールを使い続ける ● より生産的に ● 未来に備えるステージ1 ディープラーニングワークフローの例走る ● プロダクションに移行 ● CI/CDと開発プロセスの実装 ● エンドツーエンドかつ部門間の自動化と再現性の確保歩いて ● 徐々にデータとワークロードをスケールさせる ● 自動化と再現可能な DS/MLワークロードの自動化と再現 ● 組織内でスケールさせる

Slide 10

Slide 10 text

慣れ親しんだツールを使う一般的なツール DatabricksではノートブックやIDE Databricksノートブック、ローカルIDE 言語 Python, R, SQL, Scala, Java MLライブラリ事前パッケージ済みライブラリ + 自分でライブラリをインストール Git 自動ノートブックバージョン管理、 Gitリポジトリとワークスペースの同期データ Pandas, Spark, Koalas; 任意のデータソースやフォーマット可視化 Plotly, Matplotlib, Seaborn インテグレーション任意のライブラリ、システム、サービスとインテグレーションする APIとクラウドネイティブのプラットフォーム

Slide 11

Slide 11 text

エンタープライズ向けエンタープライズレベルのアクセスコントロール、アイデンティティパススルー、監査コラボレーティブ共有とアクセス権によるリアルタイム同時編集再現可能性バージョン管理のための自動改訂記録とGit連携ビジュアライゼーションビルトインの可視化と最も人気の可視化ライブラリのサポート (matplotlib, ggplotなど) 実験トラッキングメトリクス、パラメーター、アーティファクトなどを記録するビルトインのDS、MLエクスペリメントのトラッキング多言語 Scala, SQL, Python, R: すべてを一つのノートブックで DatabricksにおけるMLユーザー体験統合された機械学習 & データ分析のためのコラボレーティブな環境を提供

Slide 12

Slide 12 text

分析のセルフサービス計算資源ライブラリと環境人気のMLライブラリプラグ&プレイの環境 requirements.txt conda.yaml カスタマイゼーションオンデマンドでマシンやクラスターを起動 ● オートスケール、自動停止 ● クラスターポリシーによる管理オプション2: ユーザーやプロジェクトごとに分離された Python環境を用いてクラスターを共有オプション1: 自分のクラスターを使用

Slide 13

Slide 13 text

MLのオートロギング : 1 行のコードでパラメータ、メトリクスデータリネージュ、モデルと環境を記録 mlflow.autolog() による開発の追跡と結果の分析 UIあるいはプログラムによる分析 ● パラメーターXのチューニングはメトリックにどの様な影響が？ ● ベストモデルはどれか？ ● 十分長い時間トレーニングを実行したか？データバージョンを含むパラメーター、タグモデル、環境、アーティファクトメトリクス

Slide 14

Slide 14 text

コラボレーションノートブックセキュリティ Git連携 Databricksなら簡単ですクラスターとリソース

Slide 15

Slide 15 text

サンプル: Databricksにおけるディープラーニング DLモデルの開発インタラクティブな開発でノートブック + TensorBoardを活用します。結果の分析モデルのパフォーマンスを分析するために、自動で記録されたMLﬂowメトリクスをレビューします。コードの同期 .py や .ipynbノートブックをインポートしGitと同期します。データロード S3やADLSなどから効率的にデータをロードします。 GPUマシンを起動 Databricks MLランタイムは GPUドライバー + DLライブラリを提供します。コードとモデルの共有セキュアに共有するためにノートブックと MLﬂowのアクセス権を活用します。

Slide 16

Slide 16 text

ステージ1の振り返り這って ● 慣れ親しんだツールを使い続ける ● より生産的に ● 未来に備えるディープラーニングワークフローの例走る ● プロダクションに移行 ● CI/CDと開発プロセスの実装 ● エンドツーエンドかつ部門間の自動化と再現性の確保歩いて ● 徐々にデータとワークロードをスケールさせる ● 自動化と再現可能な DS/MLワークロードの自動化と再現 ● 組織内でスケールさせる

Slide 17

Slide 17 text

ステージ2 這って ● 慣れ親しんだツールを使い続ける ● より生産的に ● 未来に備えるディープラーニングワークフローの例走る ● プロダクションに移行 ● CI/CDと開発プロセスの実装 ● エンドツーエンドかつ部門間の自動化と再現性の確保歩いて ● 徐々にデータとワークロードをスケールさせる ● 自動化と再現可能な DS/MLワークロードの自動化と再現 ● 組織内でスケールさせる

Slide 18

Slide 18 text

もっと大きなボートが必要になるだろう

Slide 19

Slide 19 text

より大きハードウェアを使用 ● どのシングルマシンMLライブラリでも動作 ● 特徴量生成、トレーニング、チューニング、推論 ● Databricks: リソースのリクエストと解放は簡単必要に応じてスケールアップ・スケールアウト 1マシンでスケールアップシングルマシンのワークロードをスケールアウトそれぞれのクラスターノードでシングルマシンワークロードを実行 ● どのシングルマシンMLライブラリでも動作 ● 特徴量生成、チューニング、推論 ● Databricks: クラスター、Spark、UDFを用いて簡単にスケールアウト分散アルゴリズムによるクラスターサイズに応じたスケールアウト ● 分散MLライブラリ: Spark, XGBoost, TensorFlow, ... ● トレーニング ● Databricks: クラスター、Spark、UDFを用いて簡単にスケールアウト分散アルゴリズムを通じたスケールアウト GPU

Slide 20

Slide 20 text

データ準備特徴量エンジニアリングモデルトレーニングモデル評価モデルデプロイメントモデルチューニングモデルモニタリング ● Koalas ● Sparkデータフレーム ● Spark UDF ● Feature Store ● より大きなインスタンス ● GPU ● 分散トレーニング (Spark ML, HorovodRunnerなど) ● Hyperopt ● MLﬂow ● バッチ & ストリーミング: ジョブ、 Sparkデータフレーム & UDF ● オンラインサービング: Databricksモデルサービング & 外部のサービングシステム ● MLﬂow 典型的な機械学習ワークフローにおけるスケーリング

Slide 21

Slide 21 text

再現性確保のための自動ロギングランを再現する機能 : ✓ ✓ ✓ ✓ コードバージョン管理データバージョン管理クラスター設定環境の仕様再現性確保チェックリスト : プラットフォームにおけるジョブスケジューリング自動化: スケジュールアラート、リトライ、 API セキュリティ : クラスターポリシー | テーブルACL 自動化と再現性確保

Slide 22

Slide 22 text

特徴量の共有と本格運用特徴量の共有と検索リネージュベースの検索による Feature Storeの探索、ACLによって管理された再利用を促進します。トレーニングとサービングの一貫性の確保トレーニングとサービングの両方で同じ特徴量が使用されることを保証します。モデルデプロイメントの整流化 MLﬂowモデルはどの特徴量が必要なのかを知っているので、MLOpsをシンプルにします。他のデータと特徴量の統合特徴量テーブルはDelta Lakeなので、高パフォーマンスでACIDトランザクションが保証されます。リネージュ追跡による特徴量の管理特徴量テーブルは自動で作成者や利用者を追跡し、プロダクションの安定性を保証します。

Slide 23

Slide 23 text

洞察をビジネスに表出させるすべてのビジネスデータを活用 MLの成果を提供インタラクティブダッシュボード動的アラート Databricks SQL

Slide 24

Slide 24 text

サンプル: Databricksにおけるディープラーニング DLワークフローの「這う」ステージを最適化、スケール、自動化トレーニングのスケールアップスケールアウトマシン数増強。マルチGPU。分散トレーニング。 ETL + トレーニングジョブのスケジュールノートブックからジョブを作成。スケジュール、リトライ、アラートの追加。推論ジョブのスケジュールパフォーマンスが最適化された Pandas UDF。性能の最適化小規模画像向けDelta。データ取り込み + チェックポイント作成のための DBFS。Sparkデータセットコンバーター。ハイパーパラメーターチューニング Hyperopt + SparkTrials によるチューニングのスケール。 MLﬂow autologgingによるチューニングの管理。

Slide 25

Slide 25 text

ステージ2の振り返り這って ● 慣れ親しんだツールを使い続ける ● より生産的に ● 未来に備えるディープラーニングワークフローの例走る ● プロダクションに移行 ● CI/CDと開発プロセスの実装 ● エンドツーエンドかつ部門間の自動化と再現性の確保歩いて ● 徐々にデータとワークロードをスケールさせる ● 自動化と再現可能な DS/MLワークロードの自動化と再現 ● 組織内でスケールさせる

Slide 26

Slide 26 text

ステージ3 這って ● 慣れ親しんだツールを使い続ける ● より生産的に ● 未来に備えるディープラーニングワークフローの例走る ● プロダクションに移行 ● CI/CDと開発プロセスの実装 ● エンドツーエンドかつ部門間の自動化と再現性の確保歩いて ● 徐々にデータとワークロードをスケールさせる ● 自動化と再現可能な DS/MLワークロードの自動化と再現 ● 組織内でスケールさせる

Slide 27

Slide 27 text

モデルのライフサイクルステージングプロダクションアーカイブデータサイエンティスト MLエンジニア v1 v2 モデルトラッキング Flavor 2 Flavor 1 モデルレジストリ Custom Models コード内コンテナバッチ & ストリームスコアリングクラウド推論サービス OSSサービングソリューション Serving Parameters Metrics Artifacts Models Metadata モデルデプロイメントオプション

Slide 28

Slide 28 text

Databricksにおける MLOpsの例トレーニングモデル検証ジョブプロダクションのスコアリングジョブ、モデルサーバーメールモデルバージョンの作成ステージングの新規モデルバージョンに対する Webhook テスト結果のコメント + プロダクションへの移行リクエストプロダクションの新規モデルバージョンに対する Webhook プロダクションへの移行がリクエストされたことを通知するメールを MLOps担当が受信新規プロダクションモデルを承認モデルレジストリ

Slide 29

Slide 29 text

デプロイメントモードモデルトレーニングバッチモデルトラッキングレジストリストリーム REST API 埋め込み Delta Lake / Feature Store BIツール MLの予測結果を出力... ● ビジネスアプリケーション ● データパイプライン ● ウェブアプリケーション ● 埋め込みアプリ ● などなどデプロイメントの最適化... ● コスト / レーテンシーのトレードオフ ● Databricksのサービス、サードパーティのサービス、埋め込みアプリケーション

Slide 30

Slide 30 text

特徴量の定義特徴量テーブルトレーニングデータセットの生成バッチスコアリングオンラインサービング特徴量1 特徴量2 ● 再利用、共有可能な特徴量計算ロジックの定義顧客特徴量商品特徴量 ... ... ● 任意の言語からクエリーできるテーブルとして特徴量を表現 ● SQL、ACL、バージョン、パフォーマンス最適化保存 REST エンドポイントモデルサービングスナップショットロード公開 Feature Store

Slide 31

Slide 31 text

部門を超えてスケール新たな問題を解決するために、皆様のチームの一員としてSMEや他のビジネスユニットと取り組みます。 ● ビジネスリーダー ● 技術エキスパート ● ソリューションアクセラレータ ● カスタマーサクセスストーリー調整して構築する様々なチームと連携した我々の経験を活用し、統合プラットフォームを構築します: ● DS/ML ● DE ● BI/アナリティクス ● セキュリティ/インフラ ● プラットフォーム成功を繰り返す新たなデータ問題に対して同じ様なツール、データアーキテクチャ、知識を適用します。組織内にDS/MLのCoEを構築します。企業内でスケールさせる

Slide 32

Slide 32 text

ステージ3の振り返り這って ● 慣れ親しんだツールを使い続ける ● より生産的に ● 未来に備えるディープラーニングワークフローの例走る ● プロダクションに移行 ● CI/CDと開発プロセスの実装 ● エンドツーエンドかつ部門間の自動化と再現性の確保歩いて ● 徐々にデータとワークロードをスケールさせる ● 自動化と再現可能な DS/MLワークロードの自動化と再現 ● 組織内でスケールさせる

Slide 33

Slide 33 text

MLﬂow

Slide 34

Slide 34 text

Databricksにおける機械学習 MLライフサイクル全体に対するデータネイティブ、コラボレーティブなソリューションによるオープンなデータレイクハウス基盤 MLOps / ガバナンスデータ準備データのバージョン管理モニタリングバッチスコアリングオンラインサービングモデルトレーニングモデルチューニングランタイム環境 Feature Store バッチ (高スループット) リアルタイム (低レーテンシー) AutoML データサイエンスワークスペース

Slide 35

Slide 35 text

エンドツーエンドのMLOps / ガバナンスデータサイエンスワークスペースデータ投入データバージョン管理モデルトレーニングモデルチューニングランタイム環境モニタリングバッチスコアリングオンラインサービングデータガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンス Powered by

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text

Slide 41

Slide 41 text

Slide 42

Slide 42 text

Slide 43

Slide 43 text

Slide 44

Slide 44 text

コードのバージョンデータのバージョンクラスター設定環境設定オートロギング再現性チェックリストランの再現機能データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンス Powered by ✓ ✓ ✓ ✓ 結論: 完全なエンドツーエンドのガバナンスと再現性の確保

Slide 45

Slide 45 text

Databricksにおける画像の取り扱い

Slide 46

Slide 46 text

Slide 47

Slide 47 text

©2024 Databricks Inc. — All rights reserved 画像処理パイプラインのアーキテクチャ • 画像処理にはトレーニングおよび推論パイプラインが含まれます。 • モデルのトレーニング頻度は推論実行頻度よりも少ないかもしれません。 • 推論はバッチモード、あるいはリアルタイムストリーミングモードで実行されます。 • トレーニングしたモデルは推論のためにエッジデバイスにデプロイされることがあります。 • ディープラーニングフレームワークは、それらの精度と画像から特徴量を推定できる能力から頻繁に活用されます。 • 一般的なフレームワークには、TensorFlow、Keras、PyTorchがあります。 • 多くの場合、ユーザーは事前学習済みモデルを再利用するか、ユースケースに応じて最終レイヤーを再トレーニングし、スクラッチでニューラルネットを構築することなしに、画像処理パイプラインの構築を容易にします。

Slide 48

Slide 48 text

©2024 Databricks Inc. — All rights reserved ディープラーニングを用いた画像処理の課題 • モデルをトレーニングするオンプレミスGPU可用性の制限 • GPUのアーキテクチャ設計は困難であり、セキュアかつ容易に管理することも大変です。 • blobストレージに存在する大量の画像ファイル • 特徴量を持つ非構造化画像データを用いて構造化のテーブルを作ることが困難です。

Slide 49

Slide 49 text

Delta Lakeによる画像管理

Slide 50

Slide 50 text

Slide 51

Slide 51 text

©2024 Databricks Inc. — All rights reserved 探索 vs. 格納 • Delta lakeでは画像の2つのフォーマットをサポートしています。 • イメージフォーマット - 探索 • 画像をデコードし、サムネイルを作成します。 • データのサブセットを可視化し、サンプルデータの高さや幅、チャンネル数をチェックする際に有用です。 • バイナリーファイルフォーマット - 格納 • それぞれのファイルは、バイナリーのコンテンツとメタデータを持つ単一行として格納されます。 • 画像のデコードは行いません。

Slide 52

Slide 52 text

©2024 Databricks Inc. — All rights reserved 画像の格納形態 - 生の画像ファイルパスその他のメタデータ s3a://mys3bucket/images/01.png s3a://mys3bucket/images/02.png s3a://mys3bucket/images/03.png • メリット • 管理が簡単 • デメリット • パフォーマンスが出ない • バージョン管理ができない(タイムトラベル) • データを拡張できないクラウドストレージ

Slide 53

Slide 53 text

©2024 Databricks Inc. — All rights reserved ID 座標メタデータ … 画像 (バイナリー) 01 02 03 画像の格納形態 - Deltaテーブルに格納 • メリット • バージョン管理(タイムトラベル) • 大規模処理でも高いパフォーマンス(OPTIMIZE、Z-Orderなど) • Single source of truth(データが散在しない) • 管理が簡単 • デメリット • DeltaのAPIを使う必要あり Deltaテーブル

Slide 54

Slide 54 text

Slide 55

Slide 55 text

©2024 Databricks Inc. — All rights reserved 更なる画像処理で .applyInPandas(...) を活用 • 画像処理APIにアクセスするための簡潔なUDF構文 • 画像に対してより自然なpandas APIを活用 • Arrowに引き渡すデータのスキーマとデータ量を考慮 proc_df = df.select() … rtn_schema = df.select().withColumn(“x”,...)... • 自分の pandas 関数を活用 rtn_df = proc_df.groupBy().applyInPandas(rtn_schema) • 特徴量を用いてバイナリー画像データを効率的に再構成するためにSparkを活用 full_df = rtn_df.join(df,,”leftouter”)

Slide 56

Slide 56 text

©2024 Databricks Inc. — All rights reserved 格納時の圧縮の無効化格納しようとしているデータの大部分が画像特徴量ではなく画像データの場合には、圧縮を無効化します。これによって、画像が最初から圧縮フォーマットである場合には、読み書きを劇的に高速化します。 (ここでは.pngを使いました) # Save spark.conf.set("spark.sql.parquet.compression.codec", "uncompressed") ( full_df.write .format('delta') .mode('append') .option('mergeSchema',True) .save('/mnt/datalake/interesting_images') ) # Set compression back to what it was spark.conf.set("spark.sql.parquet.compression.codec", compression)

Slide 57

Slide 57 text

画像管理をサポートするUnity Catalog

Slide 58

Slide 58 text

©2024 Databricks Inc. — All rights reserved Unity Catalogガバナンスによる非テーブルデータへのアクセス、格納、整理、処理データサイエンス、機械学習を含む任意のファイルの新たな処理機能の解放すべてのファイルフォーマット。構造化、半構造化、非構造化データ UI、Spark API、FUSE、dbutils、REST、SQL、 Databricks CLI、Terraform経由でアクセス可能なファイルボリューム 58 Unity Catalogにおけるファイルのカタログコレクション

Slide 59

Slide 59 text

©2024 Databricks Inc. — All rights reserved Unity Catalogにおけるボリューム非テーブルデータのアクセス、格納、制御、整理、処理 * 59 - ボリュームタイプ: マネージド、外部 - Unity Catalogで集中管理される3レベルの名前空間で整理されるファイル .. - Hadoop分散ファイルシステムの実装、FUSEサポート - パス Hadoop [dbfs:]/Volumes///// FUSE /Volumes///// - ANSI SQLのGRANTやREVOKEコマンドをベースとしたガバナンスモデル - ボリュームレベル - カタログエクスプローラやノートブックのファイル参照、管理のためのユーザインタフェース - API(Spark、dbutils、REST、SQL、ローカルファイルシステム)やDatabricks CLI経由でアクセスできるコンテンツ * テーブルではなくファイルとして直接アクセスできるデータ

Slide 60

Slide 60 text

©2024 Databricks Inc. — All rights reserved Unity Catalogにおけるボリューム 60 Unity Catalogガバナンスによるファイルのアクセス、格納、整理、処理 - ボリュームは以下のような非テーブルデータに対するガバナンスを追加します - MLで活用される画像、音声、動画、 PDFファイルのような非構造化データ - MLモデルトレーニングで活用される半構造のトレーニング、検証、テストデータセット - ad-hocや初期段階のデータ探索で使用される生のデータ、保存されるアウトプット - ワークスペース横断で利用されるライブラリ、設定ファイル - ロギングやチェックポイントの出力ファイルのようなオペレーションデータ - … - 一方でテーブルはテーブルデータセットに対するガバナンスを提供します * テーブルではなくファイルとして直接アクセスできるデータ

Slide 61

Slide 61 text

©2024 Databricks Inc. — All rights reserved 61 すべてのワークロードに対する自動リネージ ● Databricksクラスター、SQLウェアハウスにおける実行時データリネージ自動キャプチャ ● テーブル、カラムレベルのリネージ ● Unity Catalogの共通権限モデルの活用 ● テーブル、ダッシュボード、ワークフロー、ノートブック、特徴量テーブル、ファイル、 DLTのリネージ組織におけるデータフロー、データ活用に対するエンドツーエンドの可視性