ハンズオンで学ぶ Databricks - Databricksにおける機械学習、画像処理

©2025 Databricks Inc. — All rights reserved 1 1 ハンズオンで学ぶ
Databricks Databricksにおける機械学習、画像処理 2025/1/17 Databricks Japan 弥生隆明

©2024 Databricks Inc. — All rights reserved 自己紹介弥生隆明
(やよいたかあき) シニアスペシャリストソリューションアーキテクト ▪ 2020年からデータブリックスジャパンにおいて、プレセールス、POCに従事 ▪ 前職はコンサル、総合電機メーカーにてデータ分析・Webサービス構築などに従事。インド赴任経験あり。 ▪ Databricks Certiﬁed (Data Engineer | Machine Learning) Professional, Generative AI Engineer Associate ▪ Qiitaでいろいろ書いています。 2 @taka_aki

©2024 Databricks Inc. — All rights reserved 1. 座学(1時間) a.
Databricks概要 b. Databricksにおける機械学習 c. Databricksにおける画像の取り扱い 2. ハンズオン(1.5時間) a. Databricksにおける機械学習 i. データの前処理 ii. 機械学習モデルのトレーニング iii. 実験管理 iv. 推論 b. 画像の取り扱い

データ+AIカンパニークリエーター 10,000+ グローバルのお客様 $2.4B+ 年間収益 4B+ の投資レイクハウスの
発明者生成AIのパイオニア LEADER 2023 Cloud Database Management Systems LEADER 2024 Data Science & Machine Learning Analytic Stream Processing

ディザスターリカバリコストコントロールエンタープライズセキュリティ 100% サーバレスレイクハウス AI/BI ビジネスインテリジェンス Databricks
SQL データウェアハウス Workﬂows/DLT 取り込み、ETL ストリーミング Mosaic AI 人工知能 Databricksデータインテリジェンスプラットフォーム

従来のカタログ全てのデータ+AIのガバナンスを統合テーブル AIモデルファイルノートブックダッシュボード全てのデータ&AI資産に対する単一のオープンガバナンスモ
デルリネージ、監視、観測可能性によるデータへの信頼アクセス制御ディスカバリーリネージ監査セキュアなデータ共有品質監視コスト制御ビジネスセマンティクスセキュリティコラボレーション品質管理

Databricksにおける機械学習

走る • プロダクションに移行 • CI/CDと開発プロセスの実装 • エンドツーエンドかつ部門間の自動化と再現性の確保
歩いて • 徐々にデータとワークロードをスケールさせる • 自動化と再現可能な DS/MLワークロードの自動化と再現 • 組織内でスケールさせる這って • 慣れ親しんだツールを使い続ける • より生産的に • 未来に備える Databricksにおける機械学習・生成AI構築の哲学

這って • 慣れ親しんだツールを使い続ける • より生産的に • 未来に備えるステージ1 ディープラーニングワークフローの例
走る • プロダクションに移行 • CI/CDと開発プロセスの実装 • エンドツーエンドかつ部門間の自動化と再現性の確保歩いて • 徐々にデータとワークロードをスケールさせる • 自動化と再現可能な DS/MLワークロードの自動化と再現 • 組織内でスケールさせる

慣れ親しんだツールを使う一般的なツール DatabricksではノートブックやIDE Databricksノートブック、ローカルIDE 言語 Python, R, SQL, Scala,
Java MLライブラリ事前パッケージ済みライブラリ + 自分でライブラリをインストール Git 自動ノートブックバージョン管理、 Gitリポジトリとワークスペースの同期データ Pandas, Spark, Koalas; 任意のデータソースやフォーマット可視化 Plotly, Matplotlib, Seaborn インテグレーション任意のライブラリ、システム、サービスとインテグレーションする APIとクラウドネイティブのプラットフォーム

エンタープライズ向けエンタープライズレベルのアクセスコントロール、アイデンティティパススルー、監査コラボレーティブ共有とアクセス権によるリアルタイム同時編集再現可能性バージョン管理のための自動改訂記録とGit連携
ビジュアライゼーションビルトインの可視化と最も人気の可視化ライブラリのサポート (matplotlib, ggplotなど) 実験トラッキングメトリクス、パラメーター、アーティファクトなどを記録するビルトインのDS、MLエクスペリメントのトラッキング多言語 Scala, SQL, Python, R: すべてを一つのノートブックで DatabricksにおけるMLユーザー体験統合された機械学習 & データ分析のためのコラボレーティブな環境を提供

分析のセルフサービス計算資源ライブラリと環境人気のMLライブラリプラグ&プレイの環境 requirements.txt conda.yaml カスタマイゼーションオンデマンドでマシンやクラスターを起動
• オートスケール、自動停止 • クラスターポリシーによる管理オプション2: ユーザーやプロジェクトごとに分離された Python環境を用いてクラスターを共有オプション1: 自分のクラスターを使用

MLのオートロギング : 1 行のコードでパラメータ、メトリクスデータリネージュ、モデルと環境を記録 mlflow.autolog() による開発の追跡と結果の分析
UIあるいはプログラムによる分析 • パラメーターXのチューニングはメトリックにどの様な影響が？ • ベストモデルはどれか？ • 十分長い時間トレーニングを実行したか？データバージョンを含むパラメーター、タグモデル、環境、アーティファクトメトリクス

コラボレーションノートブックセキュリティ Git連携 Databricksなら簡単ですクラスターとリソース

サンプル: Databricksにおけるディープラーニング DLモデルの開発インタラクティブな開発でノートブック + TensorBoardを活用します。結果の分析
モデルのパフォーマンスを分析するために、自動で記録されたMLﬂowメトリクスをレビューします。コードの同期 .py や .ipynbノートブックをインポートしGitと同期します。データロード S3やADLSなどから効率的にデータをロードします。 GPUマシンを起動 Databricks MLランタイムは GPUドライバー + DLライブラリを提供します。コードとモデルの共有セキュアに共有するためにノートブックと MLﬂowのアクセス権を活用します。

ステージ1の振り返り這って • 慣れ親しんだツールを使い続ける • より生産的に • 未来に備えるディープラーニングワークフローの例

ステージ2 這って • 慣れ親しんだツールを使い続ける • より生産的に • 未来に備えるディープラーニングワークフローの例

もっと大きなボートが必要になるだろう

より大きハードウェアを使用 • どのシングルマシンMLライブラリでも動作 • 特徴量生成、トレーニング、チューニング、推論 • Databricks: リソースのリクエストと解放は簡単必要に応じてスケールアップ・スケールアウト 1マシンで
スケールアップシングルマシンのワークロードをスケールアウトそれぞれのクラスターノードでシングルマシンワークロードを実行 • どのシングルマシンMLライブラリでも動作 • 特徴量生成、チューニング、推論 • Databricks: クラスター、Spark、UDFを用いて簡単にスケールアウト分散アルゴリズムによるクラスターサイズに応じたスケールアウト • 分散MLライブラリ: Spark, XGBoost, TensorFlow, ... • トレーニング • Databricks: クラスター、Spark、UDFを用いて簡単にスケールアウト分散アルゴリズムを通じたスケールアウト GPU

データ準備特徴量エンジニアリングモデルトレーニングモデル評価モデルデプロイメントモデル
チューニングモデルモニタリング • Koalas • Sparkデータフレーム • Spark UDF • Feature Store • より大きなインスタンス • GPU • 分散トレーニング (Spark ML, HorovodRunnerなど) • Hyperopt • MLﬂow • バッチ & ストリーミング: ジョブ、 Sparkデータフレーム & UDF • オンラインサービング: Databricksモデルサービング & 外部のサービングシステム • MLﬂow 典型的な機械学習ワークフローにおけるスケーリング

再現性確保のための自動ロギングランを再現する機能 : ✓ ✓ ✓ ✓ コードバージョン管理データバージョン管
理クラスター設定環境の仕様再現性確保チェックリスト : プラットフォームにおけるジョブスケジューリング自動化: スケジュールアラート、リトライ、 API セキュリティ : クラスターポリシー | テーブルACL 自動化と再現性確保

特徴量の共有と本格運用特徴量の共有と検索リネージュベースの検索による Feature Storeの探索、ACLによって管理された再利用を促進します。トレーニングとサービングの一貫性の確保トレーニングとサービングの両方で同じ特徴量
が使用されることを保証します。モデルデプロイメントの整流化 MLﬂowモデルはどの特徴量が必要なのかを知っているので、MLOpsをシンプルにします。他のデータと特徴量の統合特徴量テーブルはDelta Lakeなので、高パフォーマンスでACIDトランザクションが保証されます。リネージュ追跡による特徴量の管理特徴量テーブルは自動で作成者や利用者を追跡し、プロダクションの安定性を保証します。

洞察をビジネスに表出させるすべてのビジネスデータを活用 MLの成果を提供インタラクティブダッシュボード動的アラート Databricks SQL

サンプル: Databricksにおけるディープラーニング DLワークフローの「這う」ステージを最適化、スケール、自動化トレーニングのスケールアップスケールアウトマシン数増強。マルチGPU。分散トレーニング。 ETL
+ トレーニングジョブのスケジュールノートブックからジョブを作成。スケジュール、リトライ、アラートの追加。推論ジョブのスケジュールパフォーマンスが最適化された Pandas UDF。性能の最適化小規模画像向けDelta。データ取り込み + チェックポイント作成のための DBFS。Sparkデータセットコンバーター。ハイパーパラメーターチューニング Hyperopt + SparkTrials によるチューニングのスケール。 MLﬂow autologgingによるチューニングの管理。

ステージ3 這って • 慣れ親しんだツールを使い続ける • より生産的に • 未来に備えるディープラーニングワークフローの例

モデルのライフサイクルステージングプロダクションアーカイブデータサイエンティスト MLエンジニア v1
v2 モデルトラッキング Flavor 2 Flavor 1 モデルレジストリ Custom Models コード内コンテナバッチ & ストリームスコアリングクラウド推論サービス OSSサービングソリューション Serving Parameters Metrics Artifacts Models Metadata モデルデプロイメントオプション

Databricksにおける MLOpsの例トレーニングモデル検証ジョブプロダクションのスコアリングジョブ、モデルサー
バーメールモデルバージョンの作成ステージングの新規モデルバージョンに対する Webhook テスト結果のコメント + プロダクションへの移行リクエストプロダクションの新規モデルバージョンに対する Webhook プロダクションへの移行がリクエストされたことを通知するメールを MLOps担当が受信新規プロダクションモデルを承認モデルレジストリ

デプロイメントモードモデルトレーニングバッチモデルトラッキングレジストリストリーム REST API
埋め込み Delta Lake / Feature Store BIツール MLの予測結果を出力... • ビジネスアプリケーション • データパイプライン • ウェブアプリケーション • 埋め込みアプリ • などなどデプロイメントの最適化... • コスト / レーテンシーのトレードオフ • Databricksのサービス、サードパーティのサービス、埋め込みアプリケーション

特徴量の定義特徴量テーブルトレーニングデータセットの生成バッチスコアリングオンラインサービング特徴量1 特徴量2 • 再利用、共有可能な特徴量計算ロジックの定義
顧客特徴量商品特徴量 ... ... • 任意の言語からクエリーできるテーブルとして特徴量を表現 • SQL、ACL、バージョン、パフォーマンス最適化保存 REST エンドポイントモデルサービングスナップショットロード公開 Feature Store

部門を超えてスケール新たな問題を解決するために、皆様のチームの一員としてSMEや他のビジネスユニットと取り組みます。 • ビジネスリーダー • 技術エキスパート •
ソリューションアクセラレータ • カスタマーサクセスストーリー調整して構築する様々なチームと連携した我々の経験を活用し、統合プラットフォームを構築します: • DS/ML • DE • BI/アナリティクス • セキュリティ/インフラ • プラットフォーム成功を繰り返す新たなデータ問題に対して同じ様なツール、データアーキテクチャ、知識を適用します。組織内にDS/MLのCoEを構築します。企業内でスケールさせる

MLﬂow

Databricksにおける機械学習 MLライフサイクル全体に対するデータネイティブ、コラボレーティブなソリューションによるオープンなデータレイクハウス基盤 MLOps / ガバナンスデータ準備データのバージョン管理モニタリング
バッチスコアリングオンラインサービングモデルトレーニングモデルチューニングランタイム環境 Feature Store バッチ (高スループット) リアルタイム (低レーテンシー) AutoML データサイエンスワークスペース

エンドツーエンドのMLOps / ガバナンスデータサイエンスワークスペースデータ投入データバージョン管理モデルトレーニングモデル
チューニングランタイム環境モニタリングバッチスコアリングオンラインサービングデータガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンス Powered by

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンスデータソース/リネージュデータのバージョン自動データソースキャプチャ、バージョン管理

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンス特徴量レベルのデータリネージュ/利用特徴量利用の自動キャプチャ

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンスパラメーターメトリクスモデル
アーティファクト MLメトリクス、パラメーター、アーティファクトなどの自動キャプチャ

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンストライアルハイパーパラメーター検索の自動キャプチャ

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンスコードのバージョンクラスター設定
環境設定コード、環境、クラスター設定の自動キャプチャ

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンスモデルの検索モデルのステージベースのACL
モデルの共有、再利用、ACL

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンスステージ変更に対する承認プロセスモデル変更に
対する監査ログ自動化されたモデルリネージュ、ガバナンス

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンスモデルのバージョン管理、ステージ管理と連携するターンキーのモデルサービング
ターンキーのモデルサービング

コードのバージョンデータのバージョンクラスター設定環境設定オートロギング再現性チェックリストランの再現機能データガバナンスエクスペリメントのトラッキング
再現性の確保モデルガバナンス Powered by ✓ ✓ ✓ ✓ 結論: 完全なエンドツーエンドのガバナンスと再現性の確保

Databricksにおける画像の取り扱い

©2024 Databricks Inc. — All rights reserved 画像処理パイプラインのアーキテクチャ • 画像処理にはトレーニングおよび推論パイプラインが含まれます。
• モデルのトレーニング頻度は推論実行頻度よりも少ないかもしれません。 • 推論はバッチモード、あるいはリアルタイムストリーミングモードで実行されます。 • トレーニングしたモデルは推論のためにエッジデバイスにデプロイされることがあります。 • ディープラーニングフレームワークは、それらの精度と画像から特徴量を推定できる能力から頻繁に活用されます。 • 一般的なフレームワークには、TensorFlow、Keras、PyTorchがあります。 • 多くの場合、ユーザーは事前学習済みモデルを再利用するか、ユースケースに応じて最終レイヤーを再トレーニングし、スクラッチでニューラルネットを構築することなしに、画像処理パイプラインの構築を容易にします。

©2024 Databricks Inc. — All rights reserved ディープラーニングを用いた画像処理の課題 • モデルをトレーニングするオンプレミスGPU可用性の制限
• GPUのアーキテクチャ設計は困難であり、セキュアかつ容易に管理することも大変です。 • blobストレージに存在する大量の画像ファイル • 特徴量を持つ非構造化画像データを用いて構造化のテーブルを作ることが困難です。

Delta Lakeによる画像管理

©2024 Databricks Inc. — All rights reserved 探索 vs. 格納
• Delta lakeでは画像の2つのフォーマットをサポートしています。 • イメージフォーマット - 探索 • 画像をデコードし、サムネイルを作成します。 • データのサブセットを可視化し、サンプルデータの高さや幅、チャンネル数をチェックする際に有用です。 • バイナリーファイルフォーマット - 格納 • それぞれのファイルは、バイナリーのコンテンツとメタデータを持つ単一行として格納されます。 • 画像のデコードは行いません。

©2024 Databricks Inc. — All rights reserved 画像の格納形態 - 生の画像ファイル
パスその他のメタデータ s3a://mys3bucket/images/01.png s3a://mys3bucket/images/02.png s3a://mys3bucket/images/03.png • メリット • 管理が簡単 • デメリット • パフォーマンスが出ない • バージョン管理ができない(タイムトラベル) • データを拡張できないクラウドストレージ

©2024 Databricks Inc. — All rights reserved ID 座標メタデータ
… 画像 (バイナリー) 01 02 03 画像の格納形態 - Deltaテーブルに格納 • メリット • バージョン管理(タイムトラベル) • 大規模処理でも高いパフォーマンス(OPTIMIZE、Z-Orderなど) • Single source of truth(データが散在しない) • 管理が簡単 • デメリット • DeltaのAPIを使う必要あり Deltaテーブル

©2024 Databricks Inc. — All rights reserved 更なる画像処理で .applyInPandas(...) を活用
• 画像処理APIにアクセスするための簡潔なUDF構文 • 画像に対してより自然なpandas APIを活用 • Arrowに引き渡すデータのスキーマとデータ量を考慮 proc_df = df.select(<only cols for pandas function>) … rtn_schema = df.select(<return cols>).withColumn(“x”,...)... • 自分の pandas 関数を活用 rtn_df = proc_df.groupBy(<image_id or set>).applyInPandas(rtn_schema) • 特徴量を用いてバイナリー画像データを効率的に再構成するためにSparkを活用 full_df = rtn_df.join(df,<on-image-key>,”leftouter”)

©2024 Databricks Inc. — All rights reserved 格納時の圧縮の無効化格納しようとしているデータの大部分が画像特徴量ではなく画像データの場合には、圧縮を無効化します。これによって、画像が最初から圧縮フォーマットである場合には、読み書きを劇的に高速化します。
(ここでは.pngを使いました) # Save spark.conf.set("spark.sql.parquet.compression.codec", "uncompressed") ( full_df.write .format('delta') .mode('append') .option('mergeSchema',True) .save('/mnt/datalake/interesting_images') ) # Set compression back to what it was spark.conf.set("spark.sql.parquet.compression.codec", compression)

画像管理をサポートするUnity Catalog

©2024 Databricks Inc. — All rights reserved Unity Catalogガバナンスによる非テーブルデータ
へのアクセス、格納、整理、処理データサイエンス、機械学習を含む任意のファイルの新たな処理機能の解放すべてのファイルフォーマット。構造化、半構造化、非構造化データ UI、Spark API、FUSE、dbutils、REST、SQL、 Databricks CLI、Terraform経由でアクセス可能なファイルボリューム 58 Unity Catalogにおけるファイルのカタログコレクション

©2024 Databricks Inc. — All rights reserved Unity Catalogにおけるボリューム非テーブルデータのアクセス、格納、制御、整理、処理
* 59 - ボリュームタイプ: マネージド、外部 - Unity Catalogで集中管理される3レベルの名前空間で整理されるファイル <catalog>.<schema>.<volume_name> - Hadoop分散ファイルシステムの実装、FUSEサポート - パス Hadoop [dbfs:]/Volumes/<catalog>/<schema>/<volume>/<path>/<file_name> FUSE /Volumes/<catalog>/<schema>/<volume>/<path>/<file_name> - ANSI SQLのGRANTやREVOKEコマンドをベースとしたガバナンスモデル - ボリュームレベル - カタログエクスプローラやノートブックのファイル参照、管理のためのユーザインタフェース - API(Spark、dbutils、REST、SQL、ローカルファイルシステム)やDatabricks CLI経由でアクセスできるコンテンツ * テーブルではなくファイルとして直接アクセスできるデータ

©2024 Databricks Inc. — All rights reserved Unity Catalogにおけるボリューム 60
Unity Catalogガバナンスによるファイルのアクセス、格納、整理、処理 - ボリュームは以下のような非テーブルデータに対するガバナンスを追加します - MLで活用される画像、音声、動画、 PDFファイルのような非構造化データ - MLモデルトレーニングで活用される半構造のトレーニング、検証、テストデータセット - ad-hocや初期段階のデータ探索で使用される生のデータ、保存されるアウトプット - ワークスペース横断で利用されるライブラリ、設定ファイル - ロギングやチェックポイントの出力ファイルのようなオペレーションデータ - … - 一方でテーブルはテーブルデータセットに対するガバナンスを提供します * テーブルではなくファイルとして直接アクセスできるデータ

©2024 Databricks Inc. — All rights reserved 61 すべてのワークロードに対する自動リネージ •
Databricksクラスター、SQLウェアハウスにおける実行時データリネージ自動キャプチャ • テーブル、カラムレベルのリネージ • Unity Catalogの共通権限モデルの活用 • テーブル、ダッシュボード、ワークフロー、ノートブック、特徴量テーブル、ファイル、 DLTのリネージ組織におけるデータフロー、データ活用に対するエンドツーエンドの可視性

ハンズオン

ハンズオンで学ぶ Databricks - Databricksにおける機械学習、画像処理

ハンズオンで学ぶ Databricks - Databricksにおける機械学習、画像処理

More Decks by Takaaki Yayoi

Other Decks in Technology

Featured

Transcript