Databricks Free Edition講座データサイエンス編

Databricks Free Edition Databricks Japan 弥生隆明 2026/1/28 データサイエンス編 1

自己紹介弥生隆明 (やよいたかあき) シニアスペシャリストソリューションアーキテクト ▪ 2020年からデータブリックス
ジャパンにおいて、プレセールス、POCに従事 ▪ 生成AI、データエンジニアリング、アプリが専門領域です。 ▪ 前職はコンサル、総合電機メーカーにてデータ分析・Webサービス構築などに従事。インド赴任経験あり。 ▪ Databricks Certiﬁed (Data Engineer | Machine Learning) Professional, Generative AI Engineer Associate ▪ Qiitaでいろいろ書いています。 2 @taka_aki

本日のアジェンダ 3 Part 1 90分ノートブックによるモデル開発実践 •機械学習とは何か •scikit-learnによるモデル開発
•MLflowによる実験管理 •デモ: パイプライン構築 Part 2 90分 MLOpsによる業務品質のモデル開発 •なぜMLOpsが必要か •這う・歩く・走るアプローチ •Unity Catalog / MLflow •デモ: Model Registry 実践演習 90分 scikit-learn+MLflowで機械学習ワークフロー •データ準備と特徴量エンジニアリング •パイプライン構築とモデル学習 •実験管理と結果比較 •モデル登録とバッチ推論データエンジニアリング編で学んだSpark/Delta Lake/パイプラインの知識を土台に学びます

生成AIの時代にDSを学ぶ意義は？ 1 問いを立てる力 AIは「答え」を出すが「問い」を立てるのは人間何を解くべきか？を定義できる人材が必要 2 データを見極める力 Garbage
In, Garbage Out ゴミを入れればゴミが出るデータの品質を判断する力は自動化できない 3 AIを制御する力 AIを使いこなすにはAIの仕組みを理解する必要ブラックボックスのままでは適切な判断ができない DSを学ぶことは、AIを「使われる側」から「使いこなす側」になること 4

なぜ今、古典的 MLを学ぶのか？ 1 解釈可能性・説明責任なぜその予測になったか説明できる医療・金融・法律など規制産業では必須 2 効率性とコスト GPUなしで動作、推論も高速小〜中規模データでは精度も十分
3 ML基礎理論の習得過学習、バイアス-バリアンス、交差検証 DL/LLMを正しく使う土台になる実務の80%以上の課題は古典的MLで解決可能 — DL/LLMは「必要なとき」に使う 5

古典的ML vs DL/LLM — 適材適所で使い分ける古典的ML 線形回帰 / 決定木 /
Random Forest / XGBoost 向いているケース・構造化データ(テーブルデータ) ・説明責任が求められる場面・データ量が少〜中規模・リアルタイム推論が必要・計算リソースに制約がある ⇄ DL / LLM CNN / Transformer / GPT / BERT 向いているケース・非構造化データ(画像/音声/テキスト) ・パターンが複雑で定義困難・大量のデータがある・精度が最優先・GPUなど計算資源が潤沢両方を理解して初めて「最適な手法の選択」ができる — それがデータサイエンティストの価値 6

Part 1: ノートブックによるモデル開発実践 7

学習目標 8 全体データエンジニアリング編で習得したDatabricksの基礎(Spark、データフレーム、Delta Lake、パイプライン)を土台に、機械学習の基本概念からMLOpsによる本番運用まで、一貫したワークフローを体験する。 Part 1 •
機械学習の基本概念と用語を理解する • Databricksにおける機械学習ワークフローを体験する • scikit-learnを用いたモデル開発の基礎を習得する • MLﬂowによる実験管理の基本を理解する

機械学習とは何か 9

機械学習とは機械学習がどう言うものかを説明する前に、機械学習が活用されるデータサイエンスのプロセスを説明します。質問仮説実験分析結果の分析・解釈結果の提供・
コミュニケーション 10

機械学習とはデータサイエンスは、さまざまなデータから知見を抽出するために 3つのスキルが求められます。ドメイン知識コンピューターサイエンス応用統計学データサイエンス 11

機械学習とは以下のようにデータサイエンスを定義できます。データサイエンスは、特定ドメインにおいて知見を抽出し、適用するための科学的なプロセスでデータを活用することを目的とした、ドメイン知識、応用統計学、コンピューターサイエンス、そして、機械学習から構成される複数の学問分野にまたがる領域です。 12

機械学習とはデータサイエンスプロジェクトを成功に導くには、いくつか注意する点があります。質問仮説実験分析結果の分析・解釈結果の提供・
コミュニケーション実世界の問題のフレーミング計測可能な実世界の目標制約、ベースラインソリューション全体の継続的計測 13

機械学習とは機械学習はデータサイエンスで用いられる、応用統計学とコンピューターサイエンスを組み合わせた技術です。コンピューターサイエンス応用統計学機械学習 14

機械学習とは機械学習はデータサイエンスで用いられる、応用統計学とコンピューターサイエンスを組み合わせた技術です。機械学習(Machine Learning) タスクを実行するために、コンピュータに対して明示的にプログラムを行うのではなく、機械学習においてはコンピュータがタスクの実行方法を学習します。 15

機械学習とは機械学習の詳細に行く前に、「機械学習ではない」明示的なプログラミングの例を見ておきましょう。今日は雨が降るでしょうか？コンピューターにプログラミングします ... If If Then これは機械学習ではありません 16

機械学習とは明示的にタスクをプログラムすることなしに、コンピューターはタスクの実施方法を学習します。 P( ) 17

機械学習とは機械学習アルゴリズムはデータから学習を行います。日付湿度雲量雨 2020-08-27 65% 82% Yes
2020-08-28 62% 55% Yes 2020-08-29 30% 12% No 2020-08-30 95% 100% Yes 2020-08-31 82% 40% Yes 2020-09-01 40% 15% No 2020-09-02 21% 9% No 18

機械学習とは機械学習の利点とは何でしょうか？ ❏ より精度の高い予測 ❏ 大量のデータ(行数)への対応 ❏ 大量の特徴量(列数)への対応 ❏ 人の負荷の削減
19

機械学習とは明示的にタスクをプログラムすることなしに、コンピューターはタスクの実施方法を学習します。 P( ) 20

機械学習とは機械学習にはいくつかのタイプが存在します。前述の例は「教師あり学習」です。日付湿度雲量雨 2020-08-27 65% 82% Yes
2020-08-28 62% 55% Yes 2020-08-29 30% 12% No 教師あり学習では、アルゴリズムは入出力のサンプルに基づき、入力・出力をマッピングする関数を学習します 21

機械学習とは教師あり学習の例には以下のようなものがあります。 ❏ どのくらいの雨量になるのか？ ❏ いつ在庫切れが起きるのか？ ❏ 患者に対してこの治療法は有効か？ ❏ 立候補者は何票獲得するのか？
22

機械学習とは教師あり学習で使用した教師データ (ラベル)が存在しない場合でも、「教師なし学習」を活用できる場合があります。教師なし学習では、アルゴリズムは既存のラベルなしに入力データ間の関係性を理解しようとします日付湿度雲量雨
2020-08-27 65% 82% Yes 2020-08-28 62% 55% Yes 2020-08-29 30% 12% No 23

機械学習とは教師なし学習の例には以下のようなものがあります。 ❏ 購買行動に基づいて顧客をグルーピングできるか？ ❏ 症状に基づいて患者をグルーピングできるか？ ❏ 他のトランザクションと異なる不正行為と思われるトランザクションを特定することができるか？ 24

機械学習とは雨の予測にもいくつかのパターンが存在します。以下のいずれも教師あり学習で解く問題です。 P( ) 降水確率雨量 25

機械学習とは「雨かそうでないか」を予測する場合、 2つのクラスのどちらかを予測する「分類 (Classification)」問題となります。 P( ) 降水確率日付雨 2020-08-27
Yes 2020-08-28 Yes 2020-08-29 No 分類は教師あり学習のサブセットであり、モデルは事前定義済みのクラスの中からどのクラスであるのかを予測しようとします 26

機械学習とは分類の例には以下のようなものがあります。 ❏ 誰が選挙に勝つかを予測できるか？ ❏ どのチームがサッカーの試合に勝つかを予測できるか？ ❏ 画像の中にあるのがどの果物であるかを予測できるか？ 27

機械学習とは「どのくらいの量の雨が降るのか」を予測する場合、ラベルの値を予測する「回帰 (Regression)」問題となります。日付雨 2020-08-27 10 mm 2020-08-28 15
mm 2020-08-29 0 mm 回帰は教師あり学習のサブセットであり、モデルは連続的なラベルの値に基づき定量的な値を予測しようとします雨量 28

機械学習とは回帰の例には以下のようなものがあります。 ❏ 候補者が何票獲得するのかを予測できるか？ ❏ 試合でサッカーチームが何点獲得するのかを予測できるか？ 29

機械学習とは「教師なし学習」はラベルが存在しない場合でも、データ間の関係性の理解に活用することができます。教師なし学習では、アルゴリズムは既存のラベルなしに入力データ間の関係性を理解しようとします日付湿度雲量雨 2020-08-27
65% 82% Yes 2020-08-28 62% 55% Yes 2020-08-29 30% 12% No 30

機械学習とは教師なし学習の一例として「クラスタリング」があります。日付湿度雲量雨 2020-08-27 65% 82% Yes
2020-08-28 62% 55% Yes 2020-08-29 30% 12% No 2020-08-30 95% 100% Yes 2020-08-31 82% 40% Yes 2020-09-01 40% 15% No 2020-09-02 21% 9% No クラスター1 クラスター2 クラスター3 • 類似するレコードには類似する特徴量が含まれます。 • 事前にクラスター数を決めておく必要があります。 31

機械学習とは機械学習のワークフローを説明します。データ探索データクレンジング特徴量エンジニアリングモデル開発モデル評価モデルデプロ
イメント 32

機械学習とは機械学習ワークフローとデータサイエンスのプロセスの関係は以下のようになります。データ探索データクレンジング特徴量エンジニアリングモデル開発モデル評価モデルデプロ
イメント質問仮説実験分析結果の分析・解釈結果の提供・コミュニケーション 33

Databricksプラットフォーム概要 34

MLライフサイクル全体をシンプルにするプラットフォームが存在するとしたらどうでしょうか？ 35

ここでDatabricksの出番です 36

Databricksは、データサイエンスの取り組みをシンプルにするお手伝いをしますデータアクセス探索的データ分析特徴量エンジニアリングモデルチューニングモデルトレーニング
実験トラッキングモデル管理 CI / CD モデルサービングモデル監視維持 & ガバナンス ML / DevOps エンジニアデータエンジニアデータ /ML サイエンティストデータサイエンスで最もハードなのはデータです実験は複雑なものです MLの本格運用は困難です 37

データチームをまとめあげるコラボレーティブワークスペースを提供します Data Access Exploratory Data Analysis Feature Engineering Model
Tuning Model Training Experiment Tracking Model Management CI / CD Model Serving Model Monitoring Maintenance & Governance < Data Engineers> < Data Scientists > < MLOps + DevOps > データ / ML サイエンティスト ML / DevOps エンジニア The hardest part of data science is data 実験は複雑なものです MLの本格運用は困難ですコラボレーティブデータ探索ワークスペースビルトインのデータ準備機能 | ネイティブの可視化機能 | 最適化されたランタイム 38

そして、MLライフサイクル全体をサポートする環境を提供します Data Access Exploratory Data Analysis Feature Engineering Model
Tuning Model Training Experiment Tracking Model Management CI / CD Model Serving Model Monitoring Maintenance & Governance < Data Engineers> < Data Scientists > < MLOps + DevOps > ML / DevOps エンジニア The hardest part of data science is data Experimentation is complex MLの本格運用は困難ですコラボレーティブデータ探索ワークスペースビルトインのデータ準備機能 | ネイティブの可視化機能 | 最適化されたランタイム実験環境特徴量ストア | 実験トラッキング | モデルレジストリ 39

大規模データサイエンス運用のためのツールも提供します Data Access Exploratory Data Analysis Feature Engineering Model Tuning
Model Training Experiment Tracking Model Management CI / CD Model Serving Model Monitoring Maintenance & Governance < Data Engineers> < Data Scientists > < MLOps + DevOps > The hardest part of data science is data Experimentation is complex Productionizing ML is difﬁcult コラボレーティブデータ探索ワークスペースビルトインのデータ準備機能 | ネイティブの可視化機能 | 最適化されたランタイム実験環境特徴量ストア | 実験トラッキング | モデルレジストリ MLOps + DevOpsの本格運用 Git連携 | モデルサービング | モデル監視 40

Databricks: 完全なデータサイエンス /MLプラットフォーム Exploratory Data Analysis Data Visualization Feature Selection
Model Tuning Model Training Experiment Tracking Model Management CI / CD Model Serving Model Monitoring Maintenance & Governance < Data Scientists > < DevOps > コラボレーティブデータ探索ワークスペースビルトインのデータ準備機能 | ネイティブの可視化機能 | 最適化されたランタイム実験環境特徴量ストア | 実験トラッキング | モデルレジストリ MLOps + DevOpsの本格運用 Git連携 | モデルサービング | モデル監視 41

Databricksにおける機械学習 MLライフサイクル全体に対するデータネイティブ、コラボレーティブなソリューションによるオープンなデータレイクハウス基盤 MLOps / ガバナンスデータ準備データのバージョン管理モニタリング
バッチスコアリングオンラインサービングモデルトレーニングモデルチューニングランタイム環境 Feature Store バッチ (高スループット) リアルタイム (低レーテンシー) AutoML データサイエンスワークスペース 42

デモ：Databricks ML環境の確認 43

「這う・歩く・走る」の哲学 44

走る • プロダクションに移行 • CI/CDと開発プロセスの実装 • エンドツーエンドかつ部門間の自動化と再現性の確保
歩いて • 徐々にデータとワークロードをスケールさせる • 自動化と再現可能な DS/MLワークロードの自動化と再現 • 組織内でスケールさせる這って • 慣れ親しんだツールを使い続ける • より生産的に • 未来に備える Databricksにおける機械学習・生成 AI構築の哲学 45

這って • 慣れ親しんだツールを使い続ける • より生産的に • 未来に備えるステージ1 ディープラーニングワークフローの例
走る • プロダクションに移行 • CI/CDと開発プロセスの実装 • エンドツーエンドかつ部門間の自動化と再現性の確保歩いて • 徐々にデータとワークロードをスケールさせる • 自動化と再現可能な DS/MLワークロードの自動化と再現 • 組織内でスケールさせる 46

scikit-learnによるモデル開発 47

Databricks Free Editionでの機械学習サーバーレス環境における実践的アプローチ Free Edition の特徴 •サーバーレスコンピュート環境 •Unity Catalog統合
•MLflow実験管理 •Delta Lake対応制約事項 •SparkMLは利用不可(サーバーレス制約) •セッションメモリに上限あり •クラスター設定のカスタマイズ不可推奨アプローチ •データI/O: Spark DataFrame + Delta Lake •ML処理: scikit-learn (pandas経由) •実験管理: MLflow Tracking •モデル管理: MLflow Model Registry ポイント: Free Editionでも本格的なML開発サイクルを体験可能本講義ではscikit-learn + MLflowを用いた実践的なワークフローを学びます 48

MLワークフロー全体像 Spark DataFrame → pandas → scikit-learn → MLflow Step
1 Delta Lake データ読込 → Step 2 Spark DF 前処理・変換 → Step 3 .toPandas() 変換 → Step 4 scikit-learn モデル学習 → Step 5 MLflow 記録・管理データ層 (Spark) •大規模データの効率的な読み込み •分散処理による前処理 •Delta Lakeによるデータ管理 •SQLによるデータ探索 ML層 (scikit-learn) •豊富なアルゴリズム群 •Pipeline による処理統合 •モデル学習と評価 •ハイパーパラメータ調整管理層 (MLflow) •実験の追跡と比較 •パラメータ・メトリクス記録 •モデルのバージョン管理 •Unity Catalog連携各層の責務を明確に分離し、スケーラブルかつ再現可能なML開発を実現 49

scikit-learnパイプライン前処理からモデル学習までを一貫したワークフローに Transformer データを変換する。 fit()で学習、transform()で適用。 scaler.fit(X_train) X_scaled = scaler.transform(X_test) 例:
StandardScaler, OneHotEncoder Estimator データから学習してモデルを構築する。 fit()とpredict()を持つ。 model.fit(X_train, y_train) y_pred = model.predict(X_test) 例: LogisticRegression, RandomForest パイプライン : 複数のステップを連結 Transformer StandardScaler → Estimator LogisticRegression → Output Trained Pipeline pipeline = Pipeline([('scaler', StandardScaler()), ('clf', LogisticRegression())]) pipeline.fit(X_train, y_train) # 全ステップを順番に実行メリット1: データリークを防止 (test dataへのfit漏れを防ぐ) メリット2: 再現性確保 (前処理とモデルをセットで保存 ) メリット3: MLflowで一括管理可能 SparkML Pipelineと同様の概念構造 - 大規模データ処理時はSparkML、小中規模はscikit-learn 50

scikit-learn コード例ワイン品質予測モデルの構築データ準備と Pipeline構築 # Spark DFからpandasに変換 pdf =
spark.table("wine").toPandas() X = pdf.drop("quality", axis=1) y = (pdf["quality"] >= 6).astype(int) # 学習/テストデータ分割 X_train, X_test, y_train, y_test = \ train_test_split(X, y, test_size=0.2) # Pipeline定義 pipeline = Pipeline([ ("scaler", StandardScaler()), ("clf", LogisticRegression()) ]) 学習と評価 # モデル学習 pipeline.fit(X_train, y_train) # 予測 y_pred = pipeline.predict(X_test) # 評価 from sklearn.metrics import accuracy_score acc = accuracy_score(y_test, y_pred) print(f"Accuracy: {acc:.3f}") Point: VectorAssembler不要 - sklearnは列ベースのDataFrameを直接受け付けます pipeline.fit()で前処理からモデル学習まで一括実行 51

MLflowによる実験管理パラメータ・メトリクス・モデルを一元管理 MLflow Tracking import mlflow with mlflow.start_run(): mlflow.log_param("C", 1.0)
pipeline.fit(X_train, y_train) mlflow.log_metric("acc", acc) mlflow.sklearn.log_model(pipeline, "model") Autologging (推奨) mlflow.autolog() pipeline.fit(X_train, y_train) MLflow Tracking UI Run C Accuracy run_001 1.0 0.823 run_002 10.0 0.856 Params ハイパーパラメータ Metrics 評価指標 Artifacts モデル・図表 Databricks Free EditionではMLflowが統合済み。Unity Catalogと連携してモデルのガバナンスも実現 52

モデル評価指標分類モデルと回帰モデルの評価分類モデルの評価指標 Accuracy(正解率) 正しく分類された割合 Precision / Recall 適合率と再現率のトレードオフ F1
Score Precision/Recallの調和平均 AUC-ROC ROC曲線下の面積。 1に近いほど良い回帰モデルの評価指標 RMSE 二乗平均平方根誤差。小さいほど良い MAE 平均絶対誤差。外れ値に強い R2 決定係数。1に近いほど良い sklearn.metricsでの評価 from sklearn.metrics import accuracy_score, f1_score acc = accuracy_score(y_test, y_pred) f1 = f1_score(y_test, y_pred) ビジネス課題に応じて適切な評価指標を選択することが重要です 53

デモ：scikit-learnパイプラインの構築 54

参考：SparkMLとは pyspark.ml - 分散処理対応の機械学習ライブラリ SparkMLの特徴 •DataFrameベースのAPI(RDDベースのMLlibは非推奨) •Sparkの分散処理エンジン上で動作 •大規模データセットに対応 •パイプラインによるワークフロー構築
なぜSparkMLを使うのか •データエンジニアリングと同じSpark基盤 •ETLからモデル学習まで一貫したワークフロー •クラスター上でスケールアウト可能主要モジュール pyspark.ml DataFrame API(推奨) pyspark.mllib RDD API(非推奨) サポートするアルゴリズム分類回帰クラスタリング協調フィルタリング特徴量抽出 Sparkの知識がそのまま活かせます 55

SparkML Pipelineの基本概念 Transformer / Estimator / Pipeline Transformer DataFrameを別のDataFrameに変換する。transform()メソッドを持つ。 df_out
= transformer.transform(df_in) 例: VectorAssembler, StringIndexer, StandardScalerModel Estimator データから学習して Transformerを生成する。fit()メソッドを持つ。 model = estimator.fit(df_train) 例: LogisticRegression, DecisionTreeClassifier, StandardScaler Pipeline: 複数のステージを連結 Transformer StringIndexer → Transformer VectorAssembler → Estimator LogisticRegression → Output PipelineModel pipeline.fit(df) で全ステージを順番に実行し、 PipelineModelを生成 Pipelineで前処理からモデル学習まで一貫したワークフローを管理 56

pandas + scikit-learn vs SparkML 従来のMLワークフローとの比較 pandas + scikit-learn 処理方式
単一マシンのメモリ上で処理データサイズメモリに収まる範囲(数GB程度) エコシステム豊富なライブラリ、広いコミュニティ学習コスト低い(入門しやすい) vs SparkML (pyspark.ml) 処理方式クラスター上で分散処理データサイズ TB〜PB規模のビッグデータ対応エコシステム ETLと統合、Delta Lake連携学習コスト中程度(Sparkの理解が必要) 57

Pros / Cons 比較ユースケースに応じた選択 pandas + scikit-learn Pros •アルゴリズムが豊富(XGBoost,
LightGBMなど) •デバッグが容易 •プロトタイピングが高速 •ドキュメント・チュートリアルが充実 Cons •メモリに収まらないデータは処理不可 •スケールアウトが困難 •ETLパイプラインとの統合が別途必要 SparkML Pros •大規模データに対応(TB〜PB) •ETLと同じ基盤で一貫したワークフロー •クラスタリソースで並列処理 •Delta Lake/Unity Catalogとシームレス連携 Cons •アルゴリズムの種類が限定的 •小規模データではオーバーヘッド •分散処理の理解が必要 58

使い分けの指針データ規模と要件で選択 pandas + scikit-learn を選ぶ場合 •データがメモリに収まる(数GB以下) •プロトタイピング・実験フェーズ •高度なアルゴリズムが必要(XGBoost等) •単発の分析タスク
SparkML を選ぶ場合 •大規模データ(数十GB以上) •本番運用・定期バッチ処理 •ETLパイプラインとの統合が必要 •データエンジニアリングと同じ基盤で統一ハイブリッドアプローチ (ベストプラクティス) 小規模サンプルで scikit-learnによるプロトタイピング → 本番ではSparkMLでスケール Databricksなら両方使える pandas API on Spark も活用可能 59

MLﬂowによる実験管理 60

Databricksにおける機械学習 MLライフサイクル全体に対するデータネイティブ、コラボレーティブなソリューションによるオープンなデータレイクハウス基盤 MLOps / ガバナンスデータ準備データのバージョン管理モニタリング
バッチスコアリングオンラインサービングモデルトレーニングモデルチューニングランタイム環境 Feature Store バッチ (高スループット) リアルタイム (低レーテンシー) AutoML データサイエンスワークスペース 61

エンドツーエンドの MLOps / ガバナンスデータサイエンスワークスペースデータ投入データバージョン管理モデルトレーニング
モデルチューニングランタイム環境モニタリングバッチスコアリングオンラインサービングデータガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンス Powered by 62

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンスデータソース/リネージュデータのバージョン自動データソースキャプチャ、バージョン管理
63

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンス特徴量レベルのデータリネージュ/利用特徴量利用の自動キャプチャ
64

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンスパラメーターメトリクスモデル
アーティファクト MLメトリクス、パラメーター、アーティファクトなどの自動キャプチャ 65

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンストライアルハイパーパラメーター検索の自動キャプチャ 66

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンスコードのバージョンクラスター設定
環境設定コード、環境、クラスター設定の自動キャプチャ 67

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンスモデルの検索モデルのステージベースのACL
モデルの共有、再利用、 ACL 68

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンスステージ変更に対する承認プロセスモデル変更に
対する監査ログ自動化されたモデルリネージュ、ガバナンス 69

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンスモデルのバージョン管理、ステージ管理と連携するターンキーのモデルサービング
ターンキーのモデルサービング 70

コードのバージョンデータのバージョンクラスター設定環境設定オートロギング再現性チェックリストランの再現機能データガバナンスエクスペリメントのトラッキング
再現性の確保モデルガバナンス Powered by ✓ ✓ ✓ ✓ 結論: 完全なエンドツーエンドのガバナンスと再現性の確保 71

MLのオートロギング : 1 行のコードでパラメータ、メトリクスデータリネージュ、モデルと環境を記録 mlflow.autolog() による開発の追跡と結果の分析
UIあるいはプログラムによる分析 • パラメーターXのチューニングはメトリックにどの様な影響が？ • ベストモデルはどれか？ • 十分長い時間トレーニングを実行したか？データバージョンを含むパラメーター、タグモデル、環境、アーティファクトメトリクス 72

デモ：MLﬂowによる実験トラッキング 73

Part1 まとめノートブックによるモデル開発実践機械学習の基礎 •教師あり学習: 分類・回帰 •教師なし学習: クラスタリング •モデル評価指標の選び方 Databricks
ML機能 •コラボレーティブワークスペース •実験環境(MLflow/特徴量ストア) •MLOps/ガバナンス基盤 SparkMLパイプライン •Transformer / Estimator •Pipelineによるワークフロー構築 •大規模データ対応の分散ML MLflowによる実験管理 Tracking パラメータ・メトリクス・モデルを自動記録 Experiments 実験の比較・可視化・再現性確保 Models モデルのバージョン管理・登録 Next: Part2 MLOpsによる業務品質のモデル開発サイクル這う・歩く・走るの3ステージで本番運用へ → Part2へ 74

Part 2: MLOpsによる業務品質のモデル開発 75

学習目標 76 全体データエンジニアリング編で習得したDatabricksの基礎(Spark、データフレーム、Delta Lake、パイプライン)を土台に、機械学習の基本概念からMLOpsによる本番運用まで、一貫したワークフローを体験する。 Part 2 •
MLOpsの必要性と概念を理解する • 「這う・歩く・走る」アプローチの実践方法を学ぶ • Unity Catalog、MLﬂow、Feature Storeの役割を理解する • モデルのデプロイメントとモニタリングの基礎を習得する

なぜMLOpsが必要なのか 77

MLOpsとは前章では機械学習とは何か、どのようなモデルを構築するのかを説明しました。しかし、これで終わりではありません！データ探索データクレンジング特徴量エンジニアリングモデル開発モデル評価モデルデプロ
イメント質問仮説実験分析結果の分析・解釈結果の提供・コミュニケーション機械学習モデルを活用してビジネス価値を創出し続けるためには、モデルを運用し続ける必要があります 78

ML コード設定データ収集データ検証特徴量エンジニアリング計算リソース管理
分析ツールプロセス管理ツールインフラストラクチャの提供モニタリング “Hidden Technical Debt in Machine Learning Systems,” Google NIPS 2015 図1: 上の図に示すように、MLコードは実世界におけるMLシステムのほんの一部です。必要となる周辺のインフラストラクチャは広大かつ複雑なものとなります。 MLにおいて最も難しいのは MLではなくデータ 79

“これはとても複雑なことになっているぞ ” のデータサイエンスプロジェクトは本格運用の前に中断されています。のAIプロジェクトは決して本格配備に到達しません。のMLプロジェクトは本格配備の前のどこかで
頓挫しています。その通りです。そう感じているのはあなただけではありません。 87% 80% 78% 80

データエンジニア x データサイエンティスト MLOpsとはデータ、MLに必要な技術、チームはサイロ化されています。 81

• 場当たり的な実験追跡アプローチ • 実験の再現性確保が困難データ準備 • 複数の複雑なデプロイメントオプション •
フレームワークごとに異なるモニタリングアプローチモデル構築モデルのデプロイ • データとMLの連携不足 • モデルで使用されるデータの追跡が困難 MLOpsとは MLのライフサイクルは手動であり、一貫性がなく分断されています。 82

標準化が必要です 83

MLOpsとは MLOpsとは機械学習モデルライフサイクル全般を円滑にするために必要な体制・基盤・手法全般を意味します。 MLOps(Machine Learning Operations)とは、データサイエンスチーム、運用チームなど、機械学習モデルの構築・運用に関わるチームが協調し、円滑に機械学習モデルを運用していくための体制・基盤を構築すること、その概念全般を意味します。 84

MLOpsは恒常的なモデル運用には不可欠ですデータアクセス探索的データ分析特徴量エンジニアリングモデルチューニングモデルトレーニング実験
トラッキングモデル管理 CI / CD モデルサービングモデル監視維持 & ガバナンス 85

なぜMLOpsはそれほど難しいのでしょうか？ The story of enterprise Machine Learning: “It
took me 3 weeks to develop the model. It’s been >11 months, and it’s still not deployed.” @DineshNirmallBM #StrataData #strataconf 10:19 AM - Mar 7, 2018 • TweetDeck 企業における機械学習の物語：モデル構築に3週間かかったけど、 11ヶ月以上経ってもデプロイされていません。 86

孤立したデータチーム主流のソフトウェアエンジニアリングオペレーションとの統合の欠如 The story of enterprise Machine Learning: “It
took me 3 weeks to develop the model. It’s been >11 months, and it’s still not deployed.” @DineshNirmallBM #StrataData #strataconf 10:19 AM - Mar 7, 2018 • TweetDeck 混沌としたツールチェイン環境に散在する異なる目的に特化したML ツール実世界で求められるパフォーマンスの欠如時間経過に伴うモデルドリフト、貧弱な観察可能性、説明可能性企業における機械学習の物語：モデル構築に3週間かかったけど、 11ヶ月以上経ってもデプロイされていません。なぜMLOpsはそれほど難しいのでしょうか？ 87

データサイエンスと機械学習はチームスポーツです。しかし、3つの問題が障害となっています。データアクセス探索的データ分析特徴量エンジニアリングモデルチューニングモデルトレーニング
実験トラッキングモデル管理 CI / CD モデルサービングモデル監視維持 & ガバナンス ML / DevOps エンジニアデータエンジニアデータ /ML サイエンティスト 88

データサイエンスと機械学習はチームスポーツです。しかし、3つの問題が障害となっています。データアクセス探索的データ分析特徴量エンジニアリングモデルチューニングモデルトレーニング
実験トラッキングモデル管理 CI / CD モデルサービングモデル監視維持 & ガバナンス ML / DevOps エンジニアデータエンジニアデータ /ML サイエンティストデータサイエンスで最もハードなのはデータです実験は複雑なものです MLの本格運用は困難です 89

MLOpsとは MLOpsにおいては共通的な課題が存在しています。 ▪ サイロ化 ▪ MLプロセスのそれぞれが異なる部門に依存しています。 ▪ 再現性の確保 ▪ MLの実験を再現可能、監査可能にするのが困難です。
▪ MLの結果は常に使用されたデータのバージョンに依存します。既存MLモデルのメンテナンスは面倒で時間を浪費するものです！ 90

MLOpsとは MLOpsでは以下のゴールを達成する必要があります。 • チームスポーツです！DE、DS、Opsメンバーが協働する必要があります。 • エンドツーエンドのMLライフサイクルの自動化 • 再現性のあるMLパイプラインの構築 ◦ コードのバージョン管理
(モデル、データ処理) - Azure DevOps, Github, ... ◦ 設定のバージョン管理 (モデル、デプロイ) - Terraform, ... ◦ データのバージョン管理 - Delta, ... • モデルトレーニング、デプロイのための再利用可能なソフトウェア環境 • モデルの追跡、パッケージ、デプロイ • エンドツーエンドのMLライフサイクルのデータガバナンス • 運用、ML関連の課題に対するMLアプリケーションのモニタリング • MLライフサイクルにおけるイベントの通知、アラート 91

MLOpsとは MLOpsでは以下のゴールを達成する必要があります。 • データとモデルのテスト・検証を追加することで、継続的インテグレーション (CI) はコードのテスト・検証を拡張します。 • 継続的デリバリー (CD) は、新たなMLモデル予測サービスを自動でデプロイ
するMLトレーニングパイプラインのデリバリーに関するものです • 継続的トレーニング (CT) は、再デプロイのためにMLモデルを自動で再トレーニングを行います。 • 継続的モニタリング (CM) は、ビジネスメトリクスに関係するプロダクションデータ、モデルパフォーマンスのモニタリングに関するものです。 92

MLOpsとは、MLシステムのパフォーマンス、安定性、長期的な効率性を改善するための MLOpsとは？ 93 データ、コード、モデルの管理に対する一連のプロセスと自動化処理です MLOps =
DataOps + DevOps + ModelOps

「這う・歩く・走る」の実践 94

這って • 慣れ親しんだツールを使い続ける • より生産的に • 未来に備えるステージ1 ディープラーニングワークフローの例

慣れ親しんだツールを使う一般的なツール DatabricksではノートブックやIDE Databricksノートブック、ホストされたR Studio、ローカルIDE 言語 Python, R, SQL,
Scala, Java MLライブラリ事前パッケージ済みライブラリ + 自分でライブラリをインストール Git 自動ノートブックバージョン管理、 Gitリポジトリとワークスペースの同期データ Pandas, Spark, Koalas; 任意のデータソースやフォーマット可視化 Plotly, Matplotlib, Seaborn インテグレーション任意のライブラリ、システム、サービスとインテグレーションする APIとクラウドネイティブのプラットフォーム 96

ポータビリティのために OSS標準を確立ビッグデータ処理レイクハウスアーキテクチャ ML トラッキング MLOps 探索的
データ分析 Apache Software Foundation Linux Foundation Linux Foundation Apache Spark 3.2 に同梱! 20M DL / 月 19M DL / 月 PyPi and Maven Centralからの月当たりのダウンロード数 (2021/11時点) 1.4M DL / 月 2.9M DL / 月 97

エンタープライズ向けエンタープライズレベルのアクセスコントロール、アイデンティティパススルー、監査コラボレーティブ共有とアクセス権によるリアルタイム同時編集再現可能性バージョン管理のための自動改訂記録とGit連携
ビジュアライゼーションビルトインの可視化と最も人気の可視化ライブラリのサポート (matplotlib, ggplotなど) 実験トラッキングメトリクス、パラメーター、アーティファクトなどを記録するビルトインのDS、MLエクスペリメントのトラッキング多言語 Scala, SQL, Python, R: すべてを一つのノートブックで DatabricksにおけるMLユーザー体験統合された機械学習 & データ分析のためのコラボレーティブな環境を提供 98

分析のセルフサービス計算資源ライブラリと環境人気のMLライブラリプラグ&プレイの環境 requirements.txt conda.yaml カスタマイゼーションオンデマンドでマシンやクラスターを起動
• オートスケール、自動停止 • クラスターポリシーによる管理オプション2: ユーザーやプロジェクトごとに分離された Python環境を用いてクラスターを共有オプション1: 自分のクラスターを使用 99

ステージ2 這って • 慣れ親しんだツールを使い続ける • より生産的に • 未来に備えるディープラーニングワークフローの例

もっと大きなボートが必要になるだろう 101

より大きハードウェアを使用 • どのシングルマシンMLライブラリでも動作 • 特徴量生成、トレーニング、チューニング、推論 • Databricks: リソースのリクエストと解放は簡単必要に応じてスケールアップ・スケールアウト 1マシンで
スケールアップシングルマシンのワークロードをスケールアウトそれぞれのクラスターノードでシングルマシンワークロードを実行 • どのシングルマシンMLライブラリでも動作 • 特徴量生成、チューニング、推論 • Databricks: クラスター、Spark、UDFを用いて簡単にスケールアウト分散アルゴリズムによるクラスターサイズに応じたスケールアウト • 分散MLライブラリ: Spark, XGBoost, TensorFlow, ... • トレーニング • Databricks: クラスター、Spark、UDFを用いて簡単にスケールアウト分散アルゴリズムを通じたスケールアウト GPU 102

データ準備特徴量エンジニアリングモデルトレーニングモデル評価モデルデプロイメントモデル
チューニングモデルモニタリング • Koalas • Sparkデータフレーム • Spark UDF • Feature Store • より大きなインスタンス • GPU • 分散トレーニング (Spark ML, HorovodRunnerなど) • Hyperopt • MLﬂow • バッチ & ストリーミング: ジョブ、 Sparkデータフレーム & UDF • オンラインサービング: Databricksモデルサービング & 外部のサービングシステム • MLﬂow 典型的な機械学習ワークフローにおけるスケーリング 103

再現性確保のための自動ロギングランを再現する機能 : ✓ ✓ ✓ ✓ コードバージョン管理データバージョン管
理クラスター設定環境の仕様再現性確保チェックリスト : プラットフォームにおけるジョブスケジューリング自動化: スケジュールアラート、リトライ、 API セキュリティ : クラスターポリシー | テーブルACL 自動化と再現性確保 104

特徴量の共有と本格運用特徴量の共有と検索リネージュベースの検索による Feature Storeの探索、ACLによって管理された再利用を促進します。トレーニングとサービングの一貫性の確保トレーニングとサービングの両方で同じ特徴量
が使用されることを保証します。モデルデプロイメントの整流化 MLﬂowモデルはどの特徴量が必要なのかを知っているので、MLOpsをシンプルにします。他のデータと特徴量の統合特徴量テーブルはDelta Lakeなので、高パフォーマンスでACIDトランザクションが保証されます。リネージュ追跡による特徴量の管理特徴量テーブルは自動で作成者や利用者を追跡し、プロダクションの安定性を保証します。 105

ステージ3 這って • 慣れ親しんだツールを使い続ける • より生産的に • 未来に備えるディープラーニングワークフローの例

モデルのライフサイクルステージングプロダクションアーカイブデータサイエンティスト MLエンジニア v1
v2 モデルトラッキング Flavor 2 Flavor 1 モデルレジストリ Custom Models コード内コンテナバッチ & ストリームスコアリングクラウド推論サービス OSSサービングソリューション Serving Parameters Metrics Artifacts Models Metadata モデルデプロイメントオプション 107

Databricksにおける MLOpsの例トレーニングモデル検証ジョブプロダクションのスコアリングジョブ、モデルサー
バーメールモデルバージョンの作成ステージングの新規モデルバージョンに対する Webhook テスト結果のコメント + プロダクションへの移行リクエストプロダクションの新規モデルバージョンに対する Webhook プロダクションへの移行がリクエストされたことを通知するメールを MLOps担当が受信新規プロダクションモデルを承認モデルレジストリ 108

部門を超えてスケール新たな問題を解決するために、皆様のチームの一員としてSMEや他のビジネスユニットと取り組みます。 • ビジネスリーダー • 技術エキスパート •
ソリューションアクセラレータ • カスタマーサクセスストーリー調整して構築する様々なチームと連携した我々の経験を活用し、統合プラットフォームを構築します: • DS/ML • DE • BI/アナリティクス • セキュリティ/インフラ • プラットフォーム成功を繰り返す新たなデータ問題に対して同じ様なツール、データアーキテクチャ、知識を適用します。組織内にDS/MLのCoEを構築します。企業内でスケールさせる 109

DatabricksのMLOpsツール 110

従来のカタログ全てのデータ +AIのガバナンスを統合テーブル AIモデルファイルノートブックダッシュボード全てのデータ&AI資産に対する単一の
オープンガバナンスモデルリネージ、監視、観測可能性によるデータへの信頼アクセス制御ディスカバリーリネージ監査セキュアなデータ共有品質監視コスト制御ビジネスセマンティクスセキュリティコラボレーション品質管理 111

112 すべてのワークロードに対する自動リネージ • Databricksクラスター、SQLウェアハウスにおける実行時データリネージ自動キャプチャ • テーブル、カラムレベルのリネージ • Unity
Catalogの共通権限モデルの活用 • テーブル、ダッシュボード、ワークフロー、ノートブック、特徴量テーブル、ファイル、 DLTのリネージ組織におけるデータフロー、データ活用に対するエンドツーエンドの可視性

モデルのライフサイクルステージングプロダクションアーカイブデータサイエンティスト MLエンジニア v1
v2 モデルトラッキング Flavor 2 Flavor 1 モデルレジストリ Custom Models コード内コンテナバッチ & ストリームスコアリングクラウド推論サービス OSSサービングソリューション Serving Parameters Metrics Artifacts Models Metadata モデルデプロイメントオプション 113

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンスモデルの検索モデルのステージベースのACL
モデルの共有、再利用、 ACL 114

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンスステージ変更に対する承認プロセスモデル変更に
対する監査ログ自動化されたモデルリネージュ、ガバナンス 115

Powered by データガバナンスエクスペリメントのトラッキング再現性の確保モデルガバナンスモデルのバージョン管理、ステージ管理と連携するターンキーのモデルサービング
ターンキーのモデルサービング 116

デモ：モデルレジストリの操作 117

特徴量の共有と本格運用特徴量の共有と検索リネージュベースの検索による Feature Storeの探索、ACLによって管理された再利用を促進します。トレーニングとサービングの一貫性の確保トレーニングとサービングの両方で同じ特徴量
が使用されることを保証します。モデルデプロイメントの整流化 MLﬂowモデルはどの特徴量が必要なのかを知っているので、MLOpsをシンプルにします。他のデータと特徴量の統合特徴量テーブルはDelta Lakeなので、高パフォーマンスでACIDトランザクションが保証されます。リネージュ追跡による特徴量の管理特徴量テーブルは自動で作成者や利用者を追跡し、プロダクションの安定性を保証します。 118

特徴量の定義特徴量テーブルトレーニングデータセットの生成バッチスコアリングオンラインサービング特徴量1 特徴量2 • 再利用、共有可能な特徴量計算ロジックの定義
顧客特徴量商品特徴量 ... ... • 任意の言語からクエリーできるテーブルとして特徴量を表現 • SQL、ACL、バージョン、パフォーマンス最適化保存 REST エンドポイントモデルサービングスナップショットロード公開 Feature Store 119

デプロイメントモードモデルトレーニングバッチモデルトラッキングレジストリストリーム REST API
埋め込み Delta Lake / Feature Store BIツール MLの予測結果を出力... • ビジネスアプリケーション • データパイプライン • ウェブアプリケーション • 埋め込みアプリ • などなどデプロイメントの最適化... • コスト / レーテンシーのトレードオフ • Databricksのサービス、サードパーティのサービス、埋め込みアプリケーション 120

モデルのデプロイメントあらゆる規模で柔軟にデプロイ 121

モデルのデプロイメントあらゆる規模で柔軟にデプロイバッチスコアリングモデルレジストリからワンクリックでモデルをデプロイし、スケーラブルなクラスターによるバッチスコアリングを辞しオンラインスコアリングオートスケーリングする低レーテンシーのREST エンドポイントにワンクリックでモデルをデプロイ
122

モニタリングとガバナンス 123

124 データインテリジェンスプラットフォーム ModelOps DataOps DevOps データ中心のMLプラットフォーム

125 データインテリジェンスプラットフォーム ModelOps DataOps DevOps データ中心のMLプラットフォーム Unity Catalog Workﬂows Model
Serving Lakehouse Monitoring

ドリフト(Drift)とは本番環境でモデル性能が劣化する主な原因データドリフト (Data Drift) 入力データの分布が、モデル学習時と本番運用時で変化すること例 •顧客の年齢層が変化 •季節による購買パターンの変動 •新しいカテゴリの商品が追加
検出方法統計的検定、分布比較モデルドリフト (Model Drift) モデルの予測精度が時間経過とともに低下すること原因 •データドリフトの蓄積 •コンセプトドリフト(関係性の変化) •外部環境の変化(競合、規制等) 検出方法予測精度のモニタリングドリフトの流れデータドリフト入力分布の変化 → コンセプトドリフト入出力関係の変化 → モデルドリフト予測精度の低下 → ビジネス影響損失・機会逸失 MLOpsの重要性 : ドリフトを早期検知し、モデルの再学習・更新を自動化することが本番運用の鍵 126

コードのバージョンデータのバージョンクラスター設定環境設定オートロギング再現性チェックリストランの再現機能データガバナンスエクスペリメントのトラッキング
再現性の確保モデルガバナンス Powered by ✓ ✓ ✓ ✓ 結論: 完全なエンドツーエンドのガバナンスと再現性の確保 127

Part2 まとめ MLOpsによる業務品質のモデル開発サイクル MLプロジェクトの課題 •87%が本番環境に到達しない •サイロ化されたツール・チーム •再現性・ガバナンスの欠如 MLOps =
3つのOps統合 •DataOps: データパイプライン •DevOps: CI/CD自動化 •ModelOps: モデルライフサイクルドリフト管理 •データドリフト: 入力分布の変化 •モデルドリフト: 精度低下 •継続的モニタリングが必須這う・歩く・走る - MLOps成熟度モデル Stage 1: 這う手動プロセス、ノートブック中心、MLflow Trackingで実験管理開始 Stage 2: 歩く Model Registry活用、Feature Store導入、CI/CDパイプライン構築 Stage 3: 走る完全自動化、A/Bテスト、モニタリング・自動再学習 Databricks MLOpsツール MLflow 実験追跡・モデル管理 Unity Catalog ガバナンス・リネージ Feature Store 特徴量の再利用・一貫性 Model Serving リアルタイム推論 Next: 実践演習 Databricks Free Editionで実際にモデルを構築・ MLflow記録を体験 → ハンズオン 128

Part 3 : 実践演習 129

Step 1: Gitフォルダを開く 1 左サイドバーのワークスペースをクリック 2 画面右上の作成をクリック 3
Git フォルダをクリック 130

Step 2: リポジトリ URLを入力 📋 コピー用URL: https://github.com/taka-yayoi/data_science_course ⚠ 注意: URLを入力するとフォルダ名は自動で「data_science_course」に。そのまま
Git フォルダを作成をクリック。 131

演習を開始する 1 ノートブックを開く data_science_course → exercises → 01_ml_exercise 2 クラスターに接続
右上の「接続」からServerlessを選択。環境バージョンは 4であることを確認ください 3 実行順にセルを実行していきます。穴埋めがあるので記入して実行ください。 132

参考資料 133

参考資料 134 • 講義リポジトリ • data_science_course - 本講義のノートブック教材 • 公式ドキュメント
• MLflowを使用したモデル開発のトラッキング • MLflowエクスペリメントを使用したトレーニングのランの整理 • MLflowの実行でトレーニングコードを管理する • MLflowモデルの記録、ロード、登録 • チュートリアル: Databricks上のエンドツーエンドのクラシックMLモデル • DatabricksでのMLOpsワークフロー • MLflowクイックスタート Python

参考資料 135 • Qiita記事(機械学習・ MLflow基礎) • [2024年版] Databricksにおける機械学習モデル構築のエンドツーエンドのサンプル • MLflowのご紹介：オープンソース機械学習プラットフォーム
• Databricksにおける機械学習トレーニングのトラッキング • Databricksの機械学習モデルの自動ロギング • Delta LakeとMLflowによる機械学習の本格運用 • Qiita記事(モデルレジストリ・モデル管理 ) • Unity Catalogにおけるモデルライフサイクルの管理 • Unity Catalogでの機械学習モデル管理が捗りそうな件 • DatabricksにおけるMLflowモデルレジストリ • Databricksにおける機械学習モデルの管理 • Databricksにおけるモデルサービング

Databricks Free Edition講座 データサイエンス編

Databricks Free Edition講座 データサイエンス編

More Decks by Takaaki Yayoi

Other Decks in Technology

Featured

Transcript

Databricks Free Edition講座データサイエンス編

Databricks Free Edition講座データサイエンス編