Slide 1

Slide 1 text

©2023 Databricks Inc. — All rights reserved | Confidential and proprietary 1 データブリックス・ジャパン Databricks アカウントSA部 部長 弥生 隆明 DatabricksにおけるLLMOps

Slide 2

Slide 2 text

©2023 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明 (やよい たかあき) Databricks アカウントSA部 部長 ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサルティングファーム、 総合電機メーカーにてデータ分析・Web サービス構築などに従事。 インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki

Slide 3

Slide 3 text

データブリックスのUnity Catalogで実現する 真のデータガバナンス 日時: 2023年11月17日(金) URL: https://events.databricks.com/20231027-unitycatalog-jp イベント概要 みなさまの組織では、ガバナンス、特にデータガバナンスは効いている状態 でしょうか? 生成AI 以前もデータの活用は進んでいましたが、それと同時にデータガバ ナンスの重要性も注目されていました。 Databricksが提供する統合ガバナンスソリューションである Unity Catalog は、データやAI活用におけるガバナンスの課題のほとんどを解決します。 本セッションでは、 Unity Catalogがどのようにしてガバナンスの課題を解決 するのかをデモを交えてご説明し、 Unity Catalogを利用する際に留意すべ きベストプラクティスをご紹介します。

Slide 4

Slide 4 text

©2023 Databricks Inc. — All rights reserved 投資 $3B 市場価値は5兆円以上 従業員数 5000+ (3年前は1500人) 収益(ARR) $1B+ (1,360億円) データレイクハウスの 発明者でパイオニア 導入企業数 10000+ レイクハウスカンパニー のクリエーターが 2013年に起業 知る人ぞ知るデカコーン Databricksは2022年も 攻勢を続ける | Coral Capital

Slide 5

Slide 5 text

©2023 Databricks Inc. — All rights reserved | Confidential and proprietary 1. LLMOpsとは? 2. DatabricksにおけるLLMOps 3. まとめ 5

Slide 6

Slide 6 text

©2023 Databricks Inc. — All rights reserved | Confidential and proprietary MLOpsとは MLOpsとは機械学習モデルライフサイクル全般を円滑にするために必要な体制・基盤・手法全般を意味します。 MLOps(Machine Learning Operations)とは、 データサイエンスチーム、運用チームなど、機械学習モデルの 構築・運用に関わるチームが協調し、円滑に機械学習モデルを 運用していくための体制・基盤を構築すること、 その概念全般を意味します。 LLMOps(Large Language Model Operations)とは、 データサイエンスチーム、運用チームなど、LLMの 構築・運用に関わるチームが協調し、円滑にLLMを 運用していくための体制・基盤を構築すること、 その概念全般を意味します。

Slide 7

Slide 7 text

©2023 Databricks Inc. — All rights reserved Confidential and Proprietary MLOps - LLMで何が変わる? 7 LLMの特性 MLOpsの示唆 様々な形態でLLMを利用可能: ● 課金API経由での一般的なプロプライエタリ モデル、OSSモデル ● すぐに利用できるオープンソースモデル ● 特定のアプリケーションにファインチューンされたカス タムモデル ● カスタムの事前トレーニング済みモデル 開発プロセス: ● インクリメンタルな開発 ● APIからスタートしカスタムモデルへ LLMは入力として自然言語のプロンプトを受け入れ : ● 期待するレスポンスを得るためにプロンプトエンジニ アリングが可能 開発プロセス: ● LLMに問い合わせを行うテストテンプレートの設計が 開発プロセスの重要な一部に アーティファクトのパッケージング : ● パッケージングされるアーティファクトとプロダクションに おけるプロンプトはモデルというよりパイプラインに LLMにはサンプルやコンテキストを伴うプロンプトを 指定可能 サービングのインフラストラクチャ : ● 適切なコンテキストの検索に使用されるベクトルデータベースのよ うな外部ツール

Slide 8

Slide 8 text

©2023 Databricks Inc. — All rights reserved Confidential and Proprietary MLOps - LLMで何が変わる? 8 LLMの特性 MLOpsの示唆 サードパーティの APIプロバイダー経由で プロプライエタリモデルや OSSモデルを利用可能 APIガバナンス: ● APIプロバイダーをスイッチできる選択可能性や柔軟性を持つため に、APIガバナンスのための集中管理されたシステムを持つことが 重要に LLMは非常に大きなディープラーニングモデルであり、多く の場合、数Gバイトから数百Gバイトに サービングのインフラストラクチャ : ● LLMのサービングには GPUが必要 ● モデルを動的にロードする必要がある場合には、高速な ストレージが重要に LLMにおいては、多くの場合、単一の「適切な」回答が存在 しないため、従来の MLメトリクスを通じた評価が困難 人間のフィードバック : ● LLMの評価、テストで必要になることが多い ● 将来的なファインチューニングのためには、テスト、 モニタリングを含む MLOpsに直接組み込むことが重要に

Slide 9

Slide 9 text

©2023 Databricks Inc. — All rights reserved Confidential and Proprietary DevOps MLOps - LLMで何が変わる? 9 ● これらの新たな要件に適合するために、多くの既存ツール、既存プロセスの修正は軽微です ○ 開発、ステージング、プロダクションの分離は変わりません ○ パイプラインやモデルをプロダクションに移行する際に、Gitのバージョン管理とUnity CatalogにおけるMLflow モデルレジストリは依然として主要なパイプラインとなります。 ○ データ管理に対するレイクハウスアーキテクチャは、効率性のために依然として適切で重要です。 ○ 既存のCI/CDインフラストラクチャには変更はありません。 ○ モデルトレーニングのためのパイプライン、モデル推論のためのパイプラインなどを用いた、 モジュール化されたMLOpsの構造は同じです。 レイクハウスプラットフォーム 開発 ステージング プロダクション DataOps Unity Catalog ModelOps

Slide 10

Slide 10 text

©2023 Databricks Inc. — All rights reserved 10 Lakehouse AI

Slide 11

Slide 11 text

データエンジニアリング モデル開発 モデルデプロイメント ⓒ 2023 Databricks Inc. — All rights reserved AIの課題 AIライフサイクルでサイロ化された技術スタック データセット モデル アプリケーション データとモデルのガバナンス

Slide 12

Slide 12 text

Data Engineering Model Development Model Deployment ⓒ 2023 Databricks Inc. — All rights reserved AIの課題 AIライフサイクルでサイロ化された技術スタック Datasets Models Applications Governance of data and models モデル開発に必要なクリーンで信頼できる データの取得が困難 インテグレーション欠如による開発の遅延 完全なAIライフサイクルを制御、管理、追跡できないこと によるリスクの増加

Slide 13

Slide 13 text

Lakehouse AIはデータ中心アプローチです 事前学習モデルの 活用あるいは カスタムモデルの 構築 リアルタイムアプリに モデルを サービング・監視 ネイティブツールによ るデータと特徴量の 準備 データプラットフォーム — Delta Lake ガバナンス — Unity Catalog データセット モデル アプリケーショ ン

Slide 14

Slide 14 text

Lakehouse AIはデータ中心アプローチです Use Existing Model or Build Your Own Model Serving and Monitoring Data Collection and Preparation DATA PLATFORM UNITY CATALOG Datasets Models Applications データプラットフォーム上に構築 高速なデプロイメント ビルトインのガバナンスとモニタリング

Slide 15

Slide 15 text

©2023 Databricks Inc. — All rights reserved Lakehouse AIのコンポーネント 15

Slide 16

Slide 16 text

事前学習モデルの活用 あるいはカスタムモデルの 構築 リアルタイムアプリへのモデ ルの提供、監視 ネイティブツールによるデータ と特徴量の準備 データプラットフォーム — Delta Lake ガバナンス — Unity Catalog Vector Search Model Serving MLflow Lakehouse AI — キーとなる製品 MosaicML AutoML Lakehouse Monitoring Feature Engineering

Slide 17

Slide 17 text

Unity Catalogのテーブルをトレーニングやサー ビングにおけるソースとして活用可能 レイクハウスのDeltaテーブルに基づいて 継続的に更新 モデルサービングや外部エンドポイントを使用し ているアプリにオンデマンドの サービング ネイティブの データ収集、準備 Unity Catalogにおける特徴量 エンジニアリング 特徴量の効率的かつ高信頼な作成、管理、提供

Slide 18

Slide 18 text

ビルトインのガバナンス、権限 管理、リネージ フルマネージド、サーバレス、 すぐに利用可能 エンベディング生成においてMLflowや モデルサービングと インテグレーション ネイティブの データ収集、準備 ベクトル検索 Unity Catalogのデータから自動更新されるベクトル検索イン デックスの作成

Slide 19

Slide 19 text

©2023 Databricks Inc. — All rights reserved 簡素化され、スケーラブルでコスト効率 の高い大規模AIモデルの トレーニング ご自身のセキュアな環境で自分のデー タを用いて、自分の生成AIモデルをト レーニングあるいはファインチューニング モデルとデータプライバシーに 対する完全なコントロール MosaicML 大規模AIモデルのトレーニングを最大7倍高速、安価に 事前学習モデルの活用 カスタムモデルの構築

Slide 20

Slide 20 text

トレーニングコストの制限 サービングのコスト 目標品質 サービングのレーテンシー Auto ML ご自身のデータを用いて 自身のモデルを構築 事前学習モデルの活用 カスタムモデルの構築 Databricksによってキュレーションされた モデルを含む、お好きなモデルからスタート テキスト生成モデルの例 : MPT-7B-Instruct, MPT-30B-Instruct, Falcon-7B-Instruct etc. 十分な量のトレーニングデータセットの持込 例: 過去の顧客とのやり取りからの質問・回答のペア AutoML エンベディングのファインチューニングやモデル作成のための ローコードツール

Slide 21

Slide 21 text

©2023 Databricks Inc. — All rights reserved 月間1,100万ダウンロードのMLOpsの スタンダード モデルの実験、追跡、評価、管理 権限管理やガバナンスを自動化 するためのAI Gatewayのような LLMOpsの新機能 MLflow エンドツーエンドのMLOpsとLLMOps 事前学習モデルの活用 カスタムモデルの構築

Slide 22

Slide 22 text

リアルタイムアプリへのモ デルのサービング 監視 高可用性、低レーテンシー、ゼロまで 自動スケールするサービング デプロイメントを自動化し、エラーを 削減するための、自動特徴量検索、 監視、統合ガバナンス 最大10倍のレーテンシー、コスト削減を実 現するオープンソース生成AIモデルに最適 化 モデルサービング 最大10倍のレーテンシー削減、コスト削減を提供する モデルのリアルタイム推論

Slide 23

Slide 23 text

リアルタイムアプリへのモ デルのサービング 監視 数分でデータとモデルに対する完全な可 視性を提供し、市場投入に要する 時間とコストを削減 データとモデルの異常を プロアクティブかつシンプルに検知 異常の根本原因を追跡することで シームレスにデバッグ レイクハウスモニタリング インテリジェントなデータとモデルのモニタリング

Slide 24

Slide 24 text

Lakehouse AI — データ中心アプローチ 事前学習モデルの 活用あるいは カスタムモデルの 構築 リアルタイムアプリに モデルを サービング・監視 ネイティブツールによ るデータと特徴量の 準備 データプラットフォーム — Delta Lake ガバナンス — Unity Catalog データセット モデル アプリケーショ ン

Slide 25

Slide 25 text

©2023 Databricks Inc. — All rights reserved Thank you