Microsoft Azure - Data & AI トレンド変化と最新状況 2023/8 (Azure Databricks)

Microsoft Azure - Data & AI ～昨日今日明日、変わりゆくAnalytics ～ Azure
Data Analytics のトレンド変化と最新状況について Microsoft Japan Intelligent Cloud Unit – Cloud & AI Solution Data & Analytics TS Dept. Data & AI Technology Specialist Masaki Takeda

Azure Data Services Line-up Overview

Azure Data Services Overview Azureのデータサービス群は多様性を広げ、各サービス同士の連携機能も充実 Azure Purview Azure Data Share
Azure Cosmos DB (NoSQL) Azure DB for MariaDB Azure DB for MySQL Azure DB for PostgreSQL Azure SQL DB Edge Azure SQL Database SQL Server (OnP / VM) Azure Data Explorer Azure Data Factory Azure Databricks Azure Synapse Analytics Azure HDInsight Azure Synapse Analytics (DWH / Serverless) Azure Stream Analytics Operational stores Analytics Data Catalog (Governance) Azure Machine Learning Azure OpenAI Service

Microsoft Intelligent Data Platform Operational databases Analytics Data governance Microsoft
Cloud Microsoft Data Analytics Services Overview Microsoft Cloud データガバナンス分析とデータサイエンスデータベース製品 Azure はあらゆるデータに最適なプラットフォーム Azure Cosmos DB であらゆるスケールでの超低遅延を実現インサイト取得までの時間を最短に AI を活用したデータの発見, カタログ, 保護 Microsoft Purview Azure Synapse Analytics Power BI Azure Databricks Azure Machine Learning Azure SQL Database Azure Cosmos DB

Azure Databricks 開発背景と最新機能

Databricks のはじまり Databricks は、2013年に UC バークレーの AMP Lab 研究生7人によって設立その数年前、彼らは
Apache Spark 開発プロジェクトを主導 Spark は OSS として存在させつつ Databricks の基礎エンジンとして採用 Ali Ghodsi (CEO) Arsalan Tavakoli Ion Stoica (初代CEO) Andy Konwinski Reynold Xin Patrick Wendell Matei Zaharia (CTO) nsdi_spark.pdf (berkeley.edu)

Spark 誕生のきっかけ当時 Matei と Ali は GFS の論文に強く感銘を受け、 Spark
開発に取り組んだ経緯あり Spark の開発の中でも、それら論文の知見や自分達のアイディアを取り入れてきた The Google File System (mit.edu) MapReduce (mit.edu) なんじゃこりゃあ！素晴らしい論文だ！

2013年 Databricks 設立当初のビジョン Databricks の ”変革的な” ビジョンは、今も昔も大きな変化は無い Apache Spark の普及
 Databricksは、Apache Sparkの普及とそのエコシステムの発展をサポートすることが目的  Databricks は Apache Spark の価値を最大限引き出す、 SaaS / PaaS ライクなマネージドプラットフォーム DATAとAI の統合  データサイエンスとデータエンジニアリング間のギャップを埋めたい  各人が同じツールセットを使用して、コラボレーションすることを容易にする必要があるシンプルでスケーラブルなソリューション  複雑な H/W or S/W 設定を意識することなく、シンプルかつスケーラブルなソリューションを提供  Apache Spark は最初からスケーラビリティとパフォーマンスを意識して開発され、当然のように Databricks のプラットフォームのベースとなる End-to-End のデータソリューション  Databricks は、データの収集から格納、加工処理、分析、そして BI / AI / ML モデル構築・提供まで、ライフサイクル全体をカバーする

2013年当時のクラウドベンダー各社のサービスマイクロサービスアーキテクチャ・適材適所の概念が基本鉄則アーキテクチャ設計・検討が肝であり、各役割を持つ PaaS を組み合わせてシナジーを出す -> クラウド上の PaaS サービスとしては、All in
One 型サービスは珍しく、他サービスとは設計思想が異なる AWS (Amazon Web Services) • Amazon EC2 • Amazon S3 • Amazon RDS • Amazon VPC • Amazon CloudFront (CDN) • Amazon DynamoDB • Amazon EMR • ・・・ GCP (Google Cloud Platform) • Google Compute Engine • Google Cloud Storage • Google App Engine • Google Cloud SQL • Google Cloud Datastore • Google BigQuery • Google Cloud Endpoints • ・・・ Azure (Microsoft) • Azure Virtual Machines • Azure Blob Storage • Azure SQL Database • Azure Active Directory • Azure Cloud Services • Azure Virtual Network • Azure Traffic Manager • ・・・

Azure Databricks Azure AD 対応条件付きアクセス / MFA Lakehouse 対応
ACID / 変更データフィードタイムトラベルデータリネージ (加工変遷) 複数フォーマット対応 UniForm (Delta/Iceberg/Hudi) ETL / Streaming Middle Small Large (CPU/GPU) SQL クエリと BI ML / LLM マルチクラスター / オートスケール / サーバーレス複数ワークロードによる、リソース競合なし各ワークロード内で、マルチクラスタ化ノード数・VM サイズも調整 Lakehouse Apps Databricks 上で AI アプリ導入時間を劇的に短縮自社利用 / Marketplace で 1万社以上に公開・収益化 Azure サポート窓口一本化サポート追加契約なしライセンス契約の追加も不要（※予約割引などのオファリングは、ご希望に応じて提供）データクローン機能 DEEP CLONE / SHALLOW CLONE CI/CD (MLOps) GitHub, Azure DevOps, Jenkins 様々なデータ共有・活用・ChatGPT Unity Catalog Delta Sharing / Federation Lakehouse IQ 社内 / 関係者に共有データビジネス展開 Databricks Marketplace Delta Sharing 他社と共同分析 Databricks Cleanroom 動的マスキング Delta Sharing End-to-End の ML/LLM (Lakehouse AI) AutoML GUI (ML/LLMs) Model Serving / Autoscale Mlflow Evaluation AI Gallery / AI Gateway Lakehouse Monitoring 2023年 Azure Databricks 全体像構造データ半構造データ非構造データマルチ言語対応 SQL / PySpark / Java / R / Scala / English (自然言語) SDK ワークフロー・トリガー機能 Delta Live Table, Auto Loader, CDC 処理高速化エンジン & チューニング機能 Photon / ZORDER / Liquid Clustering Azure Data Factory Synapse Analytics Event Hubs etc SQL クエリ実行 Databricks BI ダッシュボードクラスタ停止でも可視化タイムトラベル可視化多数ツールに対応豊富なキャッシュ & AI 高速化機能 Databricks UI キャッシュクエリ結果セットキャッシュ Disk Cache / Materialized View Predictive I/O (AI I/O 削減)

Databricks の圧倒的なパフォーマンス、公式記録の更新 Photon Engine Photon に関する注記 - データレイクに対するデータブリックスのクエリエンジン (the-pans.com) Photon
エンジンが高速な理由： ✓ 再開発された C++ Native Vectorized Engine であり、オーバーヘッドが極小 ✓ Photon は、現在多くの CPU がサポートする SIMD (Single Instruction, Multiple Data) 命令をダイレクトに利用できる ✓ CPU Level では1回の処理を、内部の配列 (複数データ要素) に対して同時に実行できる ✓ 列ストア (delta, parquet) は類似データが 1 Column Group 化されているため、 SIMD 処理との親和性が高い ✓ これによって、Databricks は 3-10 倍高速化。 Data Warehouse としての KPI を確立し、 TPC-DS 100TB ベンチマークで公式記録を更新 Databricks が DWH パフォーマンスの公式記録を更新 | Databricks ブログ

Databricks の圧倒的なパフォーマンス、世界記録の更新 Photon Engine, Predictive I/O, Liquid Clustering Photon に関する注記
- データレイクに対するデータブリックスのクエリエンジン (the-pans.com) Databricks が DWH パフォーマンスの公式記録を更新 | Databricks ブログ Predictive I/O  Index 付与アプローチではなく、内部 ML Model が Data File 配置 & クエリプランの学習/推論  常に最適なアクセスパスを継続学習して Optimizer と連携。 34x Faster Liquid Clustering  クラスタリングキーに基づきデータレイアウトを自動調整。カーディナリティも考慮の上でクラスタリングし、様々なクエリ性能のバラつきを極小化  SELECT や CTAS が高速化し、従来 10倍程度高速化することを確認。 (※キャッシュ保持の場合、キャッシュ優先) Databricks UI Cache Query Result Cache Disk Cache Materialized View

Databricks Workspace (UI) の進化と使いやすさの向上 SQL Editor, Visualize, Serverless or Compute,
Query Profile 機能 • エディタのそばにデータ一覧、クエリ履歴を表示 • データを選択してクエリの実行 / ビジュアル化 • そのままシームレスに BI ダッシュボードを作成 • クエリの実行履歴 (統計情報) を確認 • クエリ実行時間、各種キャッシュの利用量、クエリプラン・ステップから、ボトルネックを即時に特定

Databricks “Copilot” の搭載：AI Assistant Lakehouse IQ: Unity Catalog を基に AI
Assistant が実行可能なクエリを生成 • SQL エディタのそばにチャットが存在し、自然言語 (英語・日本語) で問合せを実施 • 実行可能なクエリ生成だけでなく、クエリの修正や、言語間のコード変換、コード自体の説明文生成なども可能 Introducing Databricks Assistant, a context-aware AI assistant | Databricks Blog

Databricks “Copilot” の搭載: Unity Catalog 検索強化 Lakehouse IQ: ユーザー情報を考慮したカタログ検索・カタログメタの自動生成 •
Unity Catalog (データカタログ) 検索は単純なキーワード検索のみでなく、環境情報に基づくチャット形式の検索も可能 • Unity Catalog で管理するテーブルの各カラムの説明を推論自動生成 Introducing Databricks Assistant, a context-aware AI assistant | Databricks Blog ▪ Unity Catalog カタログ検索ユーザー質問に対して、同義語も考慮した検索結果の提示 (例: Databricks Serverless usage = Nephos project / DBU) ▪ Unity Catalog メタデータ自動生成 Lakehouse IQ が各テーブル・カラム情報から説明文を自動生成 ⇒ データ管理者が Accept or Edit LakehouseIQのご紹介：あなたのビジネスを独自に理解するAIエンジン | Databricks Blog

Notebook でも自然言語でのコーディング・解析が可能に Python/SQL/Java/Scala/R の次の言語対応：English SDK (pip install pyspark-ai) Introducing English
as the New Programming Language for Apache Spark | Databricks Blog website | pyspark-ai website Process: データ加工 Transform (英語/日本語等) df.ai.transform(“各プロダクト別にデータをピボット集計して”) 処理自体は Databricks Spark 上で並列分散実行 Input: データ取得 URL (英語/日本語等) auto_df = spark_ai.create_df(“https://www..../data”) URL (or 自社データ) を指定するだけでデータを取得並列分散 Spark データフレーム化 Analytics/Output: Code Interpreter auto_df.ai.plot(“距離と運賃の相関性を可視化して”) / explain / verify 可視化したい指示や解析内容を記述すると、 Python 処理が実行されて目的の形式でアウトプット databrickslabs/pyspark-ai: English SDK for Apache Spark (github.com) Code Interpreter 機能をスケーラブルな最新 Spark で実行 (取得・加工・可視化・アウトプット)

Slack / Teams から Databricks に直接 Data QnA Databricksのデータに SQLDatabaseChainを使って
Slackからアクセスしてみた - Qiita 生成AIを使ったチャットボット構築 | Databricks Blog 20230719 JP LLM on Vimeo databricks-japan/imasugu_webinar: Databricks Imasugu Webinar sample notebook (github.com) ✓ SQL や Python だけでなく、自然言語を利用してデータに直接問い合わせを行い、集計結果の回答も得られる ✓ Langchain の SQLDatabase Chain を使って OpenAI と連携し、ユーザーからの問い合わせをSQLに変換、Databricksに問合せを実施 ✓ UI 部分はSlack（Teamsや他のアプリなども可）などと連携することで、よりマルチ UI でサービスを届けることが可能自然言語での問合せ ChatGPT (Vector Store 連携も可能)

Slack / Teams から Data QnA 多様データを基にした問合せチャット Databricksのデータに SQLDatabaseChainを使って Slackからアクセスしてみた
- Qiita 生成AIを使ったチャットボット構築 | Databricks Blog 20230719 JP LLM on Vimeo databricks-japan/imasugu_webinar: Databricks Imasugu Webinar sample notebook (github.com) • より柔軟にユーザーからの問い合わせに対応可能 • 例）製品マニュアルやFAQなどの構造化されていないデータを元に、ユーザーからの問合せに柔軟に回答するチャットボットを構築できる • ユーザーからの特定の分野の問い合わせにデータを元にした回答を実施 • データをベクトル化することで、類似検索が可能となり、関連する情報を元にした回答を生成AIが作成

Lakehouse に必要な要件を再定義：Lakehouse AI Lakehouse AI = 生成 AI アプリ開発に必要な全機能の総称 >
データストア：Vector Search Index in Lakehouse > 生成 AI モデル：Model Library / AutoML (GUI) for LLM fine tuning / Evaluation (Prompt Engineering) > アプリケーション：Lakehouse Apps / AI Gateway (API Management) / Lakehouse Monitoring (監視) Lakehouse AI: Generative AIアプリケーション構築のためのデータ中心アプローチ | Databricks Blog

Unity Catalog の重要性 (Data Catalog/Governance 機能) Azure Databricks の今後の将来的な Data
AI 機能拡張は、Unity Catalog 前提となる見込みデータアーキテクチャの拡張性・選択肢の幅を考慮した場合、Unity Catalog 導入は推奨 ✓ 各ワークスペース (ドメイン) のアクセスポリシーを統合管理 ✓ データガバナンスの実現 ✓ データ検出の自動化 ✓ データカタログ検索の容易性 (+ 生成 AI Lakehouse IQ) ✓ データリネージ (フェデレーション先の他 DWH 含む) ✓ データ共有の統合管理 ✓ 監査 (データアクセス / ユーザー) What is Unity Catalog? - Azure Databricks | Microsoft Learn Introducing Unity Catalog -- A Unified Governance Solution for Lakehouse - The Databricks Blog

Data Architecture の次なるフロンティア

セントラルなデータ分析基盤の課題全社統合データ基盤構築をご検討の場合、陥りがちな機能不全のリスク (※全社統合系ではない領域特化的なデータ統合基盤の場合、本課題は対象ではありません) ✓ 全社データを文字通り、1つのデータベースに格納 ✓ ビジネス多事業化に伴い、取り扱いデータのバリエーションが増大 (営業・マーケ・財務・法務・営業 (米)・営業
(欧)・・・) ✓ 各事業・国によって異なる規制・レギュレーション ✓ 各事業部によって、使いたいツールが異なる ✓ そもそも1つのツールに決める必要はあるのか? ✓ 多くのツールをデータ基盤に導入すればするほど、複雑怪奇な依存関係考慮が必要になり、追加に追加の開発・改修を行い続ける必要がある ✓ 場合によっては、データ or ツール導入を断念 (データ価値・スピード感の低下) (社員のモチベーションがダウン) Data Lakehouse

次なるフロンティア：Data Mesh Architecture Data Mesh は、複雑で大規模な環境で分析データを共有・アクセス・管理するための分散型アーキテクチャであり、組織とビジネス考慮の視点を加えたアプローチ Dehghani, Zhamak. Data
Mesh (p.46). O‘Reilly Media. Kindle 版. Building a Data Mesh Based on the Databricks Lakehouse, Part 2 | Databricks Blog ✓ Data Domain Driven ✓ Self-Service Infrastructure ✓ Data Products (share) ✓ Federated Governance Databricks Unity Catalog は、様々なアーキテクチャパターンへの対応力を提供 Sales Marketing Finance

Microsoft Technology Centers 24 Microsoft Japan DX & AI 利活用推進を支える大規模データ基盤構築に向けたご支援
マイクロソフトが提唱する DX データ活用のフレームワーク。お客様・業務・社員・製品のそれぞれのデータを有機的・動的に結合しインサイトを得ることで、 DXを全社的に進めることが可能となる。目的 • デジタルトランスフォーメーションやAI利活用の推進への取り組みが急がれる中、その中核となるデータについては、統制がとれないまま量や種類が増大し、また伴う規制も複雑化する中で、十分な活用が進められていない現状があり、適切なステップと判断基準で一歩踏み込んで考え、最適な構想策定を行う必要があります。 • 本ワークショップでは、日本国内外での多くのご支援実績の中で得られたリファレンスとなるマイクロソフトの知見・プラクティスを活用しながら、貴社 ToBe 要件や諸制約に基づき、「データ活用の方向性の整理」、「ガバナンスの在り方」、「データ＆プラットフォームデザイン」、「運用体制」、など包括的な検討をサポートし、ビジネス変革推進を下支えする最適なモダンデータ活用基盤の構築・導入の促進を支援致します。構想の整理 (Digital Feedback loop) モダンデータ活用基盤構想策定の流れ本支援のアウトプット Work1 データ活用の目的設定活用データ洗い出し Work2 データガバナンスパターン検討・策定 Work3 データ配置パターン検討・策定 Work5 データ基盤の運用体制検討 (事例紹介) データ活用の方向性の整理実現データアーキテクチャイメージ構想実現プロトタイプ本番化に向けた必要なご支援・情報提供も視野に入れていますのでご相談下さい。合計5時間程度。業務・IT 両組織から 4-8 名。 PoC 等の予算権限のある方にオーナーになって頂き、最終報告の実施を想定モダンデータ基盤構想策定ワークショップ Work4 実現アーキテクチャ検討・策定 MDP2 (Modern Data Platform Planning)

最後に

2013年 Databricks 設立当初のビジョンは、2023年最新トレンドへと変遷 Apache Spark の普及  Databricksは、Apache Sparkの普及とそのエコシステムの発展をサポートすることが目的
 Databricks は Apache Spark の価値を最大限引き出す、 SaaS / PaaS ライクなマネージドプラットフォーム DATAとAI の統合  データサイエンスとデータエンジニアリング間のギャップを埋めたい  各人が同じツールセットを使用して、コラボレーションすることを容易にする必要がある ⇒ Lakehouse Databricks の ”変革的な” ビジョンは、今も昔も大きな変化は無い -> 当時の変わったビジョンは、今ではクラウドベンダ各社もアラインする設計思想へと、トレンドが変遷シンプルでスケーラブルなソリューション  複雑な H/W or S/W 設定を意識することなく、シンプルかつスケーラブルなソリューションを提供  Apache Spark は最初からスケーラビリティとパフォーマンスを意識して開発され、当然のように Databricks のプラットフォームのベースとなる ⇒ Multi-Cluster / Auto scale / Serverless End-to-End のデータソリューション  Databricks は、データの収集から格納、加工処理、分析、そして BI / AI / ML モデル構築・提供まで、ライフサイクル全体をカバーする ⇒ Workflow / Data Engineering / Lakehouse / ML LLM / Apps / Unity Catalog / Data mesh ….

End ご清聴頂き、誠に有難うございました

Microsoft Azure - Data & AI トレンド変化と最新状況 2023/8 ...

Microsoft Azure - Data & AI トレンド変化と最新状況 2023/8 (Azure Databricks)

Masaki Takeda

More Decks by Masaki Takeda

Other Decks in Technology

Featured

Transcript

Microsoft Azure - Data & AI ～昨日今日明日、変わりゆくAnalytics ～ Azure

Azure Data Services Line-up Overview

Azure Data Services Overview Azureのデータサービス群は多様性を広げ、各サービス同士の連携機能も充実 Azure Purview Azure Data Share

Microsoft Intelligent Data Platform Operational databases Analytics Data governance Microsoft

Azure Databricks 開発背景と最新機能

Databricks のはじまり Databricks は、2013年に UC バークレーの AMP Lab 研究生7人によって設立その数年前、彼らは

Spark 誕生のきっかけ当時 Matei と Ali は GFS の論文に強く感銘を受け、 Spark

2013年 Databricks 設立当初のビジョン Databricks の ”変革的な” ビジョンは、今も昔も大きな変化は無い Apache Spark の普及

Azure Databricks Azure AD 対応条件付きアクセス / MFA Lakehouse 対応

Databricks の圧倒的なパフォーマンス、公式記録の更新 Photon Engine Photon に関する注記 - データレイクに対するデータブリックスのクエリエンジン (the-pans.com) Photon

Databricks の圧倒的なパフォーマンス、世界記録の更新 Photon Engine, Predictive I/O, Liquid Clustering Photon に関する注記

Databricks Workspace (UI) の進化と使いやすさの向上 SQL Editor, Visualize, Serverless or Compute,

Databricks “Copilot” の搭載：AI Assistant Lakehouse IQ: Unity Catalog を基に AI

Databricks “Copilot” の搭載: Unity Catalog 検索強化 Lakehouse IQ: ユーザー情報を考慮したカタログ検索・カタログメタの自動生成 •

Notebook でも自然言語でのコーディング・解析が可能に Python/SQL/Java/Scala/R の次の言語対応：English SDK (pip install pyspark-ai) Introducing English

Slack / Teams から Databricks に直接 Data QnA Databricksのデータに SQLDatabaseChainを使って

Slack / Teams から Data QnA 多様データを基にした問合せチャット Databricksのデータに SQLDatabaseChainを使って Slackからアクセスしてみた

Lakehouse に必要な要件を再定義：Lakehouse AI Lakehouse AI = 生成 AI アプリ開発に必要な全機能の総称 >

Unity Catalog の重要性 (Data Catalog/Governance 機能) Azure Databricks の今後の将来的な Data

Data Architecture の次なるフロンティア

次なるフロンティア：Data Mesh Architecture Data Mesh は、複雑で大規模な環境で分析データを共有・アクセス・管理するための分散型アーキテクチャであり、組織とビジネス考慮の視点を加えたアプローチ Dehghani, Zhamak. Data

Microsoft Technology Centers 24 Microsoft Japan DX & AI 利活用推進を支える大規模データ基盤構築に向けたご支援

最後に

2013年 Databricks 設立当初のビジョンは、2023年最新トレンドへと変遷 Apache Spark の普及  Databricksは、Apache Sparkの普及とそのエコシステムの発展をサポートすることが目的

End ご清聴頂き、誠に有難うございました

© Copyright Microsoft Corporation. All rights reserved. 本情報の内容 (添付文書、リンク先などを含む) は、公開日時点のものであり、予告なく変更される場合があります。