Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Microsoft Azure - Data & AI トレンド変化と最新状況 2023/8 (Azure Databricks)

Microsoft Azure - Data & AI トレンド変化と最新状況 2023/8 (Azure Databricks)

Microsoft Azure - Data & AI トレンド変化と最新状況 2023/8 (Azure Databricks)

Masaki Takeda

August 31, 2023
Tweet

More Decks by Masaki Takeda

Other Decks in Technology

Transcript

  1. Microsoft Azure - Data & AI ~ 昨日今日明日、変わりゆくAnalytics ~ Azure

    Data Analytics のトレンド変化と最新状況について Microsoft Japan Intelligent Cloud Unit – Cloud & AI Solution Data & Analytics TS Dept. Data & AI Technology Specialist Masaki Takeda
  2. Azure Data Services Overview Azureのデータサービス群は多様性を広げ、各サービス同士の連携機能も充実 Azure Purview Azure Data Share

    Azure Cosmos DB (NoSQL) Azure DB for MariaDB Azure DB for MySQL Azure DB for PostgreSQL Azure SQL DB Edge Azure SQL Database SQL Server (OnP / VM) Azure Data Explorer Azure Data Factory Azure Databricks Azure Synapse Analytics Azure HDInsight Azure Synapse Analytics (DWH / Serverless) Azure Stream Analytics Operational stores Analytics Data Catalog (Governance) Azure Machine Learning Azure OpenAI Service
  3. Microsoft Intelligent Data Platform Operational databases Analytics Data governance Microsoft

    Cloud Microsoft Data Analytics Services Overview Microsoft Cloud データガバナンス 分析とデータサイエンス データベース製品 Azure はあらゆるデータに 最適なプラットフォーム Azure Cosmos DB であらゆる スケールでの超低遅延を実現 インサイト取得までの 時間を最短に AI を活用したデータの発見, カタログ, 保護 Microsoft Purview Azure Synapse Analytics Power BI Azure Databricks Azure Machine Learning Azure SQL Database Azure Cosmos DB
  4. Databricks のはじまり Databricks は、2013年に UC バークレーの AMP Lab 研究生7人によって設立 その数年前、彼らは

    Apache Spark 開発プロジェクトを主導 Spark は OSS として存在させつつ Databricks の基礎エンジンとして採用 Ali Ghodsi (CEO) Arsalan Tavakoli Ion Stoica (初代CEO) Andy Konwinski Reynold Xin Patrick Wendell Matei Zaharia (CTO) nsdi_spark.pdf (berkeley.edu)
  5. Spark 誕生のきっかけ 当時 Matei と Ali は GFS の論文に強く感銘を受け、 Spark

    開発に取り組んだ経緯あり Spark の開発の中でも、それら論文の知見や自分達のアイディアを取り入れてきた The Google File System (mit.edu) MapReduce (mit.edu) なんじゃこりゃあ! 素晴らしい論文だ!
  6. 2013年 Databricks 設立当初のビジョン Databricks の ”変革的な” ビジョンは、今も昔も大きな変化は無い Apache Spark の普及

     Databricksは、Apache Sparkの普及と そのエコシステムの発展をサポートすることが目的  Databricks は Apache Spark の価値を最大限引き出す、 SaaS / PaaS ライクなマネージドプラットフォーム DATAとAI の統合  データサイエンスとデータエンジニアリング間の ギャップを埋めたい  各人が同じツールセットを使用して、 コラボレーションすることを容易にする必要がある シンプルでスケーラブルなソリューション  複雑な H/W or S/W 設定を意識することなく、 シンプルかつスケーラブルなソリューションを提供  Apache Spark は最初からスケーラビリティとパフォー マンスを意識して開発され、当然のように Databricks のプラットフォームのベースとなる End-to-End の データソリューション  Databricks は、データの収集から格納、加工処理、 分析、そして BI / AI / ML モデル構築・提供まで、 ライフサイクル全体をカバーする
  7. 2013年当時のクラウドベンダー各社のサービス マイクロサービスアーキテクチャ・適材適所の概念が基本鉄則 アーキテクチャ設計・検討が肝であり、各役割を持つ PaaS を組み合わせてシナジーを出す -> クラウド上の PaaS サービスとしては、All in

    One 型サービスは珍しく、他サービスとは設計思想が異なる AWS (Amazon Web Services) • Amazon EC2 • Amazon S3 • Amazon RDS • Amazon VPC • Amazon CloudFront (CDN) • Amazon DynamoDB • Amazon EMR • ・・・ GCP (Google Cloud Platform) • Google Compute Engine • Google Cloud Storage • Google App Engine • Google Cloud SQL • Google Cloud Datastore • Google BigQuery • Google Cloud Endpoints • ・・・ Azure (Microsoft) • Azure Virtual Machines • Azure Blob Storage • Azure SQL Database • Azure Active Directory • Azure Cloud Services • Azure Virtual Network • Azure Traffic Manager • ・・・
  8. Azure Databricks Azure AD 対応 条件付きアクセス / MFA Lakehouse 対応

    ACID / 変更データフィード タイムトラベル データリネージ (加工変遷) 複数フォーマット対応 UniForm (Delta/Iceberg/Hudi) ETL / Streaming Middle Small Large (CPU/GPU) SQL クエリと BI ML / LLM マルチクラスター / オートスケール / サーバーレス 複数ワークロードによる、リソース競合なし 各ワークロード内で、マルチクラスタ化 ノード数・VM サイズも調整 Lakehouse Apps Databricks 上で AI アプリ導入時間を劇的に短縮 自社利用 / Marketplace で 1万社以上に公開・収益化 Azure サポート窓口一本化 サポート追加契約なし ライセンス契約の追加も不要 (※予約割引などのオファリングは、ご希望に応じて提供) データクローン機能 DEEP CLONE / SHALLOW CLONE CI/CD (MLOps) GitHub, Azure DevOps, Jenkins 様々なデータ共有・活用・ChatGPT Unity Catalog Delta Sharing / Federation Lakehouse IQ 社内 / 関係者に共有 データビジネス展開 Databricks Marketplace Delta Sharing 他社と共同分析 Databricks Cleanroom 動的マスキング Delta Sharing End-to-End の ML/LLM (Lakehouse AI) AutoML GUI (ML/LLMs) Model Serving / Autoscale Mlflow Evaluation AI Gallery / AI Gateway Lakehouse Monitoring 2023年 Azure Databricks 全体像 構造データ 半構造データ 非構造データ マルチ言語対応 SQL / PySpark / Java / R / Scala / English (自然言語) SDK ワークフロー・トリガー機能 Delta Live Table, Auto Loader, CDC 処理高速化エンジン & チューニング機能 Photon / ZORDER / Liquid Clustering Azure Data Factory Synapse Analytics Event Hubs etc SQL クエリ実行 Databricks BI ダッシュボード クラスタ停止でも可視化 タイムトラベル可視化 多数ツールに対応 豊富なキャッシュ & AI 高速化機能 Databricks UI キャッシュ クエリ結果セットキャッシュ Disk Cache / Materialized View Predictive I/O (AI I/O 削減)
  9. Databricks の圧倒的なパフォーマンス、公式記録の更新 Photon Engine Photon に関する注記 - データレイクに対するデータブリックスのクエリエンジン (the-pans.com) Photon

    エンジンが高速な理由: ✓ 再開発された C++ Native Vectorized Engine であり、オーバーヘッドが極小 ✓ Photon は、現在多くの CPU がサポートする SIMD (Single Instruction, Multiple Data) 命令をダイレクトに利用できる ✓ CPU Level では1回の処理を、内部の配列 (複数データ要素) に対して同時に実行できる ✓ 列ストア (delta, parquet) は類似データが 1 Column Group 化されているため、 SIMD 処理との親和性が高い ✓ これによって、Databricks は 3-10 倍高速化。 Data Warehouse としての KPI を確立し、 TPC-DS 100TB ベンチマークで公式記録を更新 Databricks が DWH パフォーマンスの公式記録を更新 | Databricks ブログ
  10. Databricks の圧倒的なパフォーマンス、世界記録の更新 Photon Engine, Predictive I/O, Liquid Clustering Photon に関する注記

    - データレイクに対するデータブリックスのクエリエンジン (the-pans.com) Databricks が DWH パフォーマンスの公式記録を更新 | Databricks ブログ Predictive I/O  Index 付与アプローチではなく、内部 ML Model が Data File 配置 & クエリプランの学習/推論  常に最適なアクセスパスを継続学習して Optimizer と連携。 34x Faster Liquid Clustering  クラスタリングキーに基づきデータレイアウ トを自動調整。カーディナリティも考慮の上 でクラスタリングし、様々なクエリ性能の バラつきを極小化  SELECT や CTAS が高速化し、従来 10倍程度 高速化することを確認。 (※キャッシュ保持の場合、キャッシュ優先) Databricks UI Cache Query Result Cache Disk Cache Materialized View
  11. Databricks Workspace (UI) の進化と使いやすさの向上 SQL Editor, Visualize, Serverless or Compute,

    Query Profile 機能 • エディタのそばにデータ一覧、クエリ履歴を表示 • データを選択してクエリの実行 / ビジュアル化 • そのままシームレスに BI ダッシュボードを作成 • クエリの実行履歴 (統計情報) を確認 • クエリ実行時間、各種キャッシュの利用量、 クエリプラン・ステップから、ボトルネックを即時に特定
  12. Databricks “Copilot” の搭載:AI Assistant Lakehouse IQ: Unity Catalog を基に AI

    Assistant が実行可能なクエリを生成 • SQL エディタのそばにチャットが存在し、自然言語 (英語・日本語) で問合せを実施 • 実行可能なクエリ生成だけでなく、クエリの修正や、言語間のコード変換、コード自体の説明文生成なども可能 Introducing Databricks Assistant, a context-aware AI assistant | Databricks Blog
  13. Databricks “Copilot” の搭載: Unity Catalog 検索強化 Lakehouse IQ: ユーザー情報を考慮したカタログ検索・カタログメタの自動生成 •

    Unity Catalog (データカタログ) 検索は単純なキーワード検索のみでなく、環境情報に基づくチャット形式の検索も可能 • Unity Catalog で管理するテーブルの各カラムの説明を推論自動生成 Introducing Databricks Assistant, a context-aware AI assistant | Databricks Blog ▪ Unity Catalog カタログ検索 ユーザー質問に対して、同義語も考慮した検索結果の提示 (例: Databricks Serverless usage = Nephos project / DBU) ▪ Unity Catalog メタデータ自動生成 Lakehouse IQ が各テーブル・カラム情報から説明文を自動生成 ⇒ データ管理者が Accept or Edit LakehouseIQのご紹介: あなたのビジネスを独自に理解するAIエンジン | Databricks Blog
  14. Notebook でも自然言語でのコーディング・解析が可能に Python/SQL/Java/Scala/R の次の言語対応:English SDK (pip install pyspark-ai) Introducing English

    as the New Programming Language for Apache Spark | Databricks Blog website | pyspark-ai website Process: データ加工 Transform (英語/日本語等) df.ai.transform(“各プロダクト別にデータをピボット集計して”) 処理自体は Databricks Spark 上で並列分散実行 Input: データ取得 URL (英語/日本語等) auto_df = spark_ai.create_df(“https://www..../data”) URL (or 自社データ) を指定するだけでデータを取得 並列分散 Spark データフレーム化 Analytics/Output: Code Interpreter auto_df.ai.plot(“距離と運賃の相関性を可視化して”) / explain / verify 可視化したい指示や解析内容を記述すると、 Python 処理が実行されて目的の形式でアウトプット databrickslabs/pyspark-ai: English SDK for Apache Spark (github.com) Code Interpreter 機能をスケーラブルな最新 Spark で実行 (取得・加工・可視化・アウトプット)
  15. Slack / Teams から Databricks に直接 Data QnA Databricksのデータに SQLDatabaseChainを使って

    Slackからアクセスしてみた - Qiita 生成AIを使ったチャットボット構築 | Databricks Blog 20230719 JP LLM on Vimeo databricks-japan/imasugu_webinar: Databricks Imasugu Webinar sample notebook (github.com) ✓ SQL や Python だけでなく、自然言語を利用して データに直接問い合わせを行い、集計結果の回答も得られる ✓ Langchain の SQLDatabase Chain を使って OpenAI と連携し、 ユーザーからの問い合わせをSQLに変換、Databricksに問合せを実施 ✓ UI 部分はSlack(Teamsや他のアプリなども可)などと連携することで、 よりマルチ UI でサービスを届けることが可能 自然言語での問合せ ChatGPT (Vector Store 連携も可能)
  16. Slack / Teams から Data QnA 多様データを基にした問合せチャット Databricksのデータに SQLDatabaseChainを使って Slackからアクセスしてみた

    - Qiita 生成AIを使ったチャットボット構築 | Databricks Blog 20230719 JP LLM on Vimeo databricks-japan/imasugu_webinar: Databricks Imasugu Webinar sample notebook (github.com) • より柔軟にユーザーからの問い合わせに対応可能 • 例)製品マニュアルやFAQなどの構造化されていないデータを元に、 ユーザーからの問合せに柔軟に回答するチャットボットを構築できる • ユーザーからの特定の分野の問い合わせにデータを元にした回答を実施 • データをベクトル化することで、類似検索が可能となり、 関連する情報を元にした回答を生成AIが作成
  17. Lakehouse に必要な要件を再定義:Lakehouse AI Lakehouse AI = 生成 AI アプリ開発に必要な全機能の総称 >

    データストア:Vector Search Index in Lakehouse > 生成 AI モデル:Model Library / AutoML (GUI) for LLM fine tuning / Evaluation (Prompt Engineering) > アプリケーション:Lakehouse Apps / AI Gateway (API Management) / Lakehouse Monitoring (監視) Lakehouse AI: Generative AIアプリケーション構築のためのデータ中心アプローチ | Databricks Blog
  18. Unity Catalog の重要性 (Data Catalog/Governance 機能) Azure Databricks の今後の将来的な Data

    AI 機能拡張は、Unity Catalog 前提となる見込み データアーキテクチャの拡張性・選択肢の幅を考慮した場合、Unity Catalog 導入は推奨 ✓ 各ワークスペース (ドメイン) の アクセスポリシーを統合管理 ✓ データガバナンスの実現 ✓ データ検出の自動化 ✓ データカタログ検索の容易性 (+ 生成 AI Lakehouse IQ) ✓ データリネージ (フェデレーション先の他 DWH 含む) ✓ データ共有の統合管理 ✓ 監査 (データアクセス / ユーザー) What is Unity Catalog? - Azure Databricks | Microsoft Learn Introducing Unity Catalog -- A Unified Governance Solution for Lakehouse - The Databricks Blog
  19. セントラルなデータ分析基盤の課題 全社統合データ基盤構築をご検討の場合、陥りがちな機能不全のリスク (※全社統合系ではない領域特化的なデータ統合基盤の場合、本課題は対象ではありません) ✓ 全社データを文字通り、1つのデータベースに格納 ✓ ビジネス多事業化に伴い、取り扱いデータの バリエーションが増大 (営業・マーケ・財務・法務・営業 (米)・営業

    (欧)・・・) ✓ 各事業・国によって異なる規制・レギュレーション ✓ 各事業部によって、使いたいツールが異なる ✓ そもそも1つのツールに決める必要はあるのか? ✓ 多くのツールをデータ基盤に導入すればするほど、 複雑怪奇な依存関係考慮が必要になり、追加に 追加の開発・改修を行い続ける必要がある ✓ 場合によっては、データ or ツール導入を断念 (データ価値・スピード感の低下) (社員のモチベーションがダウン) Data Lakehouse
  20. 次なるフロンティア:Data Mesh Architecture Data Mesh は、複雑で大規模な環境で分析データを共有・アクセス・管理するための 分散型アーキテクチャであり、組織とビジネス考慮の視点を加えたアプローチ Dehghani, Zhamak. Data

    Mesh (p.46). O‘Reilly Media. Kindle 版. Building a Data Mesh Based on the Databricks Lakehouse, Part 2 | Databricks Blog ✓ Data Domain Driven ✓ Self-Service Infrastructure ✓ Data Products (share) ✓ Federated Governance Databricks Unity Catalog は、 様々なアーキテクチャパターンへの対応力を提供 Sales Marketing Finance
  21. Microsoft Technology Centers 24 Microsoft Japan DX & AI 利活用推進を支える大規模データ基盤構築に向けたご支援

    マイクロソフトが提唱する DX データ活用のフレームワーク。 お客様・業務・社員・製品のそれぞれのデータを 有機的・動的に結合しインサイトを得ることで、 DXを全社的に進めることが可能となる。 目的 • デジタルトランスフォーメーションやAI利活用の推進への取り組みが急がれる中、その中核となるデータについては、統制がとれないまま量や種類が増大し、また伴う規制も複雑化する 中で、十分な活用が進められていない現状があり、適切なステップと判断基準で一歩踏み込んで考え、最適な構想策定を行う必要があります。 • 本ワークショップでは、日本国内外での多くのご支援実績の中で得られたリファレンスとなるマイクロソフトの知見・プラクティスを活用しながら、貴社 ToBe 要件や諸制約に基づき、 「データ活用の方向性の整理」、「ガバナンスの在り方」、「データ&プラットフォームデザイン」、「運用体制」、など包括的な検討をサポートし、ビジネス変革推進を下支えする最適なモ ダンデータ活用基盤の構築・導入の促進を支援致します。 構想の整理 (Digital Feedback loop) モダンデータ活用基盤 構想策定 の流れ 本支援のアウトプット Work1 データ活用の目的設定 活用データ洗い出し Work2 データガバナンスパターン 検討・策定 Work3 データ配置パターン 検討・策定 Work5 データ基盤の運用体制 検討 (事例紹介) データ活用の 方向性の整理 実現データ アーキテクチャ イメージ 構想実現 プロトタイプ 本番化に向けた必要なご支援・情報提供も 視野に入れていますのでご相談下さい。 合計5時間程度。業務・IT 両組織から 4-8 名。 PoC 等の予算権限のある方にオーナーになって頂き、 最終報告の実施を想定 モダンデータ基盤構想策定ワークショップ Work4 実現アーキテクチャ 検討・策定 MDP2 (Modern Data Platform Planning)
  22. 2013年 Databricks 設立当初のビジョンは、2023年最新トレンドへと変遷 Apache Spark の普及  Databricksは、Apache Sparkの普及とそのエコシステ ムの発展をサポートすることが目的

     Databricks は Apache Spark の価値を最大限引き出す、 SaaS / PaaS ライクなマネージドプラットフォーム DATAとAI の統合  データサイエンスとデータエンジニアリング間の ギャップを埋めたい  各人が同じツールセットを使用して、 コラボレーションすることを容易にする必要がある ⇒ Lakehouse Databricks の ”変革的な” ビジョンは、今も昔も大きな変化は無い -> 当時の変わったビジョンは、今ではクラウドベンダ各社もアラインする設計思想へと、トレンドが変遷 シンプルでスケーラブルなソリューション  複雑な H/W or S/W 設定を意識することなく、 シンプルかつスケーラブルなソリューションを提供  Apache Spark は最初からスケーラビリティとパフォー マンスを意識して開発され、当然のように Databricks のプラットフォームのベースとなる ⇒ Multi-Cluster / Auto scale / Serverless End-to-End の データソリューション  Databricks は、データの収集から格納、加工処理、 分析、そして BI / AI / ML モデル構築・提供まで、 ライフサイクル全体をカバーする ⇒ Workflow / Data Engineering / Lakehouse / ML LLM / Apps / Unity Catalog / Data mesh ….
  23. © Copyright Microsoft Corporation. All rights reserved. 本情報の内容 (添付文書、リンク先などを含む) は、公開日時点のものであり、予告なく変更される場合があります。

    本コンテンツの著作権、および本コンテンツ中に出てくる商標権、団体名、ロゴ、製品、サービスなどはそれぞれ、各権利保有者に帰属する。