Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Cloud scale analytics on Azure について

Cloud scale analytics on Azure について

Ryoma Nagata

April 28, 2023
Tweet

More Decks by Ryoma Nagata

Other Decks in Technology

Transcript

  1. Cloud scale analytics on Azure について Microsoft MVP for Data

    Platform 永田 亮磨 Twitter: @ryomaru0825 Linkedin: ryoma-nagata-0825 Qiita: ryoma-nagata
  2. deck 自己紹介 永田 亮磨(Ryoma Nagata) • Microsoft MVP for Data

    Platform • Databricks Solutions Architect Champion • 株式会社ジール • Microsoft Data Analytics Solution の導入など • 主な活動場所 • Qiita : @ryoma-nagata • Twitter : @ryomaru0825 • connpass : • JSSUG (Japan SQL Server User Group) • JEDAI - The Data & AI Meetup MVP Profile
  3. deck • 対象 • データ基盤の構築運用に関わる技術者 • 話すこと • Azure を中心としたデータプラットフォームのフレームワークについて

    • 話さないこと • 各 Azure サービスの詳細解説 • スライドの共有については connpass への up およびスライド上にQRコード記載 このセッションについて
  4. deck • 用途やポリシーごとに構成されたマルチサブスクリプション環境 • Azure をスケーラブルに統制、運用していくうえでのプラットフォーム機能とワー クロードを実現するためのアプリケーション機能で大きくわかれる • プラットフォームランディングゾーン •

    ADなどのID管理 • 専用線/VPN など、オンプレミスNWとの接続や、ハブFWの管理 • ログ一元化、解析などのSEIM領域 • アプリケーションランディングゾーン • 社内サービス/オンラインサービス • Azure には各種のワークロードに対してのリファレンスアーキテクチャがあり、それをランディン グゾーンとして分離、構成する • ランディングゾーンは反復可能であり、同じワークロードに対しては、組織に同じ構成セット を配布される はじめに Azure ランディングゾーンとは • Azure ランディング ゾーンとは - Cloud Adoption Framework | Microsoft Docs プラットフォーム アプリケーション サンドボックス
  5. deck • クラウド導入フレームワーク(CAF)をデータマネジメント向けに 定義したフレームワーク • 初期戦略の定義からデータワークロード用ランディングゾーンの実装方 法、成熟度モデル、運用における役割と責任などが提供されている • 主な技術領域 •

    最新のデータプラットフォームの活用 • セルフサービスに重点をおきデータメッシュを考慮したデータ分析関連機能 • 大小規模に対応可能な組織全体で反復可能なプラットフォーム • データガバナンスの導入 • メタデータ管理、データ資産へのアクセシビリティやポリシー、データ品質の向 上 • データ資産の保護 Cloud scale analytics on Azure クラウド規模の分析 • クラウド規模の分析 - Azure 向けの Microsoft Cloud 導入フレームワーク - Cloud Adoption Framework | Microsoft Learn
  6. deck • クラウド規模の分析のシナリオでは、セルフサービスデータ活用を実現するためのアーキテクチャがデザイ ンされており、活用を強化するためのデータ製品指向が重視されている • データ製品指向・・・データを製品とみなすことで、データに対する統制内容を具体化する考え方 • データ製品の基本的特性 • 検出、説明性:たとえばECサイトのように

    • 製品は発見が可能な状態(市場化)で、製品を説明するドキュメントを設ける(データカタログ) • データ契約:たとえばクラウドサービスのように • 製品の利用方法と品質の基準(SLO)を定義し、監視する(データオブザーバビリティ) • 製品の所有者とデータ利用のポリシーを定め、統制する(データオーナーシップ、データポリシー) • 相互運用性:たとえばねじや工具のように • 製品を異なる目的、場所でも同じように再利用するための規格を定める(データ標準化) キーワード:データ製品指向(Data as Product)
  7. deck • 2種類のランディングゾーンが構成される • データマネジメントを中核にデータ領域や規模に合わ せて複数のデータランディングゾーンを構成することで、 スケーラビリティを確保する • データ管理ランディングゾーン •

    データガバナンスやデータカタログ、マスターデータ管理、 APIやデータの共有の仕組みなど、集中管理が行われる 機能を構成する • データランディングゾーン • データレイクを中心に、データ分析およびAIソリューションを 構成する。組織内に1~N個となる クラウド規模の分析におけるランディングゾーン
  8. deck データ管理ランディングゾーン アーキテクチャ データマネジメントコンポーネント • Purview を中心としたデータガバナンス関連機能を集中的に構成 • データカタログ:メタデータ整備と探索 •

    データシェアリング:データ所有者によるセルフサービスデータ共有 • データポリシー:データ消費者へのアクセス管理 • データインサイト:データガバナンス状況の分析 • データマップ:データの検出と自動分類 • マスターデータ管理や、ポータルサイトなどの関連機能は Azure マネージド ソリューションというよりはカスタムソリューションで構成 インフラストラクチャーコンポーネント • Vnet を配置し、Private Link や VM などを配置する • ハブ Vnet を構成したプラットフォームランディングゾーン と Vnet Peering • データランディングゾーンと Vnet Peering
  9. deck データランディングゾーン 基本サービス • データランディングゾーンでは、これらの機能にまたがるサービスをコンポーネントとしてテンプレート化、再利用する 生データ 標準化 分析 サンドボックス Azure

    Data Lake Storage Gen2 ストレージ データ インテグレーション データ エンジニアリング データ サイエンス クエリ、BI Azure Synapse Analytics Azure Databricks AI,ML Azure Data Factory Azure Cognitive Services Azure Machine Learning
  10. deck データランディングゾーンアーキテクチャ コアサービス • データプラットフォームコンポーネント • Data Lake : 生/利用可能/調整済み

    に合わせた複数のストレージと 作業場 所用のストレージを提供する • 複数の Data Factory が共用するためのセルフホステッド統合ランタイム • Option) メタデータ入力による自動取り込み機構 • Option) データの探索のみを目的とした共用 Synapse / Databricks • インフラストラクチャーコンポーネント • Vnet および NSGなど • ハブ Vnet を構成したプラットフォームランディングゾーン と Vnet Peering • データ管理ランディングゾーンと Vnet Peering データアプリケーション • Synapse か Databricks with Data Factory のどちらかをデータ利活用プロジェクト チームのスキルセットや、要件に合わせて選択(データ整備のためだけのData Factory という パターンも) • 必要に応じて、Azure ML や Cognitive Services 、その他の PaaS データベースを 追 加する
  11. deck 複数のデータランディングゾーン *スライド末の付録として関連スライドを記載 • 大規模な組織では、ドメインごとにデータラン ディングゾーンを作成することでデータメッシュ 構成をとる • データの管理方法を標準化し、お互いのドメ インで相互運用を可能にする

    • Delta Lake* を標準フォーマットとして採用す ることで、標準化だけでなくデータの管理性とパ フォーマンスを向上する • 生/利用可能/調整済み のように多段的なデー タレイクの管理方法*についても統制
  12. deck ランディングゾーンのチームにおけるデプロイ、運用 サブスクリプションの払出 NWなどほかのランディン グゾーンとの接続の構成 プラットフォームグループ ランディングゾーングループ(N) 開発運用 データランディングゾーンのポリシー、 テンプレートの開発

    データ管理ランディングゾーンの運用 クラウド全体の運用 デプロイテンプレートの提供 データランディングゾーンの運用 データアプリケーションの作成サポート データランディングゾーン(N) デプロイ、運用監視 テンプレートの提供 とサポート データアプリケーションの開発、運用 コアサービス(1/LZ) データ アプリケーション(N/LZ) データ管理 ランディングゾーン(1) プラットフォーム ランディングゾーン(1) デプロイ、運用監視 デプロイ、運用監視 Vnet peering
  13. deck • 関連情報として以下のリソースをぜひご活用ください • Microsoft Ignite 2022 : Data Platform

    MVP から見た、Azure Data Platform 最新動向 (delivered in Japanese) (microsoft.com) • スライド: Data Platform MVP から見た、Azure Data Platform 最新動向 (Analytics) - Speaker Deck • What's Data Lake ? Azure Data Lake best practice - Speaker Deck • Lakehouse_medallion - Speaker Deck ご清聴ありがとうございました