Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DX推進に必須のデータ基盤最新動向2023

 DX推進に必須のデータ基盤最新動向2023

2023.10.12開催ウェビナー
「クラウド時代のデータ活用基盤!最新動向と応用を徹底解説」にて発表

イベント紹介ページ:
https://dev.classmethod.jp/news/231012-data-webinar/

Yosuke Katsuki

October 13, 2023
Tweet

More Decks by Yosuke Katsuki

Other Decks in Technology

Transcript

  1. 氏名  甲木 洋介(かつき ようすけ) 所属  データアナリティクス事業本部  ビジネスソリューション部 プリセールスアーキテクト 主な担当  データ分析お悩み相談~システム妄想~設計~提案~プロジェクト引き渡し 書籍

     みんなのAWS 〜アカウント開設からベストプラクティスまで〜 認定  AWS Certified Solutions Architect - Professional  AWS Certified Data Analytics - Specialty  Snowflake Data Superheroes 2022, 2023 自己紹介 @yokatsuki 2
  2. 5 2023年上半期データ基盤最新動向 • データ活用を目的とする基盤導入は継続して活発
 • 基本的な技術要素はここ数年大きくは変わらず
 データウェアハウス/データレイクが出発点
 • 従来概念を拡張する新しい概念が登場
 データメッシュ:


    データウェアハウス/データレイクのデータを相互に交換
 データクリーンルーム:
 お互いのデータの公開可能な一部だけをそれぞれ持ち寄る
 個人情報を保護しつつ、より精度の高いデータ蓄積

  3. 11 Google BigQuery • Google Cloudが提供するクラウド データ ウェアハウス
 • 特徴


    Google独自技術(Dremel/Colossus/Jupiter/Borg)をベースと し、フロントはSQL、バックはNoSQLのような高度な分散技術 の実装

  4. 12 Google BigQuery • 性能調整
 「スロット」と呼ばれる仮想CPU数を調整
 自動バースト(オンデマンド)
 追加購入(定額料金)
 • 料金体系


    基本はユーザがアクセスしたデータ量単位による
 オンデマンド課金
 一定期間のスロット利用権を購入する定額料金もある

  5. 14 Amazon Redshift • 性能調整
 クラスタを構成するコンピュートノードの
 台数増加(スケールアウト)
 インスタンスタイプ変更(スケールアップ)
 • 料金体系


    基本はクラスタの稼働時間課金
 コンピュートノード単価 ✕ ノード台数 ✕ 稼働時間
 ※RA3は月額のマネージドストレージ利用料金が発生

  6. 15 Amazon Redshift Serverless • 2022年7月13日、Redshift Serverlessが一般提供開始
 • クラスタを構成するインスタンス管理を自動化
 RPU(Redshift

    Processing Unit)単位で
 クエリの特性やリクエスト数に応じて、
 自動的にスケーリング(上限/下限設定可)
 • RPU数 ✕ RPU稼働時間 + ストレージ利用料金

  7. 17 Snowflake • 性能調整
 「仮想ウェアハウス」と呼ばれる、各IaaSの仮想マシンを仮想 化したコンピューティング環境のインスタンスタイプ(XS / S / M

    / L…)を変更
 • 料金体系
 大雑把には仮想ウェアハウス毎稼働時間+ストレージ利用料 金で課金
 ※他にもクラウドプラットフォームの種類やリージョン、契約エディショ ンなどで料金の係数が変化する

  8. 18 Databricks • Databricksが提供するレイクハウス・プラットフォーム
 • 特徴
 Apache Sparkの開発者が作った
 マネージドSpark+α環境
 (Delta

    Lake等)
 Databricksの管理環境
 (コントロールプレーン)から、
 別途契約したIaaS環境を実行環境
 (データプレーン)として
 仮想マシンやストレージを利用

  9. 23 ◯✕表で比較する • ◦✕表で本当に適切なサービスが選べますか?
 ◦が多いもの選びがち → 必要な機能がなかった
 • クラウド時代、✕はどんどん◦になる
 BigQueryトランザクション処理


    Redshift Serverless(インスタンス管理不要)
 Databricks Delta Sharing(データ共有)
 Snowflake Snowpark(アプリケーション実行)
 VARIANT型/SUPER型(半構造化データの格納/検索)

  10. 32