Slide 1

Slide 1 text

DX推進に必須のデータ基盤最新動向2023
 クラスメソッド株式会社
 データアナリティクス事業本部 ビジネスソリューション部
 
 甲木 洋介
 2023.10.12
 1 クラウド時代のデータ活用基盤!最新動向と応用を徹底解説

Slide 2

Slide 2 text

氏名  甲木 洋介(かつき ようすけ) 所属  データアナリティクス事業本部  ビジネスソリューション部 プリセールスアーキテクト 主な担当  データ分析お悩み相談~システム妄想~設計~提案~プロジェクト引き渡し 書籍  みんなのAWS 〜アカウント開設からベストプラクティスまで〜 認定  AWS Certified Solutions Architect - Professional  AWS Certified Data Analytics - Specialty  Snowflake Data Superheroes 2022, 2023 自己紹介 @yokatsuki 2

Slide 3

Slide 3 text

3 本セッションでお伝えする内容 1.2023年上半期におけるデータ基盤の最新動向
 2.クラウドデータウェアハウスの特徴紹介
 3.サービス選択のポイント+α
 4.まとめ


Slide 4

Slide 4 text

1. 2023年上半期におけるデータ基盤の最新動向

Slide 5

Slide 5 text

5 2023年上半期データ基盤最新動向 • データ活用を目的とする基盤導入は継続して活発
 • 基本的な技術要素はここ数年大きくは変わらず
 データウェアハウス/データレイクが出発点
 • 従来概念を拡張する新しい概念が登場
 データメッシュ:
 データウェアハウス/データレイクのデータを相互に交換
 データクリーンルーム:
 お互いのデータの公開可能な一部だけをそれぞれ持ち寄る
 個人情報を保護しつつ、より精度の高いデータ蓄積


Slide 6

Slide 6 text

6 2023年上半期データ基盤最新動向 • 一方、肝心の「データ利活用」については進んでいない
 所謂「データドリブン経営」が進んでいない
 何が/どうなった時/何をするのかが決まっていない
 メタデータ整備が進んでいない
 業務視点でデータを見ることができていない
 AIに過剰な期待をしていて、手を動かしていない
 データ利活用の為の人/時間/費用投資が進んでいない
 データの整備に対する価値をトップが認めていない


Slide 7

Slide 7 text

7 データ利活用事例:福岡地所様 https://classmethod.jp/cases/fukuokajisho/

Slide 8

Slide 8 text

8 データ利活用事例:福岡地所様 https://dev.classmethod.jp/articles/jawsfesta2023_session_kyushu_03/ 「データは経営資源であり、 経営資源管理は経営側の責務である」

Slide 9

Slide 9 text

9 データ利活用事例:福岡地所様 https://dev.classmethod.jp/news/showcase-2023/

Slide 10

Slide 10 text

2. クラウドデータウェアハウスの特徴紹介

Slide 11

Slide 11 text

11 Google BigQuery • Google Cloudが提供するクラウド データ ウェアハウス
 • 特徴
 Google独自技術(Dremel/Colossus/Jupiter/Borg)をベースと し、フロントはSQL、バックはNoSQLのような高度な分散技術 の実装


Slide 12

Slide 12 text

12 Google BigQuery • 性能調整
 「スロット」と呼ばれる仮想CPU数を調整
 自動バースト(オンデマンド)
 追加購入(定額料金)
 • 料金体系
 基本はユーザがアクセスしたデータ量単位による
 オンデマンド課金
 一定期間のスロット利用権を購入する定額料金もある


Slide 13

Slide 13 text

13 Amazon Redshift • AWSが提供するデータウェアハウスサービス
 • 特徴
 PostgreSQLと共通の祖先を持つRDBを機能拡張
 リーダーノード+コンピュートノードの分散クラスタ構成


Slide 14

Slide 14 text

14 Amazon Redshift • 性能調整
 クラスタを構成するコンピュートノードの
 台数増加(スケールアウト)
 インスタンスタイプ変更(スケールアップ)
 • 料金体系
 基本はクラスタの稼働時間課金
 コンピュートノード単価 ✕ ノード台数 ✕ 稼働時間
 ※RA3は月額のマネージドストレージ利用料金が発生


Slide 15

Slide 15 text

15 Amazon Redshift Serverless • 2022年7月13日、Redshift Serverlessが一般提供開始
 • クラスタを構成するインスタンス管理を自動化
 RPU(Redshift Processing Unit)単位で
 クエリの特性やリクエスト数に応じて、
 自動的にスケーリング(上限/下限設定可)
 • RPU数 ✕ RPU稼働時間 + ストレージ利用料金


Slide 16

Slide 16 text

16 Snowflake • Snowflakeが提供するクラウドデータプラットフォーム
 • 特徴
 Oracle Databaseの元開発者達がクラウド時代に適した分析プ ラットフォームを開発
 契約時に選択したIaaS(AWS/Azure/Google Cloud)の上で稼 働


Slide 17

Slide 17 text

17 Snowflake • 性能調整
 「仮想ウェアハウス」と呼ばれる、各IaaSの仮想マシンを仮想 化したコンピューティング環境のインスタンスタイプ(XS / S / M / L…)を変更
 • 料金体系
 大雑把には仮想ウェアハウス毎稼働時間+ストレージ利用料 金で課金
 ※他にもクラウドプラットフォームの種類やリージョン、契約エディショ ンなどで料金の係数が変化する


Slide 18

Slide 18 text

18 Databricks • Databricksが提供するレイクハウス・プラットフォーム
 • 特徴
 Apache Sparkの開発者が作った
 マネージドSpark+α環境
 (Delta Lake等)
 Databricksの管理環境
 (コントロールプレーン)から、
 別途契約したIaaS環境を実行環境
 (データプレーン)として
 仮想マシンやストレージを利用


Slide 19

Slide 19 text

19 Databricks • 性能調整
 実行に選択する仮想マシンのインスタンス数とインスタンスタ イプで性能調整
 • 料金体系
 基本は以下の組み合わせ
 利用プラン/クラウドプラットフォーム/リージョン/インスタンスタイプ/イ ンスタンス数/起動時間


Slide 20

Slide 20 text

3. サービスの選択ポイント

Slide 21

Slide 21 text

21 の前に、お奨めしない選択方法

Slide 22

Slide 22 text

22 ○✕表で比較する

Slide 23

Slide 23 text

23 ◯✕表で比較する • ○✕表で本当に適切なサービスが選べますか?
 ○が多いもの選びがち → 必要な機能がなかった
 • クラウド時代、✕はどんどん○になる
 BigQueryトランザクション処理
 Redshift Serverless(インスタンス管理不要)
 Databricks Delta Sharing(データ共有)
 Snowflake Snowpark(アプリケーション実行)
 VARIANT型/SUPER型(半構造化データの格納/検索)


Slide 24

Slide 24 text

24 利用費の詳細な見積計算

Slide 25

Slide 25 text

25 利用費の詳細な見積計算 • 利用費に影響する要素
 利用プラットフォーム(リージョン)
 利用想定エディション/プラン
 保存データ容量(非圧縮時/圧縮時)
 処理を完了するまでの時間
 処理対象のデータ量
 入出力データ量(日/月あたり)
 • 各サービスの無料利用枠を活用
 あたりをつける
 • 複雑な計算や大量のデータ入出力には相応の料金が掛かる


Slide 26

Slide 26 text

3. サービスの選択ポイント

Slide 27

Slide 27 text

27 主なデータ発生源はどこか • 各IaaSのアウトバウンド通信費がポイント
 IaaS基盤にデータを入れるのは無料、出すのは有料
 • 発生データが多いクラウドサービスを中心に据える
 主な分析データはFirebaseやGoogle Analyticsなら、
 リンク設定でBigQueryを使用すれば簡単


Slide 28

Slide 28 text

28 データをどのような形で管理するか • 整然データ(RDBで扱うようなテーブル構造)
 厳密なテーブル設計を行う
 データ格納とELT/ETL処理の負担が大き目
 整理されたデータしか入らないので分析操作が楽
 • 半構造化データ(json等)
 データ定義の柔軟性を高くできる
 データ格納工数もシンプル
 データ集計、分析処理の負担比率が高い
 直接テーブル取り込み、検索可能なデータ型が進化


Slide 29

Slide 29 text

29 手持ち技術は何が使えるか • 開発、保守に携わる技術者のベース技術は何か
 データベース管理者:SQL
 アプリケーション開発者:各プログラミング言語+API
 • 基盤保守に必要な技術は低下傾向
 物理設計が段々と不要に


Slide 30

Slide 30 text

4. まとめ

Slide 31

Slide 31 text

31 まとめ • データ基盤の導入は活発だが、データ利活用までは未だ半ば
 社内のデータを社員がより詳しく調べているかが鍵
 • データウェアハウスサービスの選択は、機能比較よりも、
 サービスを利用する環境で選択する事が現実的
 データライフサイクル(発生〜処理〜提供〜削除)
 サービスを開発、運用する技術者のスキルセット
 • それぞれのサービスは切磋琢磨している
 新機能は継続的に確認、活用を検討せよ
 • 基盤導入後に見えてくる視界と欲しくなる新機能が存在する
 Reverse ETL / Data Application / Generative AI…


Slide 32

Slide 32 text

32