データ基盤を支える技術

データ基盤を⽀える技術 chanyou

Yu Nakamura - chanyou ‧ DRE ← Data Engineer ←
SWE ‧ X: @chanyou0311 ‧ GCP BigQuery ‧ Azure Databricks ‧ おうち Kubernetes クラスタ

ゴール ‧データ基盤の構成要素がわかる ‧データ基盤を構成する技術スタックがイメージできるなんかデータ分析基盤作れそう！作ってみたい 💪

注意 ‧AWS と Azure 固有のサービスは触れられてません ‧GCP に類似したサービスはあるはず… ‧だいたい Databricks で対応できます

Databricks

データ基盤の構成要素

データ基盤とは？

データを保存‧加⼯‧活⽤するシステム群のこと

クラウド時代のデータ基盤はどうあるべき？

“モダンデータスタック”

https://snowplow.io/blog/modern-data-stack/

クラウドサービスの組み合わせでデータ基盤が作れてしまう

データ基盤の主な構成要素を紐解いていく

データ基盤の構成要素 ‧ストレージ ‧ELT ‧データモデリング ‧カタログ ‧データ品質保証 ‧MLOps / BI https://snowplow.io/blog/modern-data-stack/

ストレージ

ストレージ ‧データウェアハウス ‧データレイク ‧データレイクハウス

データウェアハウス ‧構造データをサクッと取り出せるストレージ ‧BigQuery, Snowﬂake など

データレイク ‧構造‧⾮構造どちらも保存できるストレージ ‧S3 や GCS など ‧画像や⾳声を使ってMLモデル作りたい、に応える ‧構造データはデータウェアハウスに転送する

データレイクハウス ‧データレイクにデータウェアハウスを内包する思想 ‧構造データとして Delta Lake などを採⽤ ‧ACID トランザクションの担保 ‧実体は列指向の Parquet
ファイル ‧マネージドサービスとして Databricks Unity Catalog

ストレージ ‧データウェアハウス ‧データレイク ‧データレイクハウス

ELT ‧Extract ‧Load ‧Transform

ELT vs ETL ‧ELT: 外部データをそのままストレージにロードして後から変換する ‧ETL: 外部データを変換してからストレージにロードする最近は ELT が主流
ストレージコストが安価、後から変換をやり直せるため

ETL 全部できるもの ‧GCP Dataﬂow / Apache Beam ‧Databricks Delta Live
Tables ‧trocco / Embulk / Fluentd ‧Jupyter Notebook / Spark ‧お⼿製スクリプトと任意の実⾏環境

Extract と Load 特化 ‧Fivetran ‧Airbyte Cloud / Airbyte ‧dlt
‧trocco / Embulk / Fluentd 多数のコネクタを持ち合わせている接続したいサービスの token を渡すだけで連携できる例: S3 に保存された⽣ログをそのまま BigQuery に転送

Fivetran が⼀強（豊富な連携先、安定性） https://classmethod.jp/partner/ﬁvetran/

Transform 特化 ‧dbt Cloud / dbt Core ‧GCP Dataform ‧Databricks
Delta Live Tables ストレージにロード済みのデータを変換する SQL ベースで冪等に処理できるものが好まれる

dbt がデファクトスタンダード的ポジション ‧token 設定して SQL ファイル書いて実⾏するだけ ‧結果がテーブルとして書き込まれる ‧別の SQL ファイルの結果を利⽤して
SQL ファイルを書ける ‧依存関係を解決して⾃動で適切な順序でテーブルを⽣成してくれる ‧ストレージや実⾏環境にロックインされない ‧dbt は SQL のコンパイルを⾏うのがメイン ‧実際の変換処理はストレージ標準の計算リソースを利⽤する

dbt がデファクトスタンダード的ポジション ‧データエンジニアリングに SWE の⽂化を持ち込める ‧データテスト、単体テスト、ドキュメンテーション ‧オープンソースでプラグイン開発が容易 ‧Web Framework のプラグインのように
dbt ライブラリが豊富 ‧クラウド ↔ セルフホストを⾏き来できる ‧最初は dbt Cloud に頼る ‧コストが気になったら GitHub Actions で dbt Core に切替とか

dbt integration なサービスが豊富 ‧Fivetran, Airbyte, troccoなど Extruct / Load に特化したサービスで
dbt に対応 ‧Databricks Jobs などのワークフローのステップに dbt が使える https://prtimes.jp/main/html/rd/p/000000046.000039164.html

その他の要素

データモデリング ‧ファクトテーブル、ディメンションテーブルの実装 ‧分析のための集約テーブルの実装 Transform の作り込み Notebook ベースでも実装可能だが、保守性が低い dbt ⼀択な印象

カタログ ‧テーブルやカラムのメタデータ管理ツール ‧分析時に⾏や列の意味がわからないとしんどい ‧GCP Data Catalog ‧BigQuery テーブル詳細画⾯ ‧dbt docs

データ品質保証 ‧これだけで1テーマになってしまう ‧データの品質とはなにか？ ‧完全性、⼀意性、適時性、可⽤性… ‧dbt test + elementary ‧レコードに重複が発⽣したらアラートを出す ‧存在しない
FK がデータに含まれていたら(ry ‧データが反映されるべき時刻に挿⼊されてなかったら(ry

MLOps / BI ‧MLOps ‧実験環境、モデルレジストリ、モデルのサービング ‧GCP Vertex AI ‧Databricks MLFlow
‧BI ‧Tableau / PowerBI / Looker ‧Superset / Metabase

データ基盤の構成要素のまとめ

マネージドサービスセルフホスト Storage Extract Load Transform DataModeling Catalog
品質 MLOps BI dbt BigQuery DuckDB Unity Catalog Airbyte Fivetran Dataform Vertex AI Superset Metabas e Looker Tableau Snowﬂak e Data Catalog trocco Embulk Delta Live Tables Unity Catalog Dataﬂow BigQuery MLFlow Dashboard

まとめ ‧パブリッククラウド以外の選択肢も豊富 ‧OSS のマネージドサービスが近年増えている ‧パブリッククラウドにロックインされず健全 ‧選択肢がありすぎて、技術選定が難しい ‧ストレージと Fivetran と dbt
があればなんとかなる

⽂献 ‧データマネジメント知識体系ガイド第⼆版 ‧ビッグデータを⽀える技術 ‧データエンジニアリングの基礎

データ基盤を支える技術

データ基盤を支える技術

More Decks by chanyou0311

Other Decks in Technology

Featured

Transcript