Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ基盤を支える技術
Search
chanyou0311
May 09, 2024
Technology
5
3k
データ基盤を支える技術
主にクラウドの話してます - 広島 での登壇資料です。
https://omoni-cloud.connpass.com/event/315682/
chanyou0311
May 09, 2024
Tweet
Share
More Decks by chanyou0311
See All by chanyou0311
おうちk8s入門 - すごい広島 IT初心者の会 [84]
chanyou0311
1
120
オンラインコミュニケーションの課題と、その乗り越え方
chanyou0311
0
400
データ分析基盤のはじめかた
chanyou0311
0
1.2k
ゼロから始める Python パッケージ配布
chanyou0311
0
250
フルリモートでもチームを作れる、超えられる!
chanyou0311
0
540
ひとり研修の体験談
chanyou0311
0
60
2020年、広島の地域 Python コミュニティの挑戦
chanyou0311
0
130
connpass-feeder で気になるイベントに参加しまくる!
chanyou0311
0
100
quicktype を使って爆速で型定義する
chanyou0311
0
480
Other Decks in Technology
See All in Technology
エムスリーマルチデバイスチーム紹介資料 / Introduction of M3 Multi Device Team
m3_engineering
1
170
Oracle Cloud Infrastructureデータベース・クラウド:各バージョンのサポート期間
oracle4engineer
PRO
12
7.9k
サービス開発におけるVue3とTypeScriptの親和性について
tsukuha
10
1.8k
株式会社EventHub・エンジニア採用資料
eventhub
0
2.1k
1Q86
kawaguti
PRO
2
190
20240516 OpenID TechNight Vol.21 「OIDFシェアードシグナルフレームワーク(ID2)を利用してリアルタイムでセキュリティシグナルを共有するための最新情報」
oidfj
0
170
多言語化対応における TypeScript の型定義を通して開発のしやすさについて考えた / TSKaigi TypeScript Multilingualization
nabeliwo
2
400
LINEヤフーのウェブアクセシビリティ
lycorptech_jp
PRO
3
210
OpenID Foundation updates
fujie
0
240
QA経験のないエンジニアリング マネージャーがQAのカジュアル面談に出て 苦労していること・気づいたこと / scrum fest niigata 2024
yoshikiiida
2
680
TailwindCSSでUIライブラリを作る際のハマりどころ
shuta13
0
230
動画配信サービスのフロントエンド実装に学ぶ設計原則
yud0uhu
1
140
Featured
See All Featured
Keith and Marios Guide to Fast Websites
keithpitt
408
22k
A Tale of Four Properties
chriscoyier
153
22k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
228
16k
How GitHub Uses GitHub to Build GitHub
holman
468
290k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
23
1.7k
The Mythical Team-Month
searls
217
42k
Become a Pro
speakerdeck
PRO
13
4.6k
What's in a price? How to price your products and services
michaelherold
238
11k
Building an army of robots
kneath
300
42k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
15
1.6k
Atom: Resistance is Futile
akmur
260
25k
Fontdeck: Realign not Redesign
paulrobertlloyd
76
4.9k
Transcript
データ基盤を支える技術 chanyou
Yu Nakamura - chanyou • DRE ← Data Engineer ←
SWE • X: @chanyou0311 • GCP BigQuery • Azure Databricks • おうち Kubernetes クラスタ
ゴール • データ基盤の構成要素がわかる • データ基盤を構成する技術スタックがイメージできる なんかデータ分析基盤作れそう!作ってみたい 💪
注意 • AWS と Azure 固有のサービスは触れられてません • GCP に類似したサービスはあるはず… •
だいたい Databricks で対応できます
Databricks
データ基盤の構成要素
データ基盤とは?
データを保存・加工・活用する システム群のこと
クラウド時代のデータ基盤は どうあるべき?
“モダンデータスタック”
https://snowplow.io/blog/modern-data-stack/
クラウドサービスの組み合わせで データ基盤が作れてしまう
データ基盤の主な構成要素を 紐解いていく
データ基盤の構成要素 • ストレージ • ELT • データモデリング • カタログ •
データ品質保証 • MLOps / BI https://snowplow.io/blog/modern-data-stack/
データ基盤の構成要素 • ストレージ • ELT • データモデリング • カタログ •
データ品質保証 • MLOps / BI https://snowplow.io/blog/modern-data-stack/
ストレージ
ストレージ • データウェアハウス • データレイク • データレイクハウス
データウェアハウス • 構造データをサクッと取り出せるストレージ • BigQuery, Snowflake など
データレイク • 構造・非構造どちらも保存できるストレージ • S3 や GCS など • 画像や音声を使ってMLモデル作りたい、に応える
• 構造データはデータウェアハウスに転送する
データレイクハウス • データレイクにデータウェアハウスを内包する思想 • 構造データとして Delta Lake などを採用 • ACID
トランザクションの担保 • 実体は列指向の Parquet ファイル • マネージドサービスとして Databricks Unity Catalog
ストレージ • データウェアハウス • データレイク • データレイクハウス
ELT
ELT • Extract • Load • Transform
ELT vs ETL • ELT: 外部データをそのままストレージにロードして後から変換する • ETL: 外部データを変換してからストレージにロードする 最近は
ELT が主流 ストレージコストが安価、後から変換をやり直せるため
ETL 全部できるもの • GCP Dataflow / Apache Beam • Databricks
Delta Live Tables • trocco / Embulk / Fluentd • Jupyter Notebook / Spark • お手製スクリプトと任意の実行環境
Extract と Load 特化 • Fivetran • Airbyte Cloud /
Airbyte • dlt • trocco / Embulk / Fluentd 多数のコネクタを持ち合わせている 接続したいサービスの token を渡すだけで連携できる 例: S3 に保存された生ログをそのまま BigQuery に転送
Fivetran が一強(豊富な連携先、安定性) https://classmethod.jp/partner/fivetran/
Transform 特化 • dbt Cloud / dbt Core • GCP
Dataform • Databricks Delta Live Tables ストレージにロード済みのデータを変換する SQL ベースで冪等に処理できるものが好まれる
dbt がデファクトスタンダード的ポジション • token 設定して SQL ファイル書いて実行するだけ • 結果がテーブルとして書き込まれる •
別の SQL ファイルの結果を利用して SQL ファイルを書ける • 依存関係を解決して自動で適切な順序でテーブルを生成してくれる • ストレージや実行環境にロックインされない • dbt は SQL のコンパイルを行うのがメイン • 実際の変換処理はストレージ標準の計算リソースを利用する
dbt がデファクトスタンダード的ポジション • データエンジニアリングに SWE の文化を持ち込める • データテスト、単体テスト、ドキュメンテーション • オープンソースでプラグイン開発が容易
• Web Framework のプラグインのように dbt ライブラリが豊富 • クラウド ↔ セルフホストを行き来できる • 最初は dbt Cloud に頼る • コストが気になったら GitHub Actions で dbt Core に切替とか
dbt integration なサービスが豊富 • Fivetran, Airbyte, troccoなど Extruct / Load
に特化したサービスで dbt に対応 • Databricks Jobs などのワークフローのステップに dbt が使える https://prtimes.jp/main/html/rd/p/000000046.000039164.html
その他の要素
データ基盤の構成要素 • ストレージ • ELT • データモデリング • カタログ •
データ品質保証 • MLOps / BI https://snowplow.io/blog/modern-data-stack/
データモデリング • ファクトテーブル、ディメンションテーブルの実装 • 分析のための集約テーブルの実装 Transform の作り込み Notebook ベースでも実装可能だが、保守性が低い dbt
一択な印象
カタログ • テーブルやカラムのメタデータ管理ツール • 分析時に行や列の意味がわからないとしんどい • GCP Data Catalog •
BigQuery テーブル詳細画面 • dbt docs
データ品質保証 • これだけで1テーマになってしまう • データの品質とはなにか? • 完全性、一意性、適時性、可用性… • dbt test
+ elementary • レコードに重複が発生したらアラートを出す • 存在しない FK がデータに含まれていたら(ry • データが反映されるべき時刻に挿入されてなかったら(ry
MLOps / BI • MLOps • 実験環境、モデルレジストリ、モデルのサービング • GCP Vertex
AI • Databricks MLFlow • BI • Tableau / PowerBI / Looker • Superset / Metabase
データ基盤の構成要素 • ストレージ • ELT • データモデリング • カタログ •
データ品質保証 • MLOps / BI https://snowplow.io/blog/modern-data-stack/
データ基盤の構成要素のまとめ
マネージド サービス セルフ ホスト Storage Extract Load Transform DataModeling Catalog
品質 MLOps BI dbt BigQuery DuckDB Unity Catalog Airbyte Fivetran Dataform Vertex AI Superset Metabase Looker Tableau Snowflake Data Catalog trocco Embulk Delta Live Tables Unity Catalog Dataflow BigQuery MLFlow Dashboard
まとめ • パブリッククラウド以外の選択肢も豊富 • OSS のマネージドサービスが近年増えている • パブリッククラウドにロックインされず健全 • 選択肢がありすぎて、技術選定が難しい
• ストレージと Fivetran と dbt があればなんとかなる
文献 • データマネジメント知識体系ガイド 第二版 • ビッグデータを支える技術 • データエンジニアリングの基礎