Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
改訂新版 データ分析基盤入門
Search
Yuki
March 03, 2025
2
13
改訂新版 データ分析基盤入門
3/3 インフラエンジニアBooks 30分でわかる「改訂新版 データ分析基盤入門」@APコミュニケーションズ YUKI SAITO
での登壇資料です。
Yuki
March 03, 2025
Tweet
Share
More Decks by Yuki
See All by Yuki
品質特性から眺める データ分析基盤入門
yuki_saito
4
410
データエンジニアと作るデータ文化
yuki_saito
5
2.8k
Pythonとsparkで学ぶpyspark 速習講座
yuki_saito
2
220
AWS データレイク事例祭り 登壇資料
yuki_saito
7
3.6k
Data Platform
yuki_saito
1
380
ミライのデータエンジニア
yuki_saito
1
920
Featured
See All Featured
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
7
640
A Modern Web Designer's Workflow
chriscoyier
693
190k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
How STYLIGHT went responsive
nonsquared
98
5.4k
Build The Right Thing And Hit Your Dates
maggiecrowley
34
2.5k
Navigating Team Friction
lara
183
15k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Measuring & Analyzing Core Web Vitals
bluesmoon
6
260
Unsuck your backbone
ammeep
669
57k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.5k
A better future with KSS
kneath
238
17k
Transcript
改訂新版 データ分析基盤入 門 3/3 インフラエンジニア Books 30分でわかる「改訂新版 データ分析基盤入門」 @APコミュニケーションズ YUKI
SAITO
@yuki_saito_en 斎藤 友樹(SAITO YUKI) 2 https://menta.work/plan/2650 https://www.udemy.com/user/yuki-saito-7/ @yuki_saito_en https://service.visasq.com/users/6078548267368448 趣味に生きる人(エンジニア)
https://note.com/yukinkoyuki
@yuki_saito_en 3 エンジニアのためのデータ分析基盤入門とは? データ分析基盤のコンテキスト (データ量、規模、ユースケース など)を理解して、適切な技術と機能を選べるようにする。 ことを目指した本(の基本編)です エンジニアな方々が世界観を掴んでもらったり、流れを理解して 新たな情報に当たるための体力をつける位置付け
@yuki_saito_en 4 改定におけるリリースノート 基盤と外部システムの連携に関する論点の追加が主 1. オープンテーブルフォーマット(とレイクハウス) 2. セマンティックレイヤーとヘッドレスBI 3. リバースETL
4. データプロダクト 5. 非データエンジニア向けの0/9章の追加
@yuki_saito_en 5 システムとプラットフォーム 再利用性と拡張性を最大化するのがプラットフォームの役割 項目 データ分析システム データ(分析)プラットフォーム 範囲 部門単位 組織横断的
柔軟性 低い 高い 対象者 ビジネス部門、アナリスト データエンジニア、運用チーム 規模 小規模運用 大規模運用 データ管理 単一データソース 複数データソース
@yuki_saito_en 6 0章 非データエンジニアが全体像を掴むための章
@yuki_saito_en 7 オープンテーブルフォーマット ソフトウェアエンジニアリングの世界観をデータ分析基盤へ データレイク /DWH(with Parquet) 1. トランザクション性がない ◦
一部の書き込みが失敗でデータが不整合状態に ◦ 更新操作が困難(上書きや削除が手間)。 2. パフォーマンスの問題 ◦ スモールファイル問題 3. 一般的な開発のプロセスと統合しにくい ◦ 「今」を管理することに主眼 i. DEV/ST/PRODのような使い分けがしづらい ii. メタデータ(スキーマなど)の変更履歴が追いにくい データレイク /DWH(with オープンテーブルフォーマット ) 1. トランザクション性を一部サポート ◦ ファイル単位のトランザクションであることには注意 ◦ 行レベルでの変更が可能に 2. パフォーマンス問題の解決がシンプルに ◦ コンパクションの登場 3. 一般的な開発のプロセスと統合がしやすく ◦ ブランチング機能/タイムトラベル ◦ メタデータ管理がより統合しやすく i. 現在だけでなく履歴を管理可能に ii. REST API形式でクラウドネイティブに ◦ (本番のデータを利用するものの ) i. データの使い分けの管理が格段に上昇
@yuki_saito_en 8 データレイクハウス オープンテーブルフォーマットを軸にデータレイクを拡張 参考: https://www.imagazine.co.jp/datalake-house-series-001 / REST API型のカタログ データカタログ
データカタログ メタデータ 用途への適用
@yuki_saito_en 9 リバースETL プラットフォームと外部システムを連携するための方策
@yuki_saito_en 10 セマンティックレイヤー データの利用を統一化し不確実性の低減を目的とする概念
@yuki_saito_en 11 ヘッドレス BI 共通の利用インターフェース経由でデータを提供する 参考:https://www.palantir.com/docs/foundry/api/ontologies-v2-resources/ontology-objects/aggregate-objects
@yuki_saito_en 12 データプロダクト システムの概念がデータ分析基盤にも入ってきた ネイティブアプリケーションとの連携 連携例: • ダッシュボードやレポート • 機械学習モデルやその結果を利用したシステム
◦ 推奨システムやパーソナライズサービス • ヘッドレスBIなどのデータ駆動型のAPIの活用
@yuki_saito_en 13 9章 0〜8章までの知識の一部を利用して、シンプルなユースケース でデータ分析基盤を設計・構築してみる章です
@yuki_saito_en 14 Tech Books Plus シリーズ データエンジニアリングの言語化の進捗を感じる昨今
@yuki_saito_en ありがとう ございました 15