Slide 1

Slide 1 text

改訂新版 データ分析基盤入 門 3/3 インフラエンジニア Books 30分でわかる「改訂新版 データ分析基盤入門」 @APコミュニケーションズ  YUKI SAITO

Slide 2

Slide 2 text

@yuki_saito_en 斎藤 友樹(SAITO YUKI) 2 https://menta.work/plan/2650 https://www.udemy.com/user/yuki-saito-7/ @yuki_saito_en https://service.visasq.com/users/6078548267368448 趣味に生きる人(エンジニア) https://note.com/yukinkoyuki

Slide 3

Slide 3 text

@yuki_saito_en 3 エンジニアのためのデータ分析基盤入門とは? データ分析基盤のコンテキスト (データ量、規模、ユースケース など)を理解して、適切な技術と機能を選べるようにする。 ことを目指した本(の基本編)です エンジニアな方々が世界観を掴んでもらったり、流れを理解して 新たな情報に当たるための体力をつける位置付け

Slide 4

Slide 4 text

@yuki_saito_en 4 改定におけるリリースノート 基盤と外部システムの連携に関する論点の追加が主 1. オープンテーブルフォーマット(とレイクハウス) 2. セマンティックレイヤーとヘッドレスBI 3. リバースETL 4. データプロダクト 5. 非データエンジニア向けの0/9章の追加

Slide 5

Slide 5 text

@yuki_saito_en 5 システムとプラットフォーム 再利用性と拡張性を最大化するのがプラットフォームの役割 項目 データ分析システム データ(分析)プラットフォーム 範囲 部門単位 組織横断的 柔軟性 低い 高い 対象者 ビジネス部門、アナリスト データエンジニア、運用チーム 規模 小規模運用 大規模運用 データ管理 単一データソース 複数データソース

Slide 6

Slide 6 text

@yuki_saito_en 6 0章 非データエンジニアが全体像を掴むための章

Slide 7

Slide 7 text

@yuki_saito_en 7 オープンテーブルフォーマット ソフトウェアエンジニアリングの世界観をデータ分析基盤へ データレイク /DWH(with Parquet) 1. トランザクション性がない ○ 一部の書き込みが失敗でデータが不整合状態に ○ 更新操作が困難(上書きや削除が手間)。 2. パフォーマンスの問題 ○ スモールファイル問題 3. 一般的な開発のプロセスと統合しにくい ○ 「今」を管理することに主眼 i. DEV/ST/PRODのような使い分けがしづらい ii. メタデータ(スキーマなど)の変更履歴が追いにくい データレイク /DWH(with オープンテーブルフォーマット ) 1. トランザクション性を一部サポート ○ ファイル単位のトランザクションであることには注意 ○ 行レベルでの変更が可能に 2. パフォーマンス問題の解決がシンプルに ○ コンパクションの登場 3. 一般的な開発のプロセスと統合がしやすく ○ ブランチング機能/タイムトラベル ○ メタデータ管理がより統合しやすく i. 現在だけでなく履歴を管理可能に ii. REST API形式でクラウドネイティブに ○ (本番のデータを利用するものの ) i. データの使い分けの管理が格段に上昇

Slide 8

Slide 8 text

@yuki_saito_en 8 データレイクハウス オープンテーブルフォーマットを軸にデータレイクを拡張 参考: https://www.imagazine.co.jp/datalake-house-series-001 / REST API型のカタログ データカタログ データカタログ メタデータ 用途への適用

Slide 9

Slide 9 text

@yuki_saito_en 9 リバースETL プラットフォームと外部システムを連携するための方策

Slide 10

Slide 10 text

@yuki_saito_en 10 セマンティックレイヤー データの利用を統一化し不確実性の低減を目的とする概念

Slide 11

Slide 11 text

@yuki_saito_en 11 ヘッドレス BI 共通の利用インターフェース経由でデータを提供する 参考:https://www.palantir.com/docs/foundry/api/ontologies-v2-resources/ontology-objects/aggregate-objects

Slide 12

Slide 12 text

@yuki_saito_en 12 データプロダクト システムの概念がデータ分析基盤にも入ってきた ネイティブアプリケーションとの連携 連携例: ● ダッシュボードやレポート ● 機械学習モデルやその結果を利用したシステム ○ 推奨システムやパーソナライズサービス ● ヘッドレスBIなどのデータ駆動型のAPIの活用

Slide 13

Slide 13 text

@yuki_saito_en 13 9章 0〜8章までの知識の一部を利用して、シンプルなユースケース でデータ分析基盤を設計・構築してみる章です

Slide 14

Slide 14 text

@yuki_saito_en 14 Tech Books Plus シリーズ データエンジニアリングの言語化の進捗を感じる昨今

Slide 15

Slide 15 text

@yuki_saito_en ありがとう ございました 15