Upgrade to Pro — share decks privately, control downloads, hide ads and more …

改訂新版 データ分析基盤入門

Yuki
March 03, 2025
110

改訂新版 データ分析基盤入門

3/3 データ&AI Books 30分でわかる「改訂新版 データ分析基盤入門」@APコミュニケーションズ YUKI SAITO

での登壇資料です。

Youtubeはこちらです
https://www.youtube.com/watch?v=Zl63yU30-gk

Yuki

March 03, 2025
Tweet

Transcript

  1. @yuki_saito_en 5 システムとプラットフォーム 再利用性と拡張性を最大化するのがプラットフォームの役割 項目 データ分析システム データ(分析)プラットフォーム 範囲 部門単位 組織横断的

    柔軟性 低い 高い 対象者 ビジネス部門、アナリスト データエンジニア、運用チーム 規模 小規模運用 大規模運用 データ管理 単一データソース 複数データソース
  2. @yuki_saito_en 7 オープンテーブルフォーマット ソフトウェアエンジニアリングの世界観をデータ分析基盤へ データレイク /DWH(with Parquet) 1. トランザクション性がない ◦

    一部の書き込みが失敗でデータが不整合状態に ◦ 更新操作が困難(上書きや削除が手間)。 2. パフォーマンスの問題 ◦ スモールファイル問題 3. 一般的な開発のプロセスと統合しにくい ◦ 「今」を管理することに主眼 i. DEV/ST/PRODのような使い分けがしづらい ii. メタデータ(スキーマなど)の変更履歴が追いにくい データレイク /DWH(with オープンテーブルフォーマット ) 1. トランザクション性を一部サポート ◦ ファイル単位のトランザクションであることには注意 ◦ 行レベルでの変更が可能に 2. パフォーマンス問題の解決がシンプルに ◦ コンパクションの登場 3. 一般的な開発のプロセスと統合がしやすく ◦ ブランチング機能/タイムトラベル ◦ メタデータ管理がより統合しやすく i. 現在だけでなく履歴を管理可能に ii. REST API形式でクラウドネイティブに ◦ (本番のデータを利用するものの ) i. データの使い分けの管理が格段に上昇