Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[投影資料]『実践的データ基盤への処方箋』の刊行にあたって #TechMar / 20210210-2

yuzutas0
December 10, 2021

[投影資料]『実践的データ基盤への処方箋』の刊行にあたって #TechMar / 20210210-2

「Tech × Marketing Conference 2021 #データマネジメント」パネルディスカッションの投影資料です。
https://techxmarketing.connpass.com/event/229173/

『実践的データ基盤への処方箋』
https://www.amazon.co.jp/dp/4297124459

yuzutas0

December 10, 2021
Tweet

More Decks by yuzutas0

Other Decks in Technology

Transcript

  1.      ゆずたそ 1章      渡部徹太郎 2章      伊藤徹郎 3章      高屋卓也 編集 司会 パネラー

    パネラー パネラー パネルディスカッション『実践的データ基盤への処方箋』の刊行にあたって
  2. 『実践的データ基盤への処方箋』の目次 第1章 データ活用のためのデータ整備 ▪1-1 データの一連の流れを把握し、入口から出口までを書き出す ▪1-2 データの品質は生成元のデータソースで担保する ▪1-3 データが生じる現場を把握して業務改善につなげる ▪1-4 データソースの整備ではマスタ・共通 ID・履歴の3つを担保する ▪1-5 データレイク層の一箇所にデータのソースのコピーを集約する ▪1-6 データウェアハウス層では分析用 DBを使って共通指標を管理する

    ▪1-7 共通指標は本当に必要とされるものを用意する ▪1-8 特定用途に利用するデータマートはユースケースを想定してつくる ▪1-9 ユースケースを優先的に検討しツールの整備を逆算する ▪1-10 データの調査コストを減らすためにメタデータを活用する ▪1-11 サービスレベルを設定・計測して改善サイクルにつなげる ▪1-12 データ基盤の品質を支えるデータスチュワードの役割を設ける
  3. 『実践的データ基盤への処方箋』の目次 第2章 データ基盤システムのつくり方 ▪2-1 一般的なデータ基盤の全体像と分散処理の必要性を理解する ▪2-2 データソースごとに収集方法が違うこと、その難しさを理解する ▪2-3 ファイルを収集する場合は最適なデータフォーマットを選択する ▪2-4 APIのデータ収集では有効期限や回数制限に気をつける ▪2-5 SQLを利用したデータベース収集ではデータベースへの負荷を意識する ▪2-6 データベースの負荷を考慮したデータ収集ではエクスポートやダンプファイル活用を視野に入れる ▪2-7 更新ログ経由のデータベース収集はデータベースの負荷を最小限にしてリアルタイムに収集できる ▪2-8 各データベース収集の特徴と置かれた状況を理解して使い分ける

    ▪2-9 ログ収集はエージェントのキャパシティに注意 ▪2-10 端末データの収集は難易度が高いためできるだけ製品を利用し無理なら自作する ▪2-11 ETL製品を選ぶポイントは利用するコネクタの機能性とデバッグのしやすさ ▪2-12 データレイクでは収集したデータをなくさないようにする ▪2-13 データウェアハウスには抽出や集計に特化した分析用 DBを採用する ▪2-14 分析用DBはクラウド上で使い勝手が良い製品を選ぶ ▪2-15 列指向圧縮を理解して分析用 DBが苦手な処理をさせないように気をつける ▪2-16 処理の量や開発人数が増えてきたらワークフローエンジンの導入を検討する ▪2-17 ワークフローエンジンは「専用」か「相乗り」かをまず考える
  4. Data Pipeline Casual Talk DataOps データ整備 データマネジメント GCPやAWSの本が 出たからこそ…… 整備、技術、組織を

    1冊にまとめて商業出版する意味 ブログや登壇資料で十分? 『実践的データ基盤への処方箋』執筆の背景や裏話にまつわるキーワード 表紙デザイン 2年で3回の書き直し 書籍タイトル なぜ今なのか? Why now? データスチュワード