Slide 1

Slide 1 text

     ゆずたそ 1章      渡部徹太郎 2章      伊藤徹郎 3章      高屋卓也 編集 司会 パネラー パネラー パネラー パネルディスカッション『実践的データ基盤への処方箋』の刊行にあたって

Slide 2

Slide 2 text

こんな悩みありませんか?

Slide 3

Slide 3 text

『実践的データ基盤への処方箋』の共著者たちが整理した全体像

Slide 4

Slide 4 text

『実践的データ基盤への処方箋』の目次 第1章 データ活用のためのデータ整備 ■1-1 データの一連の流れを把握し、入口から出口までを書き出す ■1-2 データの品質は生成元のデータソースで担保する ■1-3 データが生じる現場を把握して業務改善につなげる ■1-4 データソースの整備ではマスタ・共通 ID・履歴の3つを担保する ■1-5 データレイク層の一箇所にデータのソースのコピーを集約する ■1-6 データウェアハウス層では分析用 DBを使って共通指標を管理する ■1-7 共通指標は本当に必要とされるものを用意する ■1-8 特定用途に利用するデータマートはユースケースを想定してつくる ■1-9 ユースケースを優先的に検討しツールの整備を逆算する ■1-10 データの調査コストを減らすためにメタデータを活用する ■1-11 サービスレベルを設定・計測して改善サイクルにつなげる ■1-12 データ基盤の品質を支えるデータスチュワードの役割を設ける

Slide 5

Slide 5 text

『実践的データ基盤への処方箋』の目次 第2章 データ基盤システムのつくり方 ■2-1 一般的なデータ基盤の全体像と分散処理の必要性を理解する ■2-2 データソースごとに収集方法が違うこと、その難しさを理解する ■2-3 ファイルを収集する場合は最適なデータフォーマットを選択する ■2-4 APIのデータ収集では有効期限や回数制限に気をつける ■2-5 SQLを利用したデータベース収集ではデータベースへの負荷を意識する ■2-6 データベースの負荷を考慮したデータ収集ではエクスポートやダンプファイル活用を視野に入れる ■2-7 更新ログ経由のデータベース収集はデータベースの負荷を最小限にしてリアルタイムに収集できる ■2-8 各データベース収集の特徴と置かれた状況を理解して使い分ける ■2-9 ログ収集はエージェントのキャパシティに注意 ■2-10 端末データの収集は難易度が高いためできるだけ製品を利用し無理なら自作する ■2-11 ETL製品を選ぶポイントは利用するコネクタの機能性とデバッグのしやすさ ■2-12 データレイクでは収集したデータをなくさないようにする ■2-13 データウェアハウスには抽出や集計に特化した分析用 DBを採用する ■2-14 分析用DBはクラウド上で使い勝手が良い製品を選ぶ ■2-15 列指向圧縮を理解して分析用 DBが苦手な処理をさせないように気をつける ■2-16 処理の量や開発人数が増えてきたらワークフローエンジンの導入を検討する ■2-17 ワークフローエンジンは「専用」か「相乗り」かをまず考える

Slide 6

Slide 6 text

『実践的データ基盤への処方箋』の目次 第3章 データ分析の組織 ■3-1 アセスメントによって組織の現状を客観的に把握する ■3-2 組織の状況に合わせて組織構造を採用する ■3-3 データ組織の成功に必要な要因を理解する ■3-4 データ組織を構成する職種と採用戦略の基本を押さえる ■3-5 データ活用とセキュリティはトレードオフの関係にあることを理解する ■3-6 組織の利益となるデータのセキュリティポリシーとそのセキュリティ基準を決める ■3-7 適切な権限設定とリスク管理方法を定める ■3-8 データ利用や権限管理などの運用ルールをドキュメント化する ■3-9 担当、見直しサイクル、判断基準を決めてデータやツールの棚卸を定期的に行う ■3-10 不正アクセスに備えてデータ保護や匿名加工技術を適用する ■3-11 監査では評価方法を理解して客観性を担保する

Slide 7

Slide 7 text

Data Pipeline Casual Talk DataOps データ整備 データマネジメント GCPやAWSの本が 出たからこそ…… 整備、技術、組織を 1冊にまとめて商業出版する意味 ブログや登壇資料で十分? 『実践的データ基盤への処方箋』執筆の背景や裏話にまつわるキーワード 表紙デザイン 2年で3回の書き直し 書籍タイトル なぜ今なのか? Why now? データスチュワード