Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最低限これだけは整備しておいた方がいいこと / maemuki-data-seibinin03

ShinU
May 14, 2020

最低限これだけは整備しておいた方がいいこと / maemuki-data-seibinin03

第3回 データアーキテクト(データ整備人)を”前向きに”考える会
https://analytics-and-intelligence.connpass.com/event/174369/

作成者 :しんゆう@データ分析とインテリジェンス
ブログ :https://analytics-and-intelligence.net/
Twitter:https://twitter.com/data_analyst_

ShinU

May 14, 2020
Tweet

More Decks by ShinU

Other Decks in Business

Transcript

  1. • しんゆう( Twitter : @data_analyst_ ) • ブログ「データ分析とインテリジェンス」を書いてる人 https://analytics-and-intelligence.net/ •

    フリーランスでデータに関する仕事をあれこれ • 仕事でやりたいこと:意思決定のための情報分析をする人 • 仕事でやってること:データをうまく使えるようにする人 自己紹介
  2. 早い段階でデータを整備しておかないと起きる事 データ レイク 別のエンジニアにお 願いしたCさん 100万円 集計できるAさん 定義を変更したので 105万円 Aさんに以前のクエ

    リをもらったBさん 110万円 • データを触る人数が増えるとすぐに概ね同じだが集計方法 の微妙な違いが出て合わなくなってくる
  3. 早い段階でデータを整備しておかないと起きる事 データ レイク POSの売上を集計し てるから税抜きだ 100万円 キャンセル分を引く ようにしたから 105万円 消費税も加味したか

    ったから 110万円 • 何かの拍子でずれに気づくと答えあわせ大会が始まる • ずれの原因がわかって一安心するがその時はそれで終わる
  4. 早い段階でデータを整備しておかないと起きる事 データ レイク 違うことをみんなわ かっていればいいじ ゃん クライアントと共有 しているから先方に 話を先に通さないと うちのチームはずっ

    と税込みで見てるか ら困る • 揃えようにもそれぞれがそれぞれの理由で使い慣れており 簡単ではない。全社レベルで方向合わせは大変
  5. 早い段階でデータを整備しておかないと起きる事 データ レイク ロジックに若干の変 更が必要になったの を聞いて「了解!」 → やらない ロジックに若干の変 更が必要になったけ

    れどできない → エンジニア稼働 数字がすごくずれて 大騒ぎ → 長いSQLの中で 1つだけ変更し忘れ • その他にもいろいろな問題が頻発
  6. 早い段階でデータを整備しておかないと起きる事 データ レイク ずっと前からいるF さん 「忘れた」 異動してきたEさん 「前の部署で は・・」 新しく入ってきたD

    さん 「この数値はどうい う意味ですか」 • といったことが、あらゆるレベルのあらゆるデータで起き、 定期的に繰り返される
  7. どのように整備するか データ レイク • 各部署でのカスタマイズは当然必要になるが、基礎の数字 を共有しておくことでぶれを抑えられる データ マート 売上100万円 うちはそれでOK

    売上100万円 +うちはキャンセル は無視したいので 105万円 売上100万円 +うちは税込みで見 たいから110万円