どうやって「データを整備すると良いことがある」を周りに伝えるか / maemuki-data-seibinin04

29e4aa4e265e478995df09ca52d62103?s=47 ShinU
June 09, 2020

どうやって「データを整備すると良いことがある」を周りに伝えるか / maemuki-data-seibinin04

第4回 データアーキテクト(データ整備人)を”前向きに”考える会
https://analytics-and-intelligence.connpass.com/event/176896/

作成者 :しんゆう@データ分析とインテリジェンス
ブログ :https://analytics-and-intelligence.net/
Twitter:https://twitter.com/data_analyst_

29e4aa4e265e478995df09ca52d62103?s=128

ShinU

June 09, 2020
Tweet

Transcript

  1. どうやって「データを整備すると良いこと がある」を周りに伝えるか しんゆう@データ分析とインテリジェンス 2020/06/09 第4回 データアーキテクト(データ整備人)を”前向きに”考える会

  2. • 本日の資料は https://speakerdeck.com/shinu/maemuki-data-seibinin04 に公開済み。ブログ・Twitterからもリンクあり • 〇 SNSで話題にすること • × 録画・録音

    • アーカイブの公開はありません 資料・SNS・写真撮影などについて
  3. • いくら「データ整備をやらないとダメだ」と言ってもデー タ整備を自分でやったことがない大半の人にはなかなか伝 わりづらい • なので「整備するとこんな良いことがありますよ」という アプローチを試みて、その中でもこのあたりがうまくささ った(らしい)話をする 前置き

  4. • 自己紹介 • もしもデータ整備をやったらどうなるか • 欲しいデータが欲しい時に手に入る • データは常に正確であることが保証される • まとめ

    目次
  5. 自己紹介

  6. • しんゆう( Twitter : @data_analyst_ ) • ブログ「データ分析とインテリジェンス」を書いてる人 https://analytics-and-intelligence.net/ •

    フリーランスでデータに関する仕事をあれこれ • 仕事でやりたいこと:意思決定のための情報分析をする人 • 仕事でやってること:データをうまく使えるようにする人 自己紹介
  7. もしもデータ整備をやったらどうなるか

  8. • 「もしもデータ整備をやったらどうなるか」を伝えるため に「データ整備をやらない状態とやった状態では何が違っ て何が良いのか」を伝えるのがよいと実感している • そこで「まったく整備していない状態」と「整備をして理 想的な状態」をざっくり比べてみると もしもデータ整備をやったらどうなるか

  9. データをまったく整備していない状態 データ レイク 先週の売上を見たい だけなのに依頼した ら3日かかる • 収集したデータはそのままでは使えないことが大多数 • SQLが得意な人でもすぐに書けないことも多いし、そう

    でない人は頻繁に間違えるリスク • どこにどんなデータがどう入っているのか • おかしなデータがいつからいつまで入って いるのか • 集計するための定義はどうするのか などなど
  10. データを整備した理想的な状態 データ レイク 先週の売上を見たい と思ったらすぐ手に 入る • 整備しておくと簡単な方法でデータが手に入るし • カスタマイズも非常にやりやすい

    • 簡単なSQL • ダッシュボード • CSV データ マート ここで整備
  11. • データを使う人にとって重要なことは、整備するとデータ が簡単に手に入ったり使いやすくなること もしもデータ整備が行われたら

  12. • データを使う人にとって重要なことは、整備するとデータ が簡単に手に入ったり使いやすくなることだと思っていた が違うのでは、とこの資料を作っていてふと考え直す もしもデータ整備が行われたら

  13. • データを使う人にとって重要なことは、整備するとデータ が簡単に手に入ったり使いやすくなることだと思っていた が違うのでは、とこの資料を作っていてふと考え直す • 必要なのは意思決定の正確さと速さの向上に繋がること もしもデータ整備が行われたら

  14. • データを使う人にとって重要なことは、整備するとデータ が簡単に手に入ったり使いやすくなることだと思っていた が違うのでは、とこの資料を作っていてふと考え直す • 必要なのは意思決定の正確さと速さの向上に繋がること • なので、この点を強く押し出した方がよい気がしている。 今後はその方向でやってみて結果はいずれどこかの回で報 告してみようかな

    もしもデータ整備が行われたら
  15. • それはともかく、どこをアピールするにしてもより具体的 な話もあった方がいい • 今まで話していてこれが伝わったと思われるのは 1.欲しいデータが欲しい時に手に入る 2.データは常に正確であることが保証される • 他にもあるけど今回はこの2つについての話をする もしもデータ整備が行われたら

  16. データを整備すると良いこと 1.欲しいデータが欲しい時に手に入る

  17. • 整備されていない状態からのデータ取得は定義を調べたり データを補間したりといろいろと大変。クエリが複雑で長 くなり、できる人も限られてくる • 簡単な依頼でも数日待ちはあたりまえ、先週の売上を知り たくても週の後半にならないとわからないなどが起きる • だからといって整備されていない状態のデータをSQLを ちょっとかじっただけで手を出すのも危ない

    欲しいデータが欲しい時に手に入る
  18. • 整備されていれば、かなり簡単なクエリで取れるようにな るのでエンジニアの空き時間を待たずに(全部ではないに しても)データが欲しいと思った時にすぐ手に入るように なる 欲しいデータが欲しい時に手に入る

  19. データを整備すると良いこと 2.データは常に正確であることが保証される

  20. • 整備しておかないと重要な指標でも最初はともかくちょっ とした変更を行っている間に集計がおかしくなって大惨事 • 整備することは簡単に取れるようになることと同時に、正 確なことを保証することでもある • 整備されたデータを使えば、使う人は正確であることが保 証されている上に細かい定義の違いなども気にすることな く使うことに集中できる

    データは常に正確であることが保証される
  21. まとめ

  22. • やはり、話が伝わりやすいのは実際に困っている人 • データを使いたいと思っているがうまく行かないという問 題意識がある人に1つの方法として、データを整備する→ データが使いやすくなる→意思決定の正確さと速さの向上 に繋がるという流れを伝えるのがよさそうなので、やって みる まとめ

  23. ご清聴ありがとうございました しんゆう@データ分析とインテリジェンス https://analytics-and-intelligence.net/ Twitter:@data_analyst_