どうやって「データを整備すると良いことがある」を周りに伝えるか / maemuki-data-seibinin04
by
ShinU
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
どうやって「データを整備すると良いこと がある」を周りに伝えるか しんゆう@データ分析とインテリジェンス 2020/06/09 第4回 データアーキテクト(データ整備人)を”前向きに”考える会
Slide 2
Slide 2 text
• 本日の資料は https://speakerdeck.com/shinu/maemuki-data-seibinin04 に公開済み。ブログ・Twitterからもリンクあり • 〇 SNSで話題にすること • × 録画・録音 • アーカイブの公開はありません 資料・SNS・写真撮影などについて
Slide 3
Slide 3 text
• いくら「データ整備をやらないとダメだ」と言ってもデー タ整備を自分でやったことがない大半の人にはなかなか伝 わりづらい • なので「整備するとこんな良いことがありますよ」という アプローチを試みて、その中でもこのあたりがうまくささ った(らしい)話をする 前置き
Slide 4
Slide 4 text
• 自己紹介 • もしもデータ整備をやったらどうなるか • 欲しいデータが欲しい時に手に入る • データは常に正確であることが保証される • まとめ 目次
Slide 5
Slide 5 text
自己紹介
Slide 6
Slide 6 text
• しんゆう( Twitter : @data_analyst_ ) • ブログ「データ分析とインテリジェンス」を書いてる人 https://analytics-and-intelligence.net/ • フリーランスでデータに関する仕事をあれこれ • 仕事でやりたいこと:意思決定のための情報分析をする人 • 仕事でやってること:データをうまく使えるようにする人 自己紹介
Slide 7
Slide 7 text
もしもデータ整備をやったらどうなるか
Slide 8
Slide 8 text
• 「もしもデータ整備をやったらどうなるか」を伝えるため に「データ整備をやらない状態とやった状態では何が違っ て何が良いのか」を伝えるのがよいと実感している • そこで「まったく整備していない状態」と「整備をして理 想的な状態」をざっくり比べてみると もしもデータ整備をやったらどうなるか
Slide 9
Slide 9 text
データをまったく整備していない状態 データ レイク 先週の売上を見たい だけなのに依頼した ら3日かかる • 収集したデータはそのままでは使えないことが大多数 • SQLが得意な人でもすぐに書けないことも多いし、そう でない人は頻繁に間違えるリスク • どこにどんなデータがどう入っているのか • おかしなデータがいつからいつまで入って いるのか • 集計するための定義はどうするのか などなど
Slide 10
Slide 10 text
データを整備した理想的な状態 データ レイク 先週の売上を見たい と思ったらすぐ手に 入る • 整備しておくと簡単な方法でデータが手に入るし • カスタマイズも非常にやりやすい • 簡単なSQL • ダッシュボード • CSV データ マート ここで整備
Slide 11
Slide 11 text
• データを使う人にとって重要なことは、整備するとデータ が簡単に手に入ったり使いやすくなること もしもデータ整備が行われたら
Slide 12
Slide 12 text
• データを使う人にとって重要なことは、整備するとデータ が簡単に手に入ったり使いやすくなることだと思っていた が違うのでは、とこの資料を作っていてふと考え直す もしもデータ整備が行われたら
Slide 13
Slide 13 text
• データを使う人にとって重要なことは、整備するとデータ が簡単に手に入ったり使いやすくなることだと思っていた が違うのでは、とこの資料を作っていてふと考え直す • 必要なのは意思決定の正確さと速さの向上に繋がること もしもデータ整備が行われたら
Slide 14
Slide 14 text
• データを使う人にとって重要なことは、整備するとデータ が簡単に手に入ったり使いやすくなることだと思っていた が違うのでは、とこの資料を作っていてふと考え直す • 必要なのは意思決定の正確さと速さの向上に繋がること • なので、この点を強く押し出した方がよい気がしている。 今後はその方向でやってみて結果はいずれどこかの回で報 告してみようかな もしもデータ整備が行われたら
Slide 15
Slide 15 text
• それはともかく、どこをアピールするにしてもより具体的 な話もあった方がいい • 今まで話していてこれが伝わったと思われるのは 1.欲しいデータが欲しい時に手に入る 2.データは常に正確であることが保証される • 他にもあるけど今回はこの2つについての話をする もしもデータ整備が行われたら
Slide 16
Slide 16 text
データを整備すると良いこと 1.欲しいデータが欲しい時に手に入る
Slide 17
Slide 17 text
• 整備されていない状態からのデータ取得は定義を調べたり データを補間したりといろいろと大変。クエリが複雑で長 くなり、できる人も限られてくる • 簡単な依頼でも数日待ちはあたりまえ、先週の売上を知り たくても週の後半にならないとわからないなどが起きる • だからといって整備されていない状態のデータをSQLを ちょっとかじっただけで手を出すのも危ない 欲しいデータが欲しい時に手に入る
Slide 18
Slide 18 text
• 整備されていれば、かなり簡単なクエリで取れるようにな るのでエンジニアの空き時間を待たずに(全部ではないに しても)データが欲しいと思った時にすぐ手に入るように なる 欲しいデータが欲しい時に手に入る
Slide 19
Slide 19 text
データを整備すると良いこと 2.データは常に正確であることが保証される
Slide 20
Slide 20 text
• 整備しておかないと重要な指標でも最初はともかくちょっ とした変更を行っている間に集計がおかしくなって大惨事 • 整備することは簡単に取れるようになることと同時に、正 確なことを保証することでもある • 整備されたデータを使えば、使う人は正確であることが保 証されている上に細かい定義の違いなども気にすることな く使うことに集中できる データは常に正確であることが保証される
Slide 21
Slide 21 text
まとめ
Slide 22
Slide 22 text
• やはり、話が伝わりやすいのは実際に困っている人 • データを使いたいと思っているがうまく行かないという問 題意識がある人に1つの方法として、データを整備する→ データが使いやすくなる→意思決定の正確さと速さの向上 に繋がるという流れを伝えるのがよさそうなので、やって みる まとめ
Slide 23
Slide 23 text
ご清聴ありがとうございました しんゆう@データ分析とインテリジェンス https://analytics-and-intelligence.net/ Twitter:@data_analyst_