Slide 1

Slide 1 text

どうやって「データを整備すると良いこと がある」を周りに伝えるか しんゆう@データ分析とインテリジェンス 2020/06/09 第4回 データアーキテクト(データ整備人)を”前向きに”考える会

Slide 2

Slide 2 text

• 本日の資料は https://speakerdeck.com/shinu/maemuki-data-seibinin04 に公開済み。ブログ・Twitterからもリンクあり • 〇 SNSで話題にすること • × 録画・録音 • アーカイブの公開はありません 資料・SNS・写真撮影などについて

Slide 3

Slide 3 text

• いくら「データ整備をやらないとダメだ」と言ってもデー タ整備を自分でやったことがない大半の人にはなかなか伝 わりづらい • なので「整備するとこんな良いことがありますよ」という アプローチを試みて、その中でもこのあたりがうまくささ った(らしい)話をする 前置き

Slide 4

Slide 4 text

• 自己紹介 • もしもデータ整備をやったらどうなるか • 欲しいデータが欲しい時に手に入る • データは常に正確であることが保証される • まとめ 目次

Slide 5

Slide 5 text

自己紹介

Slide 6

Slide 6 text

• しんゆう( Twitter : @data_analyst_ ) • ブログ「データ分析とインテリジェンス」を書いてる人 https://analytics-and-intelligence.net/ • フリーランスでデータに関する仕事をあれこれ • 仕事でやりたいこと:意思決定のための情報分析をする人 • 仕事でやってること:データをうまく使えるようにする人 自己紹介

Slide 7

Slide 7 text

もしもデータ整備をやったらどうなるか

Slide 8

Slide 8 text

• 「もしもデータ整備をやったらどうなるか」を伝えるため に「データ整備をやらない状態とやった状態では何が違っ て何が良いのか」を伝えるのがよいと実感している • そこで「まったく整備していない状態」と「整備をして理 想的な状態」をざっくり比べてみると もしもデータ整備をやったらどうなるか

Slide 9

Slide 9 text

データをまったく整備していない状態 データ レイク 先週の売上を見たい だけなのに依頼した ら3日かかる • 収集したデータはそのままでは使えないことが大多数 • SQLが得意な人でもすぐに書けないことも多いし、そう でない人は頻繁に間違えるリスク • どこにどんなデータがどう入っているのか • おかしなデータがいつからいつまで入って いるのか • 集計するための定義はどうするのか などなど

Slide 10

Slide 10 text

データを整備した理想的な状態 データ レイク 先週の売上を見たい と思ったらすぐ手に 入る • 整備しておくと簡単な方法でデータが手に入るし • カスタマイズも非常にやりやすい • 簡単なSQL • ダッシュボード • CSV データ マート ここで整備

Slide 11

Slide 11 text

• データを使う人にとって重要なことは、整備するとデータ が簡単に手に入ったり使いやすくなること もしもデータ整備が行われたら

Slide 12

Slide 12 text

• データを使う人にとって重要なことは、整備するとデータ が簡単に手に入ったり使いやすくなることだと思っていた が違うのでは、とこの資料を作っていてふと考え直す もしもデータ整備が行われたら

Slide 13

Slide 13 text

• データを使う人にとって重要なことは、整備するとデータ が簡単に手に入ったり使いやすくなることだと思っていた が違うのでは、とこの資料を作っていてふと考え直す • 必要なのは意思決定の正確さと速さの向上に繋がること もしもデータ整備が行われたら

Slide 14

Slide 14 text

• データを使う人にとって重要なことは、整備するとデータ が簡単に手に入ったり使いやすくなることだと思っていた が違うのでは、とこの資料を作っていてふと考え直す • 必要なのは意思決定の正確さと速さの向上に繋がること • なので、この点を強く押し出した方がよい気がしている。 今後はその方向でやってみて結果はいずれどこかの回で報 告してみようかな もしもデータ整備が行われたら

Slide 15

Slide 15 text

• それはともかく、どこをアピールするにしてもより具体的 な話もあった方がいい • 今まで話していてこれが伝わったと思われるのは 1.欲しいデータが欲しい時に手に入る 2.データは常に正確であることが保証される • 他にもあるけど今回はこの2つについての話をする もしもデータ整備が行われたら

Slide 16

Slide 16 text

データを整備すると良いこと 1.欲しいデータが欲しい時に手に入る

Slide 17

Slide 17 text

• 整備されていない状態からのデータ取得は定義を調べたり データを補間したりといろいろと大変。クエリが複雑で長 くなり、できる人も限られてくる • 簡単な依頼でも数日待ちはあたりまえ、先週の売上を知り たくても週の後半にならないとわからないなどが起きる • だからといって整備されていない状態のデータをSQLを ちょっとかじっただけで手を出すのも危ない 欲しいデータが欲しい時に手に入る

Slide 18

Slide 18 text

• 整備されていれば、かなり簡単なクエリで取れるようにな るのでエンジニアの空き時間を待たずに(全部ではないに しても)データが欲しいと思った時にすぐ手に入るように なる 欲しいデータが欲しい時に手に入る

Slide 19

Slide 19 text

データを整備すると良いこと 2.データは常に正確であることが保証される

Slide 20

Slide 20 text

• 整備しておかないと重要な指標でも最初はともかくちょっ とした変更を行っている間に集計がおかしくなって大惨事 • 整備することは簡単に取れるようになることと同時に、正 確なことを保証することでもある • 整備されたデータを使えば、使う人は正確であることが保 証されている上に細かい定義の違いなども気にすることな く使うことに集中できる データは常に正確であることが保証される

Slide 21

Slide 21 text

まとめ

Slide 22

Slide 22 text

• やはり、話が伝わりやすいのは実際に困っている人 • データを使いたいと思っているがうまく行かないという問 題意識がある人に1つの方法として、データを整備する→ データが使いやすくなる→意思決定の正確さと速さの向上 に繋がるという流れを伝えるのがよさそうなので、やって みる まとめ

Slide 23

Slide 23 text

ご清聴ありがとうございました しんゆう@データ分析とインテリジェンス https://analytics-and-intelligence.net/ Twitter:@data_analyst_