第4回 データアーキテクト(データ整備人)を”前向きに”考える会 https://analytics-and-intelligence.connpass.com/event/176896/
作成者 :しんゆう@データ分析とインテリジェンス ブログ :https://analytics-and-intelligence.net/ Twitter:https://twitter.com/data_analyst_
どうやって「データを整備すると良いことがある」を周りに伝えるかしんゆう@データ分析とインテリジェンス2020/06/09 第4回 データアーキテクト(データ整備人)を”前向きに”考える会
View Slide
• 本日の資料はhttps://speakerdeck.com/shinu/maemuki-data-seibinin04に公開済み。ブログ・Twitterからもリンクあり• 〇 SNSで話題にすること• × 録画・録音• アーカイブの公開はありません資料・SNS・写真撮影などについて
• いくら「データ整備をやらないとダメだ」と言ってもデータ整備を自分でやったことがない大半の人にはなかなか伝わりづらい• なので「整備するとこんな良いことがありますよ」というアプローチを試みて、その中でもこのあたりがうまくささった(らしい)話をする前置き
• 自己紹介• もしもデータ整備をやったらどうなるか• 欲しいデータが欲しい時に手に入る• データは常に正確であることが保証される• まとめ目次
自己紹介
• しんゆう( Twitter : @data_analyst_ )• ブログ「データ分析とインテリジェンス」を書いてる人https://analytics-and-intelligence.net/• フリーランスでデータに関する仕事をあれこれ• 仕事でやりたいこと:意思決定のための情報分析をする人• 仕事でやってること:データをうまく使えるようにする人自己紹介
もしもデータ整備をやったらどうなるか
• 「もしもデータ整備をやったらどうなるか」を伝えるために「データ整備をやらない状態とやった状態では何が違って何が良いのか」を伝えるのがよいと実感している• そこで「まったく整備していない状態」と「整備をして理想的な状態」をざっくり比べてみるともしもデータ整備をやったらどうなるか
データをまったく整備していない状態データレイク先週の売上を見たいだけなのに依頼したら3日かかる• 収集したデータはそのままでは使えないことが大多数• SQLが得意な人でもすぐに書けないことも多いし、そうでない人は頻繁に間違えるリスク• どこにどんなデータがどう入っているのか• おかしなデータがいつからいつまで入っているのか• 集計するための定義はどうするのかなどなど
データを整備した理想的な状態データレイク先週の売上を見たいと思ったらすぐ手に入る• 整備しておくと簡単な方法でデータが手に入るし• カスタマイズも非常にやりやすい• 簡単なSQL• ダッシュボード• CSVデータマートここで整備
• データを使う人にとって重要なことは、整備するとデータが簡単に手に入ったり使いやすくなることもしもデータ整備が行われたら
• データを使う人にとって重要なことは、整備するとデータが簡単に手に入ったり使いやすくなることだと思っていたが違うのでは、とこの資料を作っていてふと考え直すもしもデータ整備が行われたら
• データを使う人にとって重要なことは、整備するとデータが簡単に手に入ったり使いやすくなることだと思っていたが違うのでは、とこの資料を作っていてふと考え直す• 必要なのは意思決定の正確さと速さの向上に繋がることもしもデータ整備が行われたら
• データを使う人にとって重要なことは、整備するとデータが簡単に手に入ったり使いやすくなることだと思っていたが違うのでは、とこの資料を作っていてふと考え直す• 必要なのは意思決定の正確さと速さの向上に繋がること• なので、この点を強く押し出した方がよい気がしている。今後はその方向でやってみて結果はいずれどこかの回で報告してみようかなもしもデータ整備が行われたら
• それはともかく、どこをアピールするにしてもより具体的な話もあった方がいい• 今まで話していてこれが伝わったと思われるのは1.欲しいデータが欲しい時に手に入る2.データは常に正確であることが保証される• 他にもあるけど今回はこの2つについての話をするもしもデータ整備が行われたら
データを整備すると良いこと1.欲しいデータが欲しい時に手に入る
• 整備されていない状態からのデータ取得は定義を調べたりデータを補間したりといろいろと大変。クエリが複雑で長くなり、できる人も限られてくる• 簡単な依頼でも数日待ちはあたりまえ、先週の売上を知りたくても週の後半にならないとわからないなどが起きる• だからといって整備されていない状態のデータをSQLをちょっとかじっただけで手を出すのも危ない欲しいデータが欲しい時に手に入る
• 整備されていれば、かなり簡単なクエリで取れるようになるのでエンジニアの空き時間を待たずに(全部ではないにしても)データが欲しいと思った時にすぐ手に入るようになる欲しいデータが欲しい時に手に入る
データを整備すると良いこと2.データは常に正確であることが保証される
• 整備しておかないと重要な指標でも最初はともかくちょっとした変更を行っている間に集計がおかしくなって大惨事• 整備することは簡単に取れるようになることと同時に、正確なことを保証することでもある• 整備されたデータを使えば、使う人は正確であることが保証されている上に細かい定義の違いなども気にすることなく使うことに集中できるデータは常に正確であることが保証される
まとめ
• やはり、話が伝わりやすいのは実際に困っている人• データを使いたいと思っているがうまく行かないという問題意識がある人に1つの方法として、データを整備する→データが使いやすくなる→意思決定の正確さと速さの向上に繋がるという流れを伝えるのがよさそうなので、やってみるまとめ
ご清聴ありがとうございましたしんゆう@データ分析とインテリジェンスhttps://analytics-and-intelligence.net/Twitter:@data_analyst_