Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ整備とどう付き合うか

ShinU
December 17, 2021

 データ整備とどう付き合うか

作成者 :しんゆう
ブログ :データ分析とインテリジェンス
     https://analytics-and-intelligence.net/
Twitter:https://twitter.com/data_analyst_

ShinU

December 17, 2021
Tweet

More Decks by ShinU

Other Decks in Business

Transcript

  1. 目次 1. 「データ整備」を概観する 1.1. 意思決定と分析のプロセスの全体像とデータ整備 1.2. データ整備の役割とタスク 1.3. データ整備の現状を眺めてみる 2.

    データ整備との付き合い方を考える 2.1. データ整備の捉え方 2.2. データ整備の進め方 2.3. データ整備を担う際に気を付けてほしいこと 2.4. データ整備をしないとどうなるのかを説明する
  2. 目次 1. 「データ整備」を概観する 1.1. 意思決定と分析のプロセスの全体像とデータ整備 1.2. データ整備の役割とタスク 1.3. データ整備の現状を眺めてみる 2.

    データ整備との付き合い方を考える 2.1. データ整備の捉え方 2.2. データ整備の進め方 2.3. データ整備を担う際に気を付けてほしいこと 2.4. データ整備をしないとどうなるのかを説明する
  3. 目次 1. 「データ整備」を概観する 1.1. 意思決定と分析のプロセスの全体像とデータ整備 1.2. データ整備の役割とタスク 1.3. データ整備の現状を眺めてみる 2.

    データ整備との付き合い方を考える 2.1. データ整備の捉え方 2.2. データ整備の進め方 2.3. データ整備を担う際に気を付けてほしいこと 2.4. データ整備をしないとどうなるのかを説明する
  4. • 必要な時に必要なデータが手に入らない原因(一部) データが手に入らないとどうにもならない 意思決定と分析のプロセスの全体像とデータ整備 要因 具体例 原理的に入手することが無理 正確な災害予知・人の真の能力 欲しいと思ってから入手しようとし てもできない

    去年開催していたキャンペーンのクリッ クログを今からとる 入手はできるが欲しい時に間に合わ ない 観測所を立てる(明日の天気予報には使 えない) 入手しているが処理が追いつかない 100個のExcelファイルにフォーマット がばらばらで格納されている 入手しているが組織やマネジメント が要因で使えない エンジニアのリソース不足で手が回らず 他に扱える人がいない
  5. • データの入手が間に合わない データは取れるがタイミングが悪い 意思決定と分析のプロセスの全体像とデータ整備 要因 具体例 原理的に入手することが無理 正確な災害予知・人の真の能力 欲しいと思ってから入手しようとし てもできない

    去年開催していたキャンペーンのクリッ クログを今からとる 入手はできるが欲しい時に間に合わ ない 観測所を建てる(明日の天気予報には使 えない) 入手しているが処理が追いつかない 100個のExcelファイルにフォーマット がばらばらで格納されている 入手しているが組織やマネジメント が要因で使えない エンジニアのリソース不足で手が回らず 他に扱える人がいない
  6. • データはあるのに処理が追いつかない データは取ったが使えない 意思決定と分析のプロセスの全体像とデータ整備 要因 具体例 原理的に入手することが無理 正確な災害予知・人の真の能力 欲しいと思ってから入手しようとし てもできない

    去年開催していたキャンペーンのクリッ クログを今からとる 入手はできるが欲しい時に間に合わ ない 観測所を立てる(明日の天気予報には使 えない) 入手しているが処理が追いつかない 100個のExcelファイルにフォーマット がばらばらで格納されている 入手しているが組織やマネジメント が要因で使えない エンジニアのリソース不足で手が回らず 他に扱える人がいない
  7. • データが集約できていても使い物にならない – Excelの例はほんの一例 – 重複や欠損はあたりまえ • ちょっとした抽出でもクエリが長くなり、時間がかか る上にミスも増える •

    データを使いたい時にすぐ使えるようにするには、基 盤に集約してさらに整理もしておく必要がある データは集めるだけではつかえない理由 意思決定と分析のプロセスの全体像とデータ整備
  8. 目次 1. 「データ整備」を概観する 1.1. 意思決定と分析のプロセスの全体像とデータ整備 1.2. データ整備の役割とタスク 1.3. データ整備の現状を眺めてみる 2.

    データ整備との付き合い方を考える 2.1. データ整備の捉え方 2.2. データ整備の進め方 2.3. データ整備を担う際に気を付けてほしいこと 2.4. データ整備をしないとどうなるのかを説明する
  9. • 抽出のタスク – 依頼の管理、ルール作り – 打ち合わせ – インプットの入手 – 主にSQLを利用してデータを作成

    – アウトプットの提供(CSV・ダッシュボード) – インプットの入手を効率化するための業務フローや仕組み の改善 データ整備の役割(1)抽出:タスク データ整備の役割とタスク
  10. • 整理のタスク – 重複や欠損を無くす – よく使う指標の作成 – 共通IDの作成 – データ型やタイムゾーンの統一

    – テーブルを適切に切り分ける – マスタのクレンジング – 個人情報の隔離 データ整備の役割(2)整理:タスク データ整備の役割とタスク
  11. • 品質管理のタスク – 提供するデータ品質の担保 – データの扱い方の方針の決定 – データの定義の決定 – データの評価(間違い、極端な過不足、デマ)

    – モニタリング – 生成・集約への修正依頼 データ整備の役割(3)品質管理:タスク データ整備の役割とタスク
  12. 目次 1. 「データ整備」を概観する 1.1. 意思決定と分析のプロセスの全体像とデータ整備 1.2. データ整備の役割とタスク 1.3. データ整備の現状を眺めてみる 2.

    データ整備との付き合い方を考える 2.1. データ整備の捉え方 2.2. データ整備の進め方 2.3. データ整備を担う際に気を付けてほしいこと 2.4. データ整備をしないとどうなるのかを説明する
  13. • データを使うなら整備は必須だが、整備を別の役割と して打ち出している企業は少ない • 別の職名で実質的に整備が求められるということはま まある • 整備を分けて考えていない理由 – 分ける発想がうまれていなかった

    – 規模が小さいのでまだわからない – 実は分ける必要無いかもしれない データ整備が1つの役割として認識されていない データ整備の現状を眺めてみる
  14. • 本来の役割とは内容も求められるスキルも違うのにな んとなく回ってくる • 以下のそれぞれの場合でそれぞれの問題がおきる – エンジニアが整備もしている – 分析者が整備もしている –

    マネージャーやマーケターなどが整備している • データはあるが利用に耐えうる整備はしていない場合 もある それでも誰かがデータ整備をしている(はず) データ整備の現状を眺めてみる
  15. 目次 1. 「データ整備」を概観する 1.1. 意思決定と分析のプロセスの全体像とデータ整備 1.2. データ整備の役割とタスク 1.3. データ整備の現状を眺めてみる 2.

    データ整備との付き合い方を考える 2.1. データ整備の捉え方 2.2. データ整備の進め方 2.3. データ整備を担う際に気を付けてほしいこと 2.4. データ整備をしないとどうなるのかを説明する
  16. 目次 1. 「データ整備」を概観する 1.1. 意思決定と分析のプロセスの全体像とデータ整備 1.2. データ整備の役割とタスク 1.3. データ整備の現状を眺めてみる 2.

    データ整備との付き合い方を考える 2.1. データ整備の捉え方 2.2. データ整備の進め方 2.3. データ整備を担う際に気を付けてほしいこと 2.4. データ整備をしないとどうなるのかを説明する
  17. • 同じ名称でも違う内容、違う名称でも同じ内容を指し ていることがあるため言葉の定義に注意 – データアーキテクト(データ整備人) – データスチュワード/BIエンジニア – アナリティクスエンジニア –

    データエンジニア/データサイエンティスト/データアナ リストとあるが一部ないしは大半が整備 データ整備に携わる人の職名 データ整備の捉え方
  18. 目次 1. 「データ整備」を概観する 1.1. 意思決定と分析のプロセスの全体像とデータ整備 1.2. データ整備の役割とタスク 1.3. データ整備の現状を眺めてみる 2.

    データ整備との付き合い方を考える 2.1. データ整備の捉え方 2.2. データ整備の進め方 2.3. データ整備を担う際に気を付けてほしいこと 2.4. データ整備をしないとどうなるのかを説明する
  19. • SQL(+Excel・プログラミング) • コミュニケーション能力 – 依頼されたことをそのまま実現するのではない – あるべきデータの提示、改善の要求、理不尽なら押し返す • 改善しようとする気持ちと実行力

    – 整備そのものが「より使いやすく」する仕事 – 気持ちだけでなくいざとなったら自分でやる力 データ整備の3大スキル(2021年版) データ整備の進め方
  20. • 必ず「何が知りたいのか」から始める • 最初は重要指標に絞る • そのためにどのようなデータが必要なのかを考えれば 次の行動は決まる • できれば個人情報の隔離もしておく •

    どのツールを入れるかは最後。手元にあるか簡単に無 料で入手できるツールをまずは使う 何から整備したらいいのか データ整備の進め方
  21. • 意識はしておかないといけないことの例 – ガバナンス・・ルールを守らせる – 法務・・・・・個人情報 – 倫理・・・・・エコーチェンバー • 集約や分析と含めて周辺領域と明確な区別はできない

    ので状況に応じて埋めることも必要。でも1人で全部 はできないのでみんなでうまく分担する データ整備以外にも意識しておきたいこと データ整備の進め方
  22. 目次 1. 「データ整備」を概観する 1.1. 意思決定と分析のプロセスの全体像とデータ整備 1.2. データ整備の役割とタスク 1.3. データ整備の現状を眺めてみる 2.

    データ整備との付き合い方を考える 2.1. データ整備の捉え方 2.2. データ整備の進め方 2.3. データ整備を担う際に気を付けてほしいこと 2.4. データ整備をしないとどうなるのかを説明する
  23. 目次 1. 「データ整備」を概観する 1.1. 意思決定と分析のプロセスの全体像とデータ整備 1.2. データ整備の役割とタスク 1.3. データ整備の現状を眺めてみる 2.

    データ整備との付き合い方を考える 2.1. データ整備の捉え方 2.2. データ整備の進め方 2.3. データ整備を担う際に気を付けてほしいこと 2.4. データ整備をしないとどうなるのかを説明する