作成者 :しんゆう ブログ :データ分析とインテリジェンス https://analytics-and-intelligence.net/ Twitter:https://twitter.com/data_analyst_
データ整備とどう付き合うか2021/12/17しんゆう @data_analyst_
View Slide
• データを集めたのにどうもうまく使えないという話はよく聞こえてくる• その原因の1つに使いやすくするための「データ整備」が欠けていることが考えられる• データ整備はデータを扱うなら必須であるがまだ浸透しているとはいえない• そこでデータ整備の役割や取り組み方を広めることを意識してまとめた本資料について前置き
• 内容は資料公開時点における私見です– 後日意見が変わっているかもしれませんがご了承ください• データ整備への理解が広まることへの利害関係者です– 気を付けてはいますが自覚の無いバイアスがあるかもしれません• 全体像を描くことを意識しています– なので自分のことは棚に上げています本資料について本資料についての注意点
目次1. 「データ整備」を概観する1.1. 意思決定と分析のプロセスの全体像とデータ整備1.2. データ整備の役割とタスク1.3. データ整備の現状を眺めてみる2. データ整備との付き合い方を考える2.1. データ整備の捉え方2.2. データ整備の進め方2.3. データ整備を担う際に気を付けてほしいこと2.4. データ整備をしないとどうなるのかを説明する
• 名前:しんゆう • ブログ:データ分析とインテリジェンスhttps://analytics-and-intelligence.net• Twitter:@data_analyst_• 最近の活動:データを使いやすくする人(データアーキテクトまたはデータ整備人)本資料について自己紹介
• 本資料における「データ分析」とは、意思決定のために行う予測や推論のこと• 大前提として、データ基盤を構築する目的は「データ分析」を行い意思決定の質を向上させるため大前提:「データ分析」は意思決定のため意思決定と分析のプロセスの全体像とデータ整備
• 「データ分析」は目的の決定から始まり、収集・処理・洞察を経て意思決定と実行に至る一連のプロセス• データ分析プロセスにはCRISP-DMなどいろいろなモデルがあるが、概ね言っていることに違いはないので自分の理解している言葉遣いで考えてもらえればよい意思決定と分析のプロセスの全体像意思決定と分析のプロセスの全体像とデータ整備目的の決定要求 収集 処理 洞察 伝達 決定と実行フィードバック
• 「データ分析」は目的の決定から始まり、収集・処理・洞察を経て意思決定と実行に至る一連のプロセス• 本資料における「分析」は特に断りが無い限りプロセスにおける「処理」「洞察」フェーズを指す。つまり「手に入れたデータを何とかする」こと「分析」とは「処理」と「洞察」意思決定と分析のプロセスの全体像とデータ整備目的の決定要求 収集 処理 洞察 伝達 決定と実行フィードバック
• 「データ分析」は目的の決定から始まり、収集・処理・洞察を経て意思決定と実行に至る一連のプロセス• 「収集」フェーズでは分析のためにデータを集める• データなら何でもよいのではなく、いま知りたいことのためのデータでなければならない「収集」では目的にあわせたデータを集める意思決定と分析のプロセスの全体像とデータ整備目的の決定要求 収集 処理 洞察 伝達 決定と実行フィードバック
• 「データ分析」は目的の決定から始まり、収集・処理・洞察を経て意思決定と実行に至る一連のプロセス• 「収集」フェーズでは分析のためにデータを集める• 主問題:必要な時に必要なデータが手に入らない「収集」フェーズの主問題意思決定と分析のプロセスの全体像とデータ整備目的の決定要求 収集 処理 洞察 伝達 決定と実行フィードバック
• 必要な時に必要なデータが手に入らない原因(一部)データが手に入らないとどうにもならない意思決定と分析のプロセスの全体像とデータ整備要因 具体例原理的に入手することが無理 正確な災害予知・人の真の能力欲しいと思ってから入手しようとしてもできない去年開催していたキャンペーンのクリックログを今からとる入手はできるが欲しい時に間に合わない観測所を立てる(明日の天気予報には使えない)入手しているが処理が追いつかない 100個のExcelファイルにフォーマットがばらばらで格納されている入手しているが組織やマネジメントが要因で使えないエンジニアのリソース不足で手が回らず他に扱える人がいない
• 原理的に無理ならばあきらめて代替手段を捜すかあきらめる• 組織やマネジメントが要因ならばまた別の問題• それ以外の問題はどう解決したらいいのか?問題を切り分ける意思決定と分析のプロセスの全体像とデータ整備
• データの入手が間に合わないデータは取れるがタイミングが悪い意思決定と分析のプロセスの全体像とデータ整備要因 具体例原理的に入手することが無理 正確な災害予知・人の真の能力欲しいと思ってから入手しようとしてもできない去年開催していたキャンペーンのクリックログを今からとる入手はできるが欲しい時に間に合わない観測所を建てる(明日の天気予報には使えない)入手しているが処理が追いつかない 100個のExcelファイルにフォーマットがばらばらで格納されている入手しているが組織やマネジメントが要因で使えないエンジニアのリソース不足で手が回らず他に扱える人がいない
• 欲しいと思ってから動くのではデータの入手が間に合わないならば事前にやろう、となるのが自然な発想• データ基盤を構築してデータを集約し、保管する• 無ければデータを生成することも試みる– クリックイベント– アンケート– 観測所を立てる間に合わないなら事前に集めておこう意思決定と分析のプロセスの全体像とデータ整備
• データ基盤の構築は最近話題になることが多いが、考え方は以前からある– 図書館– 資料のファイリング• デジタル化やクラウドへの変化はあるが考え方は同じ考え方は昔からあり、手段がかわっているだけ意思決定と分析のプロセスの全体像とデータ整備
• とにかくため込んでおけばそれで十分ではない• ため込んでおくだけだと、いざ使おうとした時にいろいろな問題が起きる集めて終わりではない意思決定と分析のプロセスの全体像とデータ整備
• データはあるのに処理が追いつかないデータは取ったが使えない意思決定と分析のプロセスの全体像とデータ整備要因 具体例原理的に入手することが無理 正確な災害予知・人の真の能力欲しいと思ってから入手しようとしてもできない去年開催していたキャンペーンのクリックログを今からとる入手はできるが欲しい時に間に合わない観測所を立てる(明日の天気予報には使えない)入手しているが処理が追いつかない 100個のExcelファイルにフォーマットがばらばらで格納されている入手しているが組織やマネジメントが要因で使えないエンジニアのリソース不足で手が回らず他に扱える人がいない
• 100個のExcelファイルを使い始める前に1つにまとめる必要がある。形式が違うのであれば個別にしらべて揃えなければならない• データが正しいかを確かめ、欠損や重複は無いか、あるならどう扱うのか決めなければならない• こんなことをあらゆるデータで行っていたらいつまで経っても仕事が終わらない使う前にきれいにする必要がある意思決定と分析のプロセスの全体像とデータ整備
• データが集約できていても使い物にならない– Excelの例はほんの一例– 重複や欠損はあたりまえ• ちょっとした抽出でもクエリが長くなり、時間がかかる上にミスも増える• データを使いたい時にすぐ使えるようにするには、基盤に集約してさらに整理もしておく必要があるデータは集めるだけではつかえない理由意思決定と分析のプロセスの全体像とデータ整備
• 本や資料を入手した順に積み上げているだけではどこにあるかわからなくなるのでジャンル・執筆者名などで並び替えておくと取り出しやすくなる整理も基盤の構築と同様にあたりまえの考え方意思決定と分析のプロセスの全体像とデータ整備
• 整理してデータをきれいにしても使いやすくなるにはまだ足りない• 技術的なスキルが不足しているので代わりに抽出する• おかしなデータが増え続けるのを放置すると対応できなくなるので品質管理する• どこにどのようなデータが存在するのかを誰に聞けばいいのかがわからないのでメタデータを記録する整理してもまだ足りない意思決定と分析のプロセスの全体像とデータ整備
• 収集フェーズは「生成」「集約」「保管」「抽出」「整理」「品質管理」「記録」で構成される• 「ガバナンス」「インフラ」「法務」「倫理」も収集には必要であるが、プロセス全般に関わること• 領域が広すぎるし内容も全く違うので1まとめにして扱うのは無理がある• どこで切り分けるのがよいだろうか収集フェーズの構成を考える意思決定と分析のプロセスの全体像とデータ整備
• 「生成」は集めるデータによって違いが大きい– ログならエンジニア– アンケートなら分析者(リサーチャー)• 「集約」はインフラも絡んで技術の要素が強い• 「保管」は同時に守るための情報セキュリティがセットでこれもまた非常に大きな領域個別に考えた方がよさそうなこと意思決定と分析のプロセスの全体像とデータ整備
• 「抽出」「整理」「品質管理」「記録」は内容は違うが大まかに見ると共通している点がある– 集約してから分析に使うまでの間でやること– 技術的な要素よりも対人間の要素が強い• それぞれが大きな課題であり今後は分かれるかもしれないが、今のところはここをまとめたほうが見通しはよさそうあと4つをひとまとめにするのはどうか意思決定と分析のプロセスの全体像とデータ整備
• この4つの役割の総称を「データ整備」と呼ぶ• データ整備とは「データを使いたい誰もが使いたい時に迅速に、かつ正確なデータが入手できるようにすること」と言える• 軽く言うと「データを使いやすくすること」データ整備とは意思決定と分析のプロセスの全体像とデータ整備
• この3区分で使われることが現状では多い• データ整備は「データレイクに集約されてから分析の手前まで」が担当領域、ともいえる• 表にまとめてみると以下のようになるが、厳密ではないのであまりこだわらないほうがいいデータレイク・データウェアハウス・データマート意思決定と分析のプロセスの全体像とデータ整備区分 用途 整理 担当 たとえデータレイク 生のデータ なし 集約 倉庫データウェアハウス 汎用的なデータ あり 集約/整備 卸売りデータマート 個別の案件 あり 整備 小売店
• 収集フェーズの役割を利用と保管、技術的と人的にわけてみる。中心とは「要素が強い」ぐらいのイメージ収集フェーズのマッピング(β版)意思決定と分析のプロセスの全体像とデータ整備サイバーセキュリティ集約? 整備利用保管技術が中心人が中心生成
• データを使いやすくするのに必要な4つの役割– 抽出 ・・・ 分析のためのデータを提供する– 整理 ・・・ データをきれいにする– 品質管理 ・・・ データとデータの流れを管理する– 記録 ・・・ メタデータを管理する• 個々の役割についてもう少し詳しく触れてみるデータ整備の役割データ整備の役割とタスク
• 依頼者(主にビジネスサイド)が正しい分析を行うために必要なデータを適切な時期に適切な形で提供する• 「依頼されたデータを出す」ではなく「分析に本当に必要なデータを利用者に届ける」ことまで含まれるべき• 依頼の内容が不適切であったり、過不足があれば打ち合わせで埋めるデータ整備の役割(1)抽出データ整備の役割とタスク
• 抽出のタスク– 依頼の管理、ルール作り– 打ち合わせ– インプットの入手– 主にSQLを利用してデータを作成– アウトプットの提供(CSV・ダッシュボード)– インプットの入手を効率化するための業務フローや仕組みの改善データ整備の役割(1)抽出:タスクデータ整備の役割とタスク
• 迅速かつ正確な抽出ができるように事前にデータをきれいにしておく• 分析に十分に有用かどうかが基準。完璧にきれいかや技術的に優れているかは重要だが優先度は低いデータ整備の役割(2)整理データ整備の役割とタスク
• 整理のタスク– 重複や欠損を無くす– よく使う指標の作成– 共通IDの作成– データ型やタイムゾーンの統一– テーブルを適切に切り分ける– マスタのクレンジング– 個人情報の隔離データ整備の役割(2)整理:タスクデータ整備の役割とタスク
• 不良データを出さない、つくらない、入れないようにする仕組みを作る• すでにあるデータだけでなく、これから作られるデータにも注意を払う• 政府CIOポータル「データ品質管理ガイドブック」https://cio.go.jp/sites/default/files/uploads/documents/data_hinshitu_guide_beta.pdfデータ整備の役割(3)品質管理データ整備の役割とタスク
• 品質管理のタスク– 提供するデータ品質の担保– データの扱い方の方針の決定– データの定義の決定– データの評価(間違い、極端な過不足、デマ)– モニタリング– 生成・集約への修正依頼データ整備の役割(3)品質管理:タスクデータ整備の役割とタスク
• メタデータを組織として残すための仕組みを作る• 特定の個人の活動ではなく組織全体の活動に広げられるかが鍵データ整備の役割(4)記録データ整備の役割とタスク
• 記録のタスク– メタデータを書く– メタデータとして残す項目やレベルの決– メタデータを書いてもらうためのルールや仕組み作りデータ整備の役割(4)記録:タスクデータ整備の役割とタスク
• データ分析が広まったのがこの10年ぐらい• まずデータを「使いたい」が最初にあり、「使うためには集めなければならない」になってきた• データ基盤の構築が最近のトレンド• 先行しているところは「集めたけれどもそのままだと使えない」が浸透し始めている模様整備の必要性はまだ広まっていないデータ整備の現状を眺めてみる
• データを使うなら整備は必須だが、整備を別の役割として打ち出している企業は少ない• 別の職名で実質的に整備が求められるということはままある• 整備を分けて考えていない理由– 分ける発想がうまれていなかった– 規模が小さいのでまだわからない– 実は分ける必要無いかもしれないデータ整備が1つの役割として認識されていないデータ整備の現状を眺めてみる
• 整備は集約と分析の間にあるため「あればなお良い」ではなく「誰かがやらなければならない」のに誰が何をするのかが不明瞭• エンジニア、分析者双方にとっては領域外なところもありやりたがる人は少ないデータ整備が宙ぶらりんになっているデータ整備の現状を眺めてみる
• 本来の役割とは内容も求められるスキルも違うのになんとなく回ってくる• 以下のそれぞれの場合でそれぞれの問題がおきる– エンジニアが整備もしている– 分析者が整備もしている– マネージャーやマーケターなどが整備している• データはあるが利用に耐えうる整備はしていない場合もあるそれでも誰かがデータ整備をしている(はず)データ整備の現状を眺めてみる
• データを扱うスキルを持つ人が他に誰もいないとデータ分析に関わっていなくても回ってくる• 分析する人の話を聞かずに先に作って「せっかく作ったのに使われない」が起きる• 整備は技術よりも段取りとコミュニケーションの比重が高く、ビジネスサイドと直接やり取りをする必要があるが関係がまずくなることもエンジニアが整備をすると起きる問題データ整備の現状を眺めてみる
• 分析しようにも整備しないと使い物にならないので自分で整備もせざるを得ない• ある程度体制が出来た後から入ってくることが多く、既存システムに振り回される上に発言力が低くエンジニアとビジネスサイドの板挟みになりがち• 何でも屋になって気づいたら整備ばかりで分析をまったくしなくなったりする分析者が整備をすると起きる問題データ整備の現状を眺めてみる
• マネージャーやマーケターがデータを使いたいと思っても他に誰も整備をやる人がいないと手を出すことに• 畑違いの分野なのでスキル不足で効率がひどく悪い• ちょっとしたことにも半日かかったりするがもっと簡単にできる方法があることに気づくことができない• 本来の仕事に使える時間が削られるそれ以外の人が整備をすると起きる問題データ整備の現状を眺めてみる
• データは気にしなくてもいろいろと集まる(ログ・レポートなど)ので、集められて扱える状態にはなっているが利用に耐えうる整備は行われていない• ただそこにあるデータなので何かの目的に合致しているわけでもない(偶然使えることはある)• 使うために整備を始めるまでに多大なコミュニケーションコストが発生して挫折してしまう誰も整備をしていないデータ整備の現状を眺めてみる
• 目立たない、なので評価にも繋がりにくいため押し付け合いになり政治力で誰が何をするか決まる• とりあえず若手や初心者に担当させてパフォーマンスがあがらない。人の入れ替わりも多く発展しない• 外注に丸投げしてノウハウが溜まらない役割が不明瞭なためにおきるさらなる問題データ整備の現状を眺めてみる
• 日本人は「情報」と「兵站」が苦手らしい、はおそらく多くの人と合意できる• データの「収集」とは情報(インテリジェンス)のための兵站(ロジスティクス)• 集約やインフラはそのうち「物流」で比較的わかりやすいため注目される(例:宅急便)が整備は荷物の中身についての話データ整備がいまいち流行らない原因データ整備の現状を眺めてみる
• 役割も求められるスキルも違い、片手間でできる分量でもないので既存の役割とは別と認識したほうがいい• エンジニア・データアナリストやデータサイエンティスト・マーケターなどと同列に扱う• 「明確に区別はできないが別の役割であり、状況によっては兼任することはありえる」ぐらいがよさそうデータ整備を別の役割として認識するデータ整備の捉え方
• 担当者やデータ関連職種以外の人に認識してもらうためにも組織としての職名があったほうが望ましい• 「本職のついでにやる」からいつまでたっても抜け出せないのでは• エンジニアや分析者としての評価をされても別の仕事をしているので職名が無いと評価されづらいリスク整備の職名があったほうが望ましいデータ整備の捉え方
• 同じ名称でも違う内容、違う名称でも同じ内容を指していることがあるため言葉の定義に注意– データアーキテクト(データ整備人)– データスチュワード/BIエンジニア– アナリティクスエンジニア– データエンジニア/データサイエンティスト/データアナリストとあるが一部ないしは大半が整備データ整備に携わる人の職名データ整備の捉え方
• データ整備はDMBOKで言うと以下のあたり– ドキュメントとコンテンツ管理– 参照データとマスターデータ– データウェアハウジングとビジネスインテリジェンス– メタデータ– データ品質• 上記に加えてアドホックな「抽出」データ整備はデータマネジメントの一部データ整備の捉え方
• 重要度で区別は付けられないが優先度が高いのは抽出と整理• 組織が小さいうちは品質管理と記録は必要最低限に留めてリソースを抽出と整理に回すほうがいい– 重要な指標に関すること– 全体への影響が大きい箇所– メタデータはメモ程度データ整備のうちどれが重要かデータ整備の進め方
• SQL(+Excel・プログラミング)• コミュニケーション能力– 依頼されたことをそのまま実現するのではない– あるべきデータの提示、改善の要求、理不尽なら押し返す• 改善しようとする気持ちと実行力– 整備そのものが「より使いやすく」する仕事– 気持ちだけでなくいざとなったら自分でやる力データ整備の3大スキル(2021年版)データ整備の進め方
• 後工程になる分析で何をするか理解しやすいので分析経験者がパフォーマンスを出しやすいと思われる• 技術面はエンジニアが圧倒的に強みを持つ。あとは分析スキルがあるとなお良いのでは• 集約と分析の間であり、調整や橋渡しも行うので最初から整備はおすすめしないデータ整備はだれがやるのがいいのかデータ整備の進め方
• 必ず「何が知りたいのか」から始める• 最初は重要指標に絞る• そのためにどのようなデータが必要なのかを考えれば次の行動は決まる• できれば個人情報の隔離もしておく• どのツールを入れるかは最後。手元にあるか簡単に無料で入手できるツールをまずは使う何から整備したらいいのかデータ整備の進め方
• 前後も含めて考えると優先度は分析→集約→整備• ただし集約・整備・分析のどこかが大きく崩れると全部だめになる– 分析に使われなければ集約も整備も無駄– 集約されていないと使いたい時に使えない– 整備されていないと使いものにならない• 整備以外にも気を配る集約や分析とのバランスも考えるデータ整備の進め方
• データ整備が貢献できなくなる要因の代表例– 目的不在で整備だけする– 整備担当者の発言力が低くその他雑用扱いになる– 受け身すぎる(依頼通りに抽出する/業務フローを改善しない)– 高価なツールをいきなり入れる– リーダーシップ不在– 最初からDMBOKデータ整備のアンチパターンデータ整備の進め方
• 意識はしておかないといけないことの例– ガバナンス・・ルールを守らせる– 法務・・・・・個人情報– 倫理・・・・・エコーチェンバー• 集約や分析と含めて周辺領域と明確な区別はできないので状況に応じて埋めることも必要。でも1人で全部はできないのでみんなでうまく分担するデータ整備以外にも意識しておきたいことデータ整備の進め方
• 組織でプロセスの全領域をカバーすることになるが、収集だけでもかなり広い領域• 細かく分担を考えるほどの組織になっている場合はまだまだ少ない。人がそれなりにいても整備を切り分けている企業は皆無• つまり、データに関わるならば整備の役割の一部を担うことになる可能性が高い整備をまったくしないで済む場合はあまりないデータ整備を担う際に気を付けてほしいこと
• 分析のためのデータであることを意識してほしい– 何かを作る前に分析する人の意見を先に聞く– 希望をそのまま実現しようとしない。怪しいと思ったら何を知りたいのか聞いてみる– 完璧に整理できるかや技術的に正しいかよりも分析に有用かを優先するエンジニアが整備もするならデータ整備を担う際に気を付けてほしいこと
• 整備に時間を取られて分析が出来なくならないようにしてほしい– 何でも屋にならないように気を付ける– 整備の範疇を超えた不適切な依頼(インプットの整形、レポート作成、内容不明瞭な依頼)は押し返す– 生成や集約の問題を全部整備で吸収しない分析担当者が整備もするならデータ整備を担う際に気を付けてほしいこと
• 本当に必要最低限なことだけに絞ってほしい– 重要な指標を抽出するのに必要な整理だけにする– 無理はせずに早く人を探す(特に経営層やマネージャー)– あれこれ出来る人が望ましいがSQLが書けるアルバイトがいるだけでも違うマネージャーやマーケターが整備もするならデータ整備を担う際に気を付けてほしいこと
• データを使ったことがある人は感覚的に理解していると思われるが特にそれ以外の人(特に経営・マネジメント層)にはどう伝えるのがいいか• データで伝わりづらかったら料理に例えてみるデータ整備をしないとデータはまともに使えないデータ整備をしないとどうなるのかを説明する
• 料理をしようと思ったらそれぞれの生産者のところへ買いに行き、購入した食材を自分でさばいて使う。加工品も全部自分で作る料理をするのに全部自分で食材を用意するとしたら種類 場所 やること 加工食品肉 牧場 解体・きりわけ ベーコン魚 港 さばく 干物米や野菜 農家 脱穀 もち・豆腐データ整備をしないとどうなるのかを説明する
• もしも「物流」や「中間加工」がなく料理を作るのに全部自分でやらなければならないとしたら大変なことになる• データ整備をしないデータ分析は「物流」や「中間加工」の無い料理と同じようなもの• 整備をしないデータはまともに使うことはできない• データは食材と違って物理的な障害が無いので伝わりづらいかもデータ整備をしないデータ分析とはデータ整備をしないとどうなるのかを説明する
まとめ
• 整備をしないとデータがまともに使えない• 整備は別の役割として認識して分担を考えよう• プロセス全体の中での整備なのでバランスを考えよう整備の実務について(+その他いろいろ)ブログに書いていますデータ分析とインテリジェンス:https://analytics-and-intelligence.net質問・疑問などお気軽にご連絡くださいTwitter:@data_analyst_データ整備はまだ始まったばかりまとめ