Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ品質について考えてみた

yujikawa
January 11, 2025
19

 データ品質について考えてみた

yujikawa

January 11, 2025
Tweet

Transcript

  1. 難しい(不安)と思ったこと 1. そもそもどういう手順でやればいいの? a. データ品質を担保しているという証明とその運用ってどうやるんだ? b. データ利用者と相互作用しながらやっていくにはどうしたらいいんだろう c. もうPJ始まってしばらく経つけど途中からいけるのか…これ? 2.

    データ利用者の要求に対してどうすればいい? a. ステークホルダーがいっぱいいたら合意するだけでも大変そう、合意するためになにが必要? 3. どういうデータの品質を管理すればいいんだろう? a. とりあえずデータ欠損とか数値チェックとかやって僕は満足しそう(きっと駄目なやつ) 4. データ品質管理に必要なスキルってなに? a. データ品質ツール使えるだけじゃだめなんだろうなと思いながら、じゃあ必要なスキルってなに? 技術的な部分よりも運用面で不安がいっぱい!
  2. 救世主あらわる データ品質プロジェクト実践ガイド 価格 9,900円(税込) ISBN 9784296205196 発行日2024年12月23日 著者名Danette McGilvray 著、木山靖史

    宮治徹 井桁 貞裕 翻訳 発行元日経BP ページ数 640ページ 判型 A4判 https://bookplus.nikkei.com/atcl/catalog/24/12/05/01754/ 著者サイト:https://www.gfalls.com/
  3. 本の構成 第1章 データ品質とデータに依存する世界 
 第2章 データ品質の実際 
 第3章 キーコンセプト
 第4章 10ステッププロセス 
   ステップ1

    ビジネスニーズとアプローチの決定 
   ステップ2 情報環境の分析 
   ステップ3 データ品質の評価 
   ステップ4 ビジネスインパクトの評価 
   ステップ5 根本原因の特定 
   ステップ6 改善計画の策定 
   ステップ7 データエラー発生の防止 
   ステップ8 現在のデータエラーの修正 
   ステップ9 コントロールの監視 
   ステップ10 全体を通して人々とコミュニケーションを取り、管理し、巻き込む 
 第5章 プロジェクトの組み立て 
 第6章 その他のテクニックとツール 
 第7章 最後に一言 この範囲で 本の75%を 占める とくに3章と4章は重要
  4. 1.そもそもどういう手順でやればいいの? データ品質の取り組みを10ステップで説明されている必要に応じて、ステップを繰り返し行う。ステッ プ間は手戻りすることがある。データ品質の活動は継続的に行う。 "データ品質プロジェクト実践ガイド "(Danette McGilvray, 木山 靖史, 宮治 徹,

    井桁 貞裕 著)からの図の引用(図 4.0.1参照) 1 ビジネスニーズ とアプローチの 決定 2 情報環境の分析 3 データ品質の評 価 4 ビジネスインパク トの評価 5 根本原因の特定 6 改善計画の策定 7 データエラー発 生の防止 8 現在のデータエ ラーの修正 9 コントロールの 監視 10 全体を通して人々とコミュニケーションを取り、管理し、巻き込む
  5. 1.そもそもどういう手順でやればいいの? "データ品質プロジェクト実践ガイド "(Danette McGilvray, 木山 靖史, 宮治 徹, 井桁 貞裕

    著)からの図の引用(図 4.0.1参照) 1 ビジネスニーズ とアプローチの 決定 2 情報環境の分析 3 データ品質の評 価 4 ビジネスインパク トの評価 5 根本原因の特定 6 改善計画の策定 7 データエラー発 生の防止 8 現在のデータエ ラーの修正 9 コントロールの 監視 10 全体を通して人々とコミュニケーションを取り、管理し、巻き込む • プロジェクトが取り組むべきビジネスニーズに優先順 位をつけ、最終決定する • プロジェクトのフォーカスと効果を明確化 • プロジェクトの目的を定義し、結果について合意する など
  6. 1.そもそもどういう手順でやればいいの? "データ品質プロジェクト実践ガイド "(Danette McGilvray, 木山 靖史, 宮治 徹, 井桁 貞裕

    著)からの図の引用(図 4.0.1参照) 1 ビジネスニーズ とアプローチの 決定 2 情報環境の分析 3 データ品質の評 価 4 ビジネスインパク トの評価 5 根本原因の特定 6 改善計画の策定 7 データエラー発 生の防止 8 現在のデータエ ラーの修正 9 コントロールの 監視 10 全体を通して人々とコミュニケーションを取り、管理し、巻き込む • プロジェクト目標を達成し、次のステップにそなえるた めに必要な詳細レベルで、情報環境(要件、制約、 データ仕様など)を文書化する。
  7. 1.そもそもどういう手順でやればいいの? "データ品質プロジェクト実践ガイド "(Danette McGilvray, 木山 靖史, 宮治 徹, 井桁 貞裕

    著)からの図の引用(図 4.0.1参照) 1 ビジネスニーズ とアプローチの 決定 2 情報環境の分析 3 データ品質の評 価 4 ビジネスインパク トの評価 5 根本原因の特定 6 改善計画の策定 7 データエラー発 生の防止 8 現在のデータエ ラーの修正 9 コントロールの 監視 10 全体を通して人々とコミュニケーションを取り、管理し、巻き込む • ビジネスニーズ、データ品質問題、プロジェクト目標に 該当するデータ品質評価軸の評価
  8. 1.そもそもどういう手順でやればいいの? "データ品質プロジェクト実践ガイド "(Danette McGilvray, 木山 靖史, 宮治 徹, 井桁 貞裕

    著)からの図の引用(図 4.0.1参照) 1 ビジネスニーズ とアプローチの 決定 2 情報環境の分析 3 データ品質の評 価 4 ビジネスインパク トの評価 5 根本原因の特定 6 改善計画の策定 7 データエラー発 生の防止 8 現在のデータエ ラーの修正 9 コントロールの 監視 10 全体を通して人々とコミュニケーションを取り、管理し、巻き込む • 状況に適したテクニックを使用してビジネスインパクト を評価する
  9. 1.そもそもどういう手順でやればいいの? "データ品質プロジェクト実践ガイド "(Danette McGilvray, 木山 靖史, 宮治 徹, 井桁 貞裕

    著)からの図の引用(図 4.0.1参照) 1 ビジネスニーズ とアプローチの 決定 2 情報環境の分析 3 データ品質の評 価 4 ビジネスインパク トの評価 5 根本原因の特定 6 改善計画の策定 7 データエラー発 生の防止 8 現在のデータエ ラーの修正 9 コントロールの 監視 10 全体を通して人々とコミュニケーションを取り、管理し、巻き込む • データ品質問題の真の原因や具体的なデータ品質エ ラーを特定する • 原因に対しての改善提案を策定する
  10. 1.そもそもどういう手順でやればいいの? "データ品質プロジェクト実践ガイド "(Danette McGilvray, 木山 靖史, 宮治 徹, 井桁 貞裕

    著)からの図の引用(図 4.0.1参照) 1 ビジネスニーズ とアプローチの 決定 2 情報環境の分析 3 データ品質の評 価 4 ビジネスインパク トの評価 5 根本原因の特定 6 改善計画の策定 7 データエラー発 生の防止 8 現在のデータエ ラーの修正 9 コントロールの 監視 10 全体を通して人々とコミュニケーションを取り、管理し、巻き込む • 予防、修正、検知など改善を導入するための計画を 策定する • 計画の導入に責任をもつオーナーを確認する
  11. 1.そもそもどういう手順でやればいいの? "データ品質プロジェクト実践ガイド "(Danette McGilvray, 木山 靖史, 宮治 徹, 井桁 貞裕

    著)からの図の引用(図 4.0.1参照) 1 ビジネスニーズ とアプローチの 決定 2 情報環境の分析 3 データ品質の評 価 4 ビジネスインパク トの評価 5 根本原因の特定 6 改善計画の策定 7 データエラー発 生の防止 8 現在のデータエ ラーの修正 9 コントロールの 監視 10 全体を通して人々とコミュニケーションを取り、管理し、巻き込む • データ品質の問題/エラーの根本原因に対処するソ リューションを導入する
  12. 1.そもそもどういう手順でやればいいの? "データ品質プロジェクト実践ガイド "(Danette McGilvray, 木山 靖史, 宮治 徹, 井桁 貞裕

    著)からの図の引用(図 4.0.1参照) 1 ビジネスニーズ とアプローチの 決定 2 情報環境の分析 3 データ品質の評 価 4 ビジネスインパク トの評価 5 根本原因の特定 6 改善計画の策定 7 データエラー発 生の防止 8 現在のデータエ ラーの修正 9 コントロールの 監視 10 全体を通して人々とコミュニケーションを取り、管理し、巻き込む • 既存のデータエラーを修正するソリューションを導入 する • データエラーの場所、大きさ、影響など得られた知見 を活用し、重要なデータを更新する
  13. 1.そもそもどういう手順でやればいいの? "データ品質プロジェクト実践ガイド "(Danette McGilvray, 木山 靖史, 宮治 徹, 井桁 貞裕

    著)からの図の引用(図 4.0.1参照) 1 ビジネスニーズ とアプローチの 決定 2 情報環境の分析 3 データ品質の評 価 4 ビジネスインパク トの評価 5 根本原因の特定 6 改善計画の策定 7 データエラー発 生の防止 8 現在のデータエ ラーの修正 9 コントロールの 監視 10 全体を通して人々とコミュニケーションを取り、管理し、巻き込む • データ品質の可視化などの改善できるようなコント ロールの開発やすでに実施されているコントロールの 監視
  14. 1.そもそもどういう手順でやればいいの? "データ品質プロジェクト実践ガイド "(Danette McGilvray, 木山 靖史, 宮治 徹, 井桁 貞裕

    著)からの図の引用(図 4.0.1参照) 1 ビジネスニーズ とアプローチの 決定 2 情報環境の分析 3 データ品質の評 価 4 ビジネスインパク トの評価 5 根本原因の特定 6 改善計画の策定 7 データエラー発 生の防止 8 現在のデータエ ラーの修正 9 コントロールの 監視 10 全体を通して人々とコミュニケーションを取り、管理し、巻き込む • 適切なコミュニケーションと巻き込み活動をプロジェクト全体 に含める。 • 関係者に常に情報を提供しフィードバックをもらう • データ品質に関する認識を強化、教育 など..
  15. 2.データ利用者の要求に対してどうすればいい? データの生成から削除までのライフサイクルを通して利用者をリサーチしつつ、対象のデータのビジネスニーズを整理するのがと ても重要。そしてそのデータの与えるビジネスの影響度合を整理できるとプロジェクトとして取り組むための説得材料になる。 1 ビジネスニーズ とアプローチの 決定 2 情報環境の分析 3

    データ品質の評 価 4 ビジネスインパク トの評価 "データ品質プロジェクト実践ガイド "(Danette McGilvray, 木山 靖史, 宮治 徹, 井桁 貞裕 著)からの図の引用(図 4.0.1参照) 5 根本原因の特定 6 改善計画の策定 7 データエラー発 生の防止 8 現在のデータエ ラーの修正 9 コントロールの 監視 10 全体を通して人々とコミュニケーションを取り、管理し、巻き込む 手順としてはこのあたりでか なり最初の部分
  16. 3.どういうデータの品質を管理すればいいんだろう? 1 ビジネスニーズ とアプローチの 決定 2 情報環境の分析 3 データ品質の評 価

    4 ビジネスインパク トの評価 "データ品質プロジェクト実践ガイド "(Danette McGilvray, 木山 靖史, 宮治 徹, 井桁 貞裕 著)からの図の引用(図 4.0.1参照) 5 根本原因の特定 6 改善計画の策定 7 データエラー発 生の防止 8 現在のデータエ ラーの修正 9 コントロールの 監視 10 全体を通して人々とコミュニケーションを取り、管理し、巻き込む 2、3、4の手順は作業の途 中でいったりきたりするか も? ビジネスニーズの高い部分、そしてビジネスインパクトの高いものを選択する。そのためにも現在のデータ品質の状況を把握 する必要がある。データ品質の評価部分とビジネスインパクトの評価部分を材料に考える必要あり。
  17. アナリティクスエンジニアやデータエンジニア としてやれることは? 1 ビジネスニーズ とアプローチの 決定 2 情報環境の分析 3 データ品質の評

    価 4 ビジネスインパク トの評価 5 根本原因の特定 6 改善計画の策定 7 データエラー発 生の防止 8 現在のデータエ ラーの修正 9 コントロールの 監視 10 全体を通して人々とコミュニケーションを取り、管理し、巻き込む "データ品質プロジェクト実践ガイド"(Danette McGilvray, 木山 靖史, 宮治 徹, 井桁 貞裕 著)からの図の引用(図4.0.1参照) データに関する情報が重要なので、メタデータ、データカタログ、テーブル設 計書、リネージの作成といった日頃からおこなっておくこと データ品質関連のツールのキャッチアップやデータ基盤に おけるデータモデリングの改善活動 関係者と常に良好なコミュニケーションを取っておいて、いざというときに助けてもらえる信頼関係作りが必要
  18. アナリティクスエンジニアやデータエンジニア としてやれることは? 1 ビジネスニーズ とアプローチの 決定 2 情報環境の分析 3 データ品質の評

    価 4 ビジネスインパク トの評価 5 根本原因の特定 6 改善計画の策定 7 データエラー発 生の防止 8 現在のデータエ ラーの修正 9 コントロールの 監視 10 全体を通して人々とコミュニケーションを取り、管理し、巻き込む "データ品質プロジェクト実践ガイド"(Danette McGilvray, 木山 靖史, 宮治 徹, 井桁 貞裕 著)からの図の引用(図4.0.1参照) 個人的にはこの領域についてもっとインプットをして実践していきたい おそらく作業的には泥臭く苦労を伴うところだろうけどだからこそ重要度が高いと思っている とくに1のステップを見逃しがちなので常に意識して対応したい
  19. 情報ライフサイクル思考 情報のライフサイクルをPOSMADで整理すること • 計画(Plan):リソースを準備する • 入手(Obtain):リソースを取得する • 保存と共有(Store and Share):リソースに関する情報を保持し、なんらかの配布方法

    で利用できるようにする • 維持(Maintain):リソースが適切に機能し続けるようにする • 適用(Apply):ビジネスニーズをサポートし、対処するためにリソースを使用する • 廃棄(Dispose):リソースが使用されなくなったら削除または廃棄する
  20. 例:組織とPOSMAD 顧客情報に関する情報ライフサイクル 組織 コールセンター マーケティング フィールド営業 顧客情報マネジメント マーケティングコミュニ ケーション ビジネスセグメント

    ビジネスインテリジェン ス 適用(A) 入手(O) 維持(M) 廃棄(D) 計画(P) 適用(A) 入手(O) 維持(M) 計画(P) 適用(A) 入手(O) 維持(M) 廃棄(D) 計画(P) 適用(A) 入手(O) 計画(P) 適用(A) 計画:顧客情報に関する設計に携わる 入手:顧客情報をどこからか取得する部署 維持:顧客情報メンテしてる部署 適用:顧客情報つかっている部署 廃棄:顧客情報を削除している部署 データ仕様が誰が決 定して、どの部署が データを入手したり活 用したり削除している のかを俯瞰することが できる。 →問い合わせ先の整 理として役立ちそうと おもった