Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【輪読会】実践的データ基盤への処方箋 / 20220120

momota
February 12, 2022

【輪読会】実践的データ基盤への処方箋 / 20220120

2022/1/20に輪読会で発表した実践的データ基盤への処方箋の1-9から1-12の内容です

momota

February 12, 2022
Tweet

More Decks by momota

Other Decks in Business

Transcript

  1. 自己紹介 • Software Engineer at DeNA ◦ 今の専門領域はデータエンジニアリング • @momota10s

    でたまにインターネットにいます • 今まで取り扱った業界のデータ ◦ 決済(QR)、小売(POS)、医療
  2. なぜユースケースに注目すべきか データ基盤を作るのがユースケースを実現するためだから データの流れはレイク -> ウェアハウス -> マート -> ユースケース(BI etc)だが、実務で

    は最初にユースケースから検討するのが望ましい。 技術的難易度の高い仕組みをつくってもユースケースが伴われないと活用されなかっ たり、そもそも要件的に必要なかったりとビジネス価値の無いものに。 • 例: リアルタイムデータ転送システム 本のページ p43
  3. メタデータとはなにか 「このデータはどのようなデータなのか」を知るために付与される情報 • データの作成者 • データの作成日時 • データに個人情報が含まれているか • データが文字列なのか数値なのか

    • その数値の単位はcmなのか日本円なのか • データが誰にどのくらい参照されているのか • データを保管する義務のある期間 • etc 本のページ p48
  4. なぜメタデータを管理すべきか メタデータは、データ活用の場面だけではなくデータパイプラインの作成課程でも大いに役 立つ • データを収集するときに、テーブル名やカラム名などのテーブル情報 をもとにして、データソースにアクセ スする • データウェアハウス層をつくるときに、データレイク層のデータを把 握したうえで集計ロジックをつくる

    • データマート層をつくるときに、データレイク層やデータウェアハウ ス層のデータを把握したうえで集計ロ ジックをつくる • データ基盤のトラブル発生時に、誰にどのデータがどのくらい参照されているのかを調べて、対象者にア ナウンスする 本のページ p50
  5. どのようにメタデータを管理するか 本のページ p51 分析用DBやメタデータ管理ツールを利用する GCPでいうとBigQueryやData Catalog など 以下個人の経験 • 実際の現場ではスプレッドシートや

    Excelで管理されている状態は往々にしてある。 • まだ管理されているだけマシでソースコード見てね、とか〇〇さんに聞いてみて、というのも あったり。
  6. なぜサービスレベルを計測するか 本のページ p54 計測すること • 計測なしには何をどれぐらい改善すればいいのか判断が出来ない • 同時に、達成したい目標の合意も大事 「1 日の売上データの集計は翌朝

    7 時に完了していること」というサービ スレベルを設定したのであれば、「売上データの作成日時」 (メタデータ) を もとに「7 時までに集計完了しているか」を計測します。 30 日間のうち、集計遅延が 1日だけ(達成率97%)なのか、集計遅延が 12日(達成率 60%)なのかで、次にとるべき施策は変わります。 また、目標が無いと 6時には集計終わってる状態なのに 5時を目指そう とROIの低い施策に走ったり、等
  7. 現場で生じるサービスレベルの課題と対処法 本のページ p57 • 目標設定とその合意が明確でない故にサービスレベルに過剰な品質目標を科してし まう事がよくあるので注意する ◦ その仕事はビジネス価値に直結するのか? ◦ 全てのデータを完璧に整備するのが目標ではなく、事業用途で使用するデータに関して

    完璧に整備されているのが目標 • 個人情報データはガバナンスと利便性のトレードオフに直面しやすい。関係者とよく 議論してCIAを念頭にデータガバナンスを設計するとよい (意訳) ◦ 機密性(confidentiality) ◦ 完全性(integrity) ◦ 可用性(availability)
  8. データスチュワードとはなにか https://www.indeed.com/jobs?q=Data+Steward&vjk=1ea13b41a110ea55 job description(Marriott International, Inc) Experience(by DeepL翻訳) • SQL

    Server、DB2、Oracle、Informix、Teradata、Netezzaの少なくとも1つで高度なSQLクエリスキルがあること。 • SSMSを含むSQL Serverに関する確かな知識。 • Microsoft Excelおよびその他の Microsoftスイート製品の高度な知識。 • データベース管理 、リレーショナルデータベース、 NoSQLの構造および調査方法の経験。 • ETL開発ツールの経験( SQL Server Integration Services、Informaticaなど)。 • BIプラットフォーム (MicroStrategy、Tableau、Alteryx、Power BI)の使用経験 • ビジネスニーズに応じて適切な分析アプローチを見極める能力。
  9. データスチュワードとはなにか https://uk.indeed.com/Data-Steward-jobs?vjk=9133ea0d203e8d39 job description(Boston Consulting Group) EXPERIENCE & QUALIFICATIONS(by DeepL翻訳)から抜粋

    • 10年以上のデータ管理業務 (データマネジメント/ CDOオフィスまたはBI/アナリティクスチーム)での勤務経験、マスター データ管理およびデータガバナンスツールの使用実務経験 • データ品質に対する情熱と関心 があり、問題解決において正確さと細部へのこだわりを実証していること • データ管理の概念および関連するビジネスプロセスやツール(特にデータモデリング、データウェアハウス、データ品質)を 理解すること。 • 顧客とビジネスを重視し、効果的な仕事上の関係を形成 し、対立を解決する能力を有すること。 • 顧客や製品データ領域にフォーカスしたデータスチュワードは、マーケティングや製品開発プロセスやコンセプトを理解し、 マーケティングデータを扱った経験 が必要です。MS Dynamics、Salesforce、SAP(またはその他の ERPシステム)などのアプ リケーションを使用した経験をお持ちの方が最適です。
  10. データスチュワードとはなにか 個人の所感 • 「データスチュワード」というロール自体はまだあまりなさそう ◦ データアナリストに内包されているのが多そう ◦ 実際データに詳しくなるのはデータアナリストな訳で • データスチュワードがキャリアの最初というよりは、

    data analytics や data engineeringがデータの利活用を推進していく上で、事業の数や規模が増えてスチュ ワードの業務が片腕じゃ収まらなくなったら専任で必要になりそう ◦ data management office的な部署が出来るのがそのタイミングかも ◦ 1事業の会社では専門の役職はやりすぎだし手が余ると思われ
  11. データスチュワードはどう振る舞うか 本のページ p60 データ整備の推進 • 問い合わせ対応によって、データ活用者の要望やユースケースを把握 する • そのユースケースを実現できるだけの品質をサービスレベルとして定義する •

    その品質水準や利用状況をメタデータで計測する (メタデータがなければ整備する) • 目標と現状の差分から課題を検知し、解決策を検討する • データソースに課題があればデータ生成者と協力してデータソースを整える • データ基盤に課題があればデータレイク、データウェアハウス、データマートを整備す る