Upgrade to Pro — share decks privately, control downloads, hide ads and more …

白金鉱業Meetup Vol.17_あるデータサイエンティストのデータマネジメントとの向き合い方

BrainPad
February 20, 2025

白金鉱業Meetup Vol.17_あるデータサイエンティストのデータマネジメントとの向き合い方

2025年2月20日に実施した、白金鉱業 Meetup Vol.17@六本木(データマネジメント)でのブレインパッド浅野の登壇スライドです。

イベントURL
https://brainpad-meetup.connpass.com/event/343104/
浅野 X/Twitterアカウント
https://x.com/nash_efp

BrainPad

February 20, 2025
Tweet

More Decks by BrainPad

Other Decks in Technology

Transcript

  1. 3 ©BrainPad Inc. ブレインパッド について 社名 |株式会社 ブレインパッド 所在地 |東京都港区六本木3-1-1

    六本木ティーキューブ 11F・12F 設立 |2004年3月18日 株式市場 |東京証券取引所 プライム市場(証券コード:3655) 従業員 |545名(連結、2024年6月30日現在) 代表者 |代表取締役社長 CEO 関口 朋宏 グループ |株式会社 TimeTechnologies 株式会社 電通クロスブレイン 変革を目指す企業と共に最前線を走り続ける、データ活用推進パートナーのパイオニア 2004年創業、日本初の “対象業界を問わない総合データ分析サービス企業” として事業展開
  2. 4 ©BrainPad Inc. ブレインパッドの事業領域 最適なデータ活用を設計し、経営に実装する データ活用のさまざまなプロフェッショナルが、多様な視点からアナリティクスとエンジ ニアリングのスキルを駆使して、その企業に最適なデータ活用を実装します。 (データサイエンティスト200名以上、ビジネスコンサルタント50名以上、エンジニア100名以上在籍) プロダクト・サービス プロフェッショナル・サービス

    実用的なSaaSで、データ活用を日常化する 可視化や効率化、データによる意思決定を日々の業務に落とし込むために、誰もが使いこ なせる実用的なプロダクト群で、データ活用の日常化をサポートします。 (2006年自社開発プロダクト「Rtoaster」をはじめ、データを基点としたプロダクトを多数用意) データに纏わる技術と専門性を駆使した2種類のサービスを組み合わせ、 企業のデータ活用・DX・課題解決を支援
  3. 16 ©BrainPad Inc. プロジェクトの質 問いの質 解の質 データの質 プロジェクトの質 「良い問い」を立てて、 「高度な分析・機械学習のスキル」を持っていても、

    「データの質」次第でプロジェクトの質が大きく左右される ※ 図らずも「データマネジメント研修【MIXI 23新卒技術研修】」と同じ主張でした
  4. 21 ©BrainPad Inc. データマネジメントという土台の上に、データ分析が存在する データマネジメントの位置づけ 引用:Aikenのピラミッドを和訳 データガバナンス データ分析 ビッグデータ 活用

    DWH & BI マスタ データ 管理 ドキュメ ント・コ ンテンツ 管理 データ統合と相互運用性 データストレージと 運用 データ モデリングとデザイン データ セキュリティ データ アーキテクチャ メタデータ 管理 データ 品質管理 データマネジメント データ分析
  5. 25 ©BrainPad Inc. データ基盤の代表的な構成 三層構造 ※ データ基盤:継続的にデータを収集して蓄積しておくシステム 用語解説 データレイク データウェアハウス

    データマート ビジネス活用 サービスへ接続 ダッシュボード 意思決定に利用 ・・・ ・・・ データ基盤 三層構造 データソース
  6. 27 ©BrainPad Inc. データを「そのままコピー」して1カ所に集める層 データレイク データレイク データウェアハウス データマート ビジネス活用 サービスへ接続

    ダッシュボード 意思決定に利用 ・・・ ・・・ データ基盤 三層構造 データソース 用語解説 1カ所にデータを集めると… • データ格納先の確認など、集計以前のコストが下がる • 組織横断的な分析が可能になる ※ 分析テーマによって適切な加工方法は異なるため「そのままコピー」することが重要
  7. 28 ©BrainPad Inc. 「共通化されたデータ」を置く層 データウェアハウス 用語解説 ※ なお、データ基盤の用語は本資料の用語が絶対ではない。組織によって定義が異なるため、読み替えが必要 データレイク データウェアハウス

    データマート ビジネス活用 サービスへ接続 ダッシュボード 意思決定に利用 ・・・ ・・・ データ基盤 三層構造 データソース 共通化すると… • 各所で行う後続の処理を省くことができる • 誰でも同じ定義の指標を参照できる(例:売上)
  8. 29 ©BrainPad Inc. 加工処理した「特定の目的のデータ」を置く層 データマート 用語解説 データレイク データウェアハウス データマート ビジネス活用

    サービスへ接続 ダッシュボード 意思決定に利用 ・・・ ・・・ データ基盤 三層構造 データソース 加工処理を済ませて、特定の目的に絞っておくことで… • すぐに集計結果を確認できる、あるいはシステムの応答時間が早くなる • ほかの用途への影響を気にせず、自由に更新できる
  9. 30 ©BrainPad Inc. 参考:データ基盤の事例 dbt-coreで実現するCore DataMartsのデータモデリング~dbt編~ / Core DataMarts Modeling

    with dbt-core ZOZO セブンイレブン DeNA バンダイナムコネクサス Pocochaにおけるデータマネジメント バンダイナムコネクサスで構築しているデータ基盤の紹介 セブン‐イレブン、2万1000店舗のPOSデータをリアルタイムで収集分析する データ基盤「セブンセントラル」を構築
  10. 31 ©BrainPad Inc. 三層だけでは足りない? データの理解や分析が進んでくると、共通化すべきテーブルが作られ、 徐々に中間層が厚くなる アサノさんが作ったテーブルは もはやデータウェアハウスです! わーい! ※

    「層の数」にとらわれず、入口→中間処理→出口という「三層構造を基本としたイメージ」を抑えていることが大事 データレイク データウェアハウス データマート
  11. 37 ©BrainPad Inc. order_datetime sales_price item_id unit category 2025-03-30 08:14:16

    1,200 AAA 2 1 2025-03-30 09:24:43 2,000 BBB 3 2 2025-03-30 11:09:24 3,000 CCC 1 3 2025-03-30 11:14:16 1,200 DDD 4 4 メタデータの重要性:データサイエンティストの目線 何のorderログ? timezoneはJST?UTC? 売上は税抜き?税込み? そもそも日本円だよね? unitは 個数単位?箱単位? 複数のサイズがある場合は item_idは分かれる? ログが発生するタイミング は注文時でいいよね? キャンセルや返品は どう扱っているのか? テーブル名:order_log 主キーや結合キーはどれ? カテゴリ値の それぞれの意味は? メタデータがないと… ・データの意味がわからず、分析に活用することができない ・データの理解や問い合わせに時間を浪費してしまう
  12. 41 ©BrainPad Inc. メタデータの重要性:データエンジニアの目線 このログはAさんが日次で需要 予測に使っているので明日まで に直さないと! このログはBさんが2週間に1回 の定型分析に使っているだけな ので緊急度は低いな

    障害発生 データエンジニア 今このデータで障害が発生していますが 明日の11時ごろまでの復旧する見込みです 今このデータで障害が発生しています。 ほかに緊急度が高いデータがあるので、 来週の復旧でも大丈夫ですか…? Aさん Bさん 明日16時ごろまでにあれば大丈夫です! 復旧次第連絡もらえると助かります! 来週の木曜日までにあれば大丈夫です! もし遅れそうなら前日に連絡をください! メタデータにより、素早く正しい優先順位で対応できる ※ 組織設計が進んでいると、個別で対応せずプロダクトごとの連絡窓で通知・連絡することもあります
  13. 47 ©BrainPad Inc. データの価値を実感しやすいタイミングは、具体の成果物を使える「試験運用」 価値の実感 本番運用:分析による価値創出 要件定義 PoC 試験運用 予測モデルを使ってみたよ!

    いい感じだね! ほかの分析も任せていいかい? データを整えると、本番運用もほかの分析も 捗りますよ! じゃあ、今後のためにも整えよう!
  14. 56 ©BrainPad Inc. まとめ データマネジメントは全員で取り組む永続的活動、そしてDSは… • データに一番詳しい=ケイパビリティがある • データが綺麗になって一番最初に恩恵を受ける=インセンティブがわかりやすい •

    「データをビジネス価値に転換する」ための取り組み • プロジェクトの質に影響を与える「データの質」を上げるための取り組みでもある • 三層構造を取り入れる • データについての知見を蓄積する DSがおさえたいポイント DSこそ推進しよう! データマネジメントとは