Slide 1

Slide 1 text

【初学者向け発表枠】 あるデータサイエンティストの データマネジメントとの向き合い方 2025年 2月 20日 白金鉱業Meetup Vol.17

Slide 2

Slide 2 text

浅野 (アサノ) @nash_efp ブレインパッド データサイエンティスト 好きなバンド:plenty

Slide 3

Slide 3 text

3 ©BrainPad Inc. ブレインパッド について 社名 |株式会社 ブレインパッド 所在地 |東京都港区六本木3-1-1 六本木ティーキューブ 11F・12F 設立 |2004年3月18日 株式市場 |東京証券取引所 プライム市場(証券コード:3655) 従業員 |545名(連結、2024年6月30日現在) 代表者 |代表取締役社長 CEO 関口 朋宏 グループ |株式会社 TimeTechnologies 株式会社 電通クロスブレイン 変革を目指す企業と共に最前線を走り続ける、データ活用推進パートナーのパイオニア 2004年創業、日本初の “対象業界を問わない総合データ分析サービス企業” として事業展開

Slide 4

Slide 4 text

4 ©BrainPad Inc. ブレインパッドの事業領域 最適なデータ活用を設計し、経営に実装する データ活用のさまざまなプロフェッショナルが、多様な視点からアナリティクスとエンジ ニアリングのスキルを駆使して、その企業に最適なデータ活用を実装します。 (データサイエンティスト200名以上、ビジネスコンサルタント50名以上、エンジニア100名以上在籍) プロダクト・サービス プロフェッショナル・サービス 実用的なSaaSで、データ活用を日常化する 可視化や効率化、データによる意思決定を日々の業務に落とし込むために、誰もが使いこ なせる実用的なプロダクト群で、データ活用の日常化をサポートします。 (2006年自社開発プロダクト「Rtoaster」をはじめ、データを基点としたプロダクトを多数用意) データに纏わる技術と専門性を駆使した2種類のサービスを組み合わせ、 企業のデータ活用・DX・課題解決を支援

Slide 5

Slide 5 text

5 ©BrainPad Inc. 白金鉱業Meetupについて 株式会社ブレインパッドの有志メンバーで運営しているデータ職種向けの 勉強会 兼 交流会イベント 2~3か月に1回のペースで開催しています! ハッシュタグは「#白金鉱業」 発起人は卒業生の「𠮷田勇太 / ysdyt@yutatatatata」さん

Slide 6

Slide 6 text

6 ©BrainPad Inc. ブレインパッドのコンテンツ紹介! ブレインパッド公式技術メディア 生成AI・LLMやデータサイエンスプロジェクトについて発信しています! X/twitter@doors_brainpad 会社の神資料を公開するプロジェクト 統計学の資料がITmediaとNIKKEIリスキリングに取り上げられました! X/twitter@Open_BrainPad 会社のみんなでやっているpodcast 高校の放送部的なノリでデータサイエンスについて語っています! X/twitter @shirokane_fm

Slide 7

Slide 7 text

7 ©BrainPad Inc. 今日話すこと ※ DS:データサイエンティスト 1 データの重要性 2 DSと密接に関わる「データマネジメント」について 3 1人のDSとしての「データマネジメント」との向き合い方

Slide 8

Slide 8 text

8 ©BrainPad Inc. 悪気はないよ「データならあります」 データならありますよ! ぜひ分析をお願いします! やったるで!!

Slide 9

Slide 9 text

9 ©BrainPad Inc. ビッグデータ!!!

Slide 10

Slide 10 text

10 ©BrainPad Inc. コンプライアンス遵守 【多様性の時代に配慮】 カラム数と定義が異なるcsv 【信仰の自由】 ネ申エクセル! 【真心こめてつくりました】 手書きのpdf

Slide 11

Slide 11 text

11 ©BrainPad Inc. 「あとはAIで分析してもらうだけだ~!」 データをたくさんお渡ししました! これでバッチリですね!

Slide 12

Slide 12 text

12 ©BrainPad Inc. 泣きたくなるね トホホ~…(泣)

Slide 13

Slide 13 text

13 ©BrainPad Inc. データマネジメント最高!!! こういった悲劇を 防ぐ取り組みが、 データマネジメント

Slide 14

Slide 14 text

14 ©BrainPad Inc. 今回はデータサイエンティストに密接しているトピックを取り上げる ※ 「データマネジメント」は広い取り組みの総称 引用:一般社団法人 データマネジメント協会 日本支部(DAMA Japan)

Slide 15

Slide 15 text

15 ©BrainPad Inc. そもそも…なぜデータが重要か

Slide 16

Slide 16 text

16 ©BrainPad Inc. プロジェクトの質 問いの質 解の質 データの質 プロジェクトの質 「良い問い」を立てて、 「高度な分析・機械学習のスキル」を持っていても、 「データの質」次第でプロジェクトの質が大きく左右される ※ 図らずも「データマネジメント研修【MIXI 23新卒技術研修】」と同じ主張でした

Slide 17

Slide 17 text

17 ©BrainPad Inc. 「データの質」が低いと… 分析からビジネス課題を正しく特定できない データの整備・理解に時間を使い、 本質的な分析に使う時間が充分にとれない PoCで検証したことを再現できない データ形式が変わるなどして運用が止まってしまう データの定義が不正確であったり変わるなどして 効果を正しく測れない 要件定義 PoC 試験運用 本番運用・保守

Slide 18

Slide 18 text

18 ©BrainPad Inc. データマネジメントとは

Slide 19

Slide 19 text

19 ©BrainPad Inc. データとインフォメーションという資産の価値を提供し、 管理し、守り、高めるために、 それらのライフサイクルを通して計画、方針、スケジュール、 手順などを開発、実施、監督することである。 データマネジメントとは 引用:データマネジメント知識体系ガイド、DAMA-DMBOK2

Slide 20

Slide 20 text

20 ©BrainPad Inc. アサノなりの解釈 データマネジメントは… 「データをビジネス価値に転換する」ための取り組み • その取り組みは単にデータを貯める、データを整備するだけにとどまらない • セキュリティを保つこと、個人情報保護を含めて法令遵守すること、 データ活用しやすい組織設計にすることなども含む • データを活用する/される人たち全員が、 安心で便利にデータを使うための取り組みとも言える

Slide 21

Slide 21 text

21 ©BrainPad Inc. データマネジメントという土台の上に、データ分析が存在する データマネジメントの位置づけ 引用:Aikenのピラミッドを和訳 データガバナンス データ分析 ビッグデータ 活用 DWH & BI マスタ データ 管理 ドキュメ ント・コ ンテンツ 管理 データ統合と相互運用性 データストレージと 運用 データ モデリングとデザイン データ セキュリティ データ アーキテクチャ メタデータ 管理 データ 品質管理 データマネジメント データ分析

Slide 22

Slide 22 text

22 ©BrainPad Inc. データマネジメント推進のために DSがおさえておくポイント

Slide 23

Slide 23 text

23 ©BrainPad Inc. データマネジメント推進のためにDSがおさえたいポイント ① 三層構造を取り入れる ② データについての知見を蓄積する

Slide 24

Slide 24 text

24 ©BrainPad Inc. データマネジメント推進のためにDSがおさえたいポイント ① 三層構造を取り入れる ② データについての知見を蓄積する

Slide 25

Slide 25 text

25 ©BrainPad Inc. データ基盤の代表的な構成 三層構造 ※ データ基盤:継続的にデータを収集して蓄積しておくシステム 用語解説 データレイク データウェアハウス データマート ビジネス活用 サービスへ接続 ダッシュボード 意思決定に利用 ・・・ ・・・ データ基盤 三層構造 データソース

Slide 26

Slide 26 text

26 ©BrainPad Inc. オリジナルのデータのこと、もしくはそのデータの発生源 データソース 用語解説 多くの場合、データは様々なプラットフォームや部署に散らばっている データレイク データウェアハウス データマート ビジネス活用 サービスへ接続 ダッシュボード 意思決定に利用 ・・・ ・・・ データ基盤 三層構造 データソース

Slide 27

Slide 27 text

27 ©BrainPad Inc. データを「そのままコピー」して1カ所に集める層 データレイク データレイク データウェアハウス データマート ビジネス活用 サービスへ接続 ダッシュボード 意思決定に利用 ・・・ ・・・ データ基盤 三層構造 データソース 用語解説 1カ所にデータを集めると… • データ格納先の確認など、集計以前のコストが下がる • 組織横断的な分析が可能になる ※ 分析テーマによって適切な加工方法は異なるため「そのままコピー」することが重要

Slide 28

Slide 28 text

28 ©BrainPad Inc. 「共通化されたデータ」を置く層 データウェアハウス 用語解説 ※ なお、データ基盤の用語は本資料の用語が絶対ではない。組織によって定義が異なるため、読み替えが必要 データレイク データウェアハウス データマート ビジネス活用 サービスへ接続 ダッシュボード 意思決定に利用 ・・・ ・・・ データ基盤 三層構造 データソース 共通化すると… • 各所で行う後続の処理を省くことができる • 誰でも同じ定義の指標を参照できる(例:売上)

Slide 29

Slide 29 text

29 ©BrainPad Inc. 加工処理した「特定の目的のデータ」を置く層 データマート 用語解説 データレイク データウェアハウス データマート ビジネス活用 サービスへ接続 ダッシュボード 意思決定に利用 ・・・ ・・・ データ基盤 三層構造 データソース 加工処理を済ませて、特定の目的に絞っておくことで… • すぐに集計結果を確認できる、あるいはシステムの応答時間が早くなる • ほかの用途への影響を気にせず、自由に更新できる

Slide 30

Slide 30 text

30 ©BrainPad Inc. 参考:データ基盤の事例 dbt-coreで実現するCore DataMartsのデータモデリング~dbt編~ / Core DataMarts Modeling with dbt-core ZOZO セブンイレブン DeNA バンダイナムコネクサス Pocochaにおけるデータマネジメント バンダイナムコネクサスで構築しているデータ基盤の紹介 セブン‐イレブン、2万1000店舗のPOSデータをリアルタイムで収集分析する データ基盤「セブンセントラル」を構築

Slide 31

Slide 31 text

31 ©BrainPad Inc. 三層だけでは足りない? データの理解や分析が進んでくると、共通化すべきテーブルが作られ、 徐々に中間層が厚くなる アサノさんが作ったテーブルは もはやデータウェアハウスです! わーい! ※ 「層の数」にとらわれず、入口→中間処理→出口という「三層構造を基本としたイメージ」を抑えていることが大事 データレイク データウェアハウス データマート

Slide 32

Slide 32 text

32 ©BrainPad Inc. 三層構造実現のための心得 最初から完璧を目指さない まずは入口と出口を作る 中間のデータウェアハウス層は徐々に分厚くすればOK 「ドライブのディレクトリを分けて、元データのコピーをとる」からのスモールスタートでもOK データレイク データウェアハウス データマート ビジネス活用 サービスへ接続 ダッシュボード 意思決定に利用 ・・・ ・・・ データ基盤 三層構造 データソース まずはココ!

Slide 33

Slide 33 text

33 ©BrainPad Inc. データマネジメント推進のためにDSがおさえたいポイント ① 三層構造を取り入れる ② データについての知見を蓄積する

Slide 34

Slide 34 text

34 ©BrainPad Inc. 「分析で得たデータに関する知見」をメタデータとして整理する 蓄積する活動 このテーブルは分析に有用そうだ! まずドキュメントとして残しておこう。

Slide 35

Slide 35 text

35 ©BrainPad Inc. データを説明するためのデータ データ定義書(各カラムの名称、型)、データの活用先、アクセス権限、抽出結果の履歴など メタデータ 一般的にメタデータは次の3つに分類される(ビジネスメタデータ、テクニカルメタデータ、オペレーショナルメタデータ) メタデータ データレイク データマート ビジネス活用 サービスへ接続 ダッシュボード 意思決定に利用 ・・・ ・・・ データ基盤 (三層構造) データソース データウェアハウス 用語解説

Slide 36

Slide 36 text

36 ©BrainPad Inc. メタデータがないと… ・データの意味がわからず、分析に活用することができない ・データの理解や問い合わせに時間を浪費してしまう メタデータの重要性:データサイエンティストの目線 参考:【Quollio】メタデータ・マネジメント入門 - Speaker Deck order_datetime sales_price item_id unit category 2025-03-30 08:14:16 1,200 AAA 2 1 2025-03-30 09:24:43 2,000 BBB 3 2 2025-03-30 11:09:24 3,000 CCC 1 3 2025-03-30 11:14:16 1,200 DDD 4 4 テーブル名:order_log

Slide 37

Slide 37 text

37 ©BrainPad Inc. order_datetime sales_price item_id unit category 2025-03-30 08:14:16 1,200 AAA 2 1 2025-03-30 09:24:43 2,000 BBB 3 2 2025-03-30 11:09:24 3,000 CCC 1 3 2025-03-30 11:14:16 1,200 DDD 4 4 メタデータの重要性:データサイエンティストの目線 何のorderログ? timezoneはJST?UTC? 売上は税抜き?税込み? そもそも日本円だよね? unitは 個数単位?箱単位? 複数のサイズがある場合は item_idは分かれる? ログが発生するタイミング は注文時でいいよね? キャンセルや返品は どう扱っているのか? テーブル名:order_log 主キーや結合キーはどれ? カテゴリ値の それぞれの意味は? メタデータがないと… ・データの意味がわからず、分析に活用することができない ・データの理解や問い合わせに時間を浪費してしまう

Slide 38

Slide 38 text

38 ©BrainPad Inc. データマート作成のコードで管理する(下記はBigQueryの例) 今日からできるメタデータの整備の例 引用:BigQueryでデータマートを作成するときのtips #SQL – Qiita 昨今はdbt-osmosisのようにカラムの説明を伝播させるものもある

Slide 39

Slide 39 text

39 ©BrainPad Inc. メタデータは、データ基盤でトラブルが発生した際にも役立つ メタデータの重要性:データエンジニアの目線 障害発生 データエンジニア どのログから対応すべきか? 誰に連絡すべきか?

Slide 40

Slide 40 text

40 ©BrainPad Inc. メタデータの重要性:データエンジニアの目線 障害発生 データエンジニア このログはAさんが日次で需要 予測に使っているので明日まで に直さないと! このログはBさんが2週間に1回 の定型分析に使っているだけな ので緊急度は低いな

Slide 41

Slide 41 text

41 ©BrainPad Inc. メタデータの重要性:データエンジニアの目線 このログはAさんが日次で需要 予測に使っているので明日まで に直さないと! このログはBさんが2週間に1回 の定型分析に使っているだけな ので緊急度は低いな 障害発生 データエンジニア 今このデータで障害が発生していますが 明日の11時ごろまでの復旧する見込みです 今このデータで障害が発生しています。 ほかに緊急度が高いデータがあるので、 来週の復旧でも大丈夫ですか…? Aさん Bさん 明日16時ごろまでにあれば大丈夫です! 復旧次第連絡もらえると助かります! 来週の木曜日までにあれば大丈夫です! もし遅れそうなら前日に連絡をください! メタデータにより、素早く正しい優先順位で対応できる ※ 組織設計が進んでいると、個別で対応せずプロダクトごとの連絡窓で通知・連絡することもあります

Slide 42

Slide 42 text

42 ©BrainPad Inc. 「分析で得たデータに関する知見」を、上流にフィードバックする 蓄積する活動 データエンジニア データ生成元 特定の条件でデータの欠損が起きていました。 今回の分析上は軽微ですが、今後のために 修正しておくとよさそうです。

Slide 43

Slide 43 text

43 ©BrainPad Inc. 上流の問題を下流で対処しても、労力がかかるうえに問題の原因は解消されない フィードバックの重要性 ※ 実際のプロジェクトでは上流へのコミュニケーションパスが確立されていないケースも多々ある。PoCが終わった段階などの データの価値を感じてもらったタイミングで、モデル運用を通して継続的なフィードバックのきっかけを作れるのが望ましい データサイエンティスト 下流 上流 原因を解消するために、下流から上流へフィードバックすることが重要 データレイク データウェアハウス データマート ビジネス活用 サービスへ接続 ダッシュボード 意思決定に利用 ・・・ ・・・ データ基盤 (三層構造) データソース

Slide 44

Slide 44 text

44 ©BrainPad Inc. 現実はつらい

Slide 45

Slide 45 text

45 ©BrainPad Inc. 木こりのジレンマ データを整備すると もっと早く分析できますよ 分析が忙しくて そんな暇はないんだよ

Slide 46

Slide 46 text

46 ©BrainPad Inc. データマネジメントは手段、その先にある分析による価値創出が推進のカギ 「分析による価値創出」が先にある 本番運用:分析による価値創出 要件定義 手段:データマネジメント PoC 試験運用

Slide 47

Slide 47 text

47 ©BrainPad Inc. データの価値を実感しやすいタイミングは、具体の成果物を使える「試験運用」 価値の実感 本番運用:分析による価値創出 要件定義 PoC 試験運用 予測モデルを使ってみたよ! いい感じだね! ほかの分析も任せていいかい? データを整えると、本番運用もほかの分析も 捗りますよ! じゃあ、今後のためにも整えよう!

Slide 48

Slide 48 text

48 ©BrainPad Inc. 一度は耐え忍ぶ必要がある データマネジメントの価値をわかってもらうためにも… 本番運用:分析による価値創出 要件定義 PoC 試験運用

Slide 49

Slide 49 text

49 ©BrainPad Inc. データマネジメントとの向き合い方 引用:https://x.com/nash_efp/status/1851980535373209927

Slide 50

Slide 50 text

50 ©BrainPad Inc. DSこそデータマネジメントを推進しよう!

Slide 51

Slide 51 text

51 ©BrainPad Inc. DSこそデータマネジメントを推進しよう! 大前提として…データマネジメントは ・全員で取り組む ・終わりのない活動 ・ケイパビリティ:データに一番詳しい DSの立場 ・インセンティブ:一番最初に恩恵を受ける

Slide 52

Slide 52 text

52 ©BrainPad Inc. 話しきれないこと

Slide 53

Slide 53 text

53 ©BrainPad Inc. 今回はデータサイエンティスト目線に絞った内容 引用:一般社団法人 データマネジメント協会 日本支部(DAMA Japan) ※ 「データマネジメント」は広い取り組みの総称(大事なことなので2回目)

Slide 54

Slide 54 text

54 ©BrainPad Inc. 実践的データ基盤への処方箋~ ビジネス価値創出のためのデータ・システム・ヒトのノウハウ 実践的なノウハウが詰まっている もっと勉強したい方へのオススメ 引用:実践的データ基盤への処方箋 ブレインパッド社内で実施した輪読会メモ

Slide 55

Slide 55 text

55 ©BrainPad Inc. まとめ

Slide 56

Slide 56 text

56 ©BrainPad Inc. まとめ データマネジメントは全員で取り組む永続的活動、そしてDSは… • データに一番詳しい=ケイパビリティがある • データが綺麗になって一番最初に恩恵を受ける=インセンティブがわかりやすい • 「データをビジネス価値に転換する」ための取り組み • プロジェクトの質に影響を与える「データの質」を上げるための取り組みでもある • 三層構造を取り入れる • データについての知見を蓄積する DSがおさえたいポイント DSこそ推進しよう! データマネジメントとは

Slide 57

Slide 57 text

最後に 大事なことを言います (私にとって)

Slide 58

Slide 58 text

We are Hiring!! 気になった方は@nash_efpへお気軽にDMをください! まずはお話したりご飯に行ったりしましょう~! で働く仲間を募集しています!

Slide 59

Slide 59 text

59 ©BrainPad Inc. Appendix

Slide 60

Slide 60 text

60 ©BrainPad Inc. 最初にDMBOKを読むと挫折する可能性が高いため、まずはほかの入門書から 読むことを推奨 ちなみに… 実践的データ基盤への処方箋 データマネジメントが30分でわかる本 DXを成功に導くデータマネジメント 改訂新版[エンジニアのための]データ分析基盤入門<基本編> データマネジメント知識体系ガイド、DAMA-DMBOK2

Slide 61

Slide 61 text

61 ©BrainPad Inc. おすすめ資料 商品データの裏側を覗く:意外に知らない商品IDの世界 10X Product Blog 【Quollio】メタデータ・マネジメント入門 分析組織でデータエンジニア組織を立ち上げた話 (バンダイナムコネクサス) データマネジメント研修【MIXI 23新卒技術研修】

Slide 62

Slide 62 text

62 ©BrainPad Inc. SSOT・ドキュメント文化などリモート組織が 機能するための方法を学べる (間接的に役立つ)オススメ書籍 他者と働くうえでの大事な考え方を学べる ※ データマネジメントは非技術者を含め 様々な立場の方との協業が不可欠 GitLabに学ぶ 世界最先端のリモート組織のつくりかた 他者と働く──「わかりあえなさ」から始める組織論

Slide 63

Slide 63 text

63 ©BrainPad Inc. 宣伝 兼 おすすめpodcastエピソード [75.バンダイナムコネクサスのデータマネジメントについて (外部ゲスト回:BNXデータマネージャー井村さん) | 白金鉱業.FM]