Upgrade to Pro — share decks privately, control downloads, hide ads and more …

綺麗なデータマートをつくろう_データ整備を前向きに考える会 / Let's create cl...

Avatar for BrainPad BrainPad
October 08, 2025

綺麗なデータマートをつくろう_データ整備を前向きに考える会 / Let's create clean data mart

2025年10月8日に実施した、データ整備を前向きに考える会での株式会社 ブレインパッド浅野の登壇スライドです。

イベントURL
https://analytics-and-intelligence.connpass.com/event/367047/

浅野 X/Twitterアカウント
https://x.com/nash_efp

Avatar for BrainPad

BrainPad

October 08, 2025
Tweet

More Decks by BrainPad

Other Decks in Technology

Transcript

  1. 5 ©BrainPad Inc. Strictly Confidential 著書:先輩データサイエンティストからの指南書(2025, 技術評論社) 目次 1章:実務で生き抜くためのエンジニアリングスキル 2章:環境構築

    3章:コードの品質管理 4章:データの品質確認 5章:機械学習モデルの実験管理 6章:プロトタイプ開発 実践的なエンジニアリングスキルを まとめた書籍です!
  2. 6 ©BrainPad Inc. Strictly Confidential 変革を目指す企業と共に最前線を走り続ける、データ活用推進パートナーのパイオニア 2004年創業、日本初の “対象業界を問わない総合データ分析サービス企業 ” として事業展開

     社名 |株式会社 ブレインパッド  所在地 |東京都港区六本木 3-1-1 六本木ティーキューブ 11F・12F  設立 |2004年3月18日  株式市場 |東京証券取引所 プライム市場 (証券コード: 3655)  従業員 |545名(連結、 2024年6月30日現在)  代表者 |代表取締役社長 CEO 関口 朋宏  グループ |株式会社 TimeTechnologies  株式会社 電通クロスブレイン ブレインパッドについて
  3. ©BrainPad Inc. Strictly Confidential 7 データ活用の促進 を通じて持続可能な未来 をつくる PURPOSE 息を吸うように

    データが活用される社会 をつくる “Data-driven as Usual” VISION 技術と人材のサプライチェーン を再構築し、 国際競争力のある豊かな日本の再生に貢献 する MISSION ブレインパッドについて
  4. 8 ©BrainPad Inc. Strictly Confidential ブレインパッドについて 最適なデータ活用を設計し、経営に実装する データ活用のさまざまなプロフェッショナルが、多様な視点からアナリティクスとエンジニアリングのス キルを駆使して、その企業に最適なデータ活用を実装します。 (データサイエンティスト

    200名以上、ビジネスコンサルタント 50名以上、エンジニア 100名以上在籍) プロダクト・サービス プロフェッショナル・サービス 実用的なSaaSで、データ活用を日常化する 可視化や効率化、データによる意思決定を日々の業務に落とし込むために、誰もが使いこなせる実 用的なプロダクト群で、データ活用の日常化をサポートします。 (2006年自社開発プロダクト「 Rtoaster」をはじめ、データを基点としたプロダクトを多数用意) データに纏わる技術と専門性を駆使した 2種類のサービスを組み合わせ、 企業のデータ活用・ DX・課題解決を支援
  5. 9 ©BrainPad Inc. Strictly Confidential いろいろ発信しています! ブレインパッド公式技術メディア 生成AI・LLMやデータサイエンスプロジェクトについて発信しています! X/twitter@doors_brainpad 会社の神資料を公開するプロジェクト

    公開した資料が ITmediaとNIKKEIリスキリングに取り上げられました! X/twitter@Open_BrainPad 会社のみんなでやっている podcast & Meetup データサイエンスについて語って配信 & コミュティづくりをしています! X/twitter @shirokane_fm
  6. ©BrainPad Inc. Strictly Confidential 12 データサイエンスプロジェクトのいままでとこれから 参考:[先輩データサイエンティストからの指南書 1章 | 技術評論社]

    いままで (というか一昔前) これから (というかここ最近) 技術の目新しさから、まずはPoCをする! 結果的にPoCで止まってしまうこともしばしば... データサイエンスへの過度な期待と幻想はなくなる 運用に載せること、継続的な価値を出すことが前提
  7. ©BrainPad Inc. Strictly Confidential 13 つまり... これからのデータ整備も 「運用に載せること、継続的な価値を出すこと」を前提 として進める必要がある データサイエンスプロジェクトのいままでとこれから

    参考:[先輩データサイエンティストからの指南書 1章 | 技術評論社] いままで (というか一昔前) 技術の目新しさから、まずはPoCをする! 結果的にPoCで止まってしまうこともしばしば... データサイエンスへの過度な期待と幻想はなくなる 運用に載せること、継続的な価値を出すことが前提 これから (というかここ最近)
  8. 14 ©BrainPad Inc. Strictly Confidential データサイエンティストが取り組むデータ整備 データレイク データウェアハウス データマート ビジネス活用

    サービスへ接続 ダッシュボード 意思決定に利用 ・・・ ・・・ データ基盤 (三層構造) データソース データサイエンティスト データエンジニア DSのデータ整備はデータマートの前後を担当することが多い (本発表のメインテーマもここ) 備考:データレイクや上流のほうは、本イベントのほかの発表者(特に ikkiさんとウィルさん)が話してくれる気がする
  9. ©BrainPad Inc. Strictly Confidential 20 • 思ったより書き捨てのコードは少ない ◦ 気軽に作ったデータマートが継続的にアップデートされる ◦

    (よくもわるくも)PoCで使ったコードがそのまま運用に載る ▪ 載せれない場合はリファクタリングやアップデートが必要になり、 運用に載せるまで工数がかかる • 運用に載せたあともアップデートは続く ◦ 忘れたころにもアップデートする必要がある • 未来の自分も、第三者の立場として自分が書いたコードを読む機会がある 実際のプロジェクトでは...
  10. ©BrainPad Inc. Strictly Confidential 23 クエリは小さく分ける ドメインや役割ごとに分ける データマート作成の際のtips SQLでも関数、変数を使う DRY原則に従う

    コードの説明を冒頭に書く コードもドキュメント コード上でメタデータを扱う コード内にスキーマ設定とDescription
  11. ©BrainPad Inc. Strictly Confidential 27 売上ログにjoinするだけ.sqlのイメージ 売上ログ加工.sql 会員マスタ加工.sql 商品マスタ加工.sql 税率マスタ加工.sql

    hoge加工.sql 売上ログにjoinするだけ.sql WHERE句するだけ.sql 追加でカラム生成したり.sql SELECT col1, col2, … FROM 加工した売上ログ LEFT JOIN 加工した会員マスタ ON 結合キー LEFT JOIN …
  12. ©BrainPad Inc. Strictly Confidential 28 WHERE句書くだけ.sqlのイメージ 売上ログ加工.sql 会員マスタ加工.sql 商品マスタ加工.sql 税率マスタ加工.sql

    hoge加工.sql 売上ログにjoinするだけ.sql WHERE句書くだけ.sql 追加でカラム生成したり.sql SELECT col1, col2, … FROM joinしまくった売上ログ WHERE 抽出条件 - - コメントに理由 AND 抽出条件 - - コメントに理由… AND 抽出条件 - - コメントに理由… …(例:返品やキャンセルの除外)
  13. ©BrainPad Inc. Strictly Confidential 30 • ドメインや役割ごとに分ける ◦ 前提として、長いコードは読むのに労力が必要 ◦

    よくあるのは、コードが長く、色々なところでwhere句を書いてしまっているため、 抽出条件の把握や変更に労力が必要... • 「どこで何をしているか」をわかりやすくすることでデバッグも楽になる ◦ アップデートしたい際にどこに手を加えればよいかがわかる ◦ クエリごとにテストを書くことで、気軽にリファクタリングできる クエリは小さく分ける
  14. ©BrainPad Inc. Strictly Confidential 32 • DRY原則に従う(Don’t Repeat Yourself:繰り返さない) ◦

    同じ処理を繰り返したいときは、UDFを使うこと(UDF:ユーザー定義の関数) • 長い処理はUDFは積極的に使う ◦ 長ったらしい処理やCASE文なども関数で表す ◦ 全体の見通しがしやすくなる • 特定の日付や条件で抽出するときなどは変数で宣言 SQLでも関数、変数を使う 引用:発表者アサノのQiita記事 [BigQueryでデータマートを作成するときのtips #SQL - Qiita] https://qiita.com/nash_efp/items/f645e006506a643c7dc1
  15. ©BrainPad Inc. Strictly Confidential 34 • コードを触る人が最初にが読むドキュメントはコード ◦ 何をするコードかはファイル名だけだとすべてを表すことは難しい ◦

    順序関係も必要だったりする ◦ コメントで書いておく ◦ コードに手を加える際にコードは絶対に見るため、「ドキュメントだけ更新さ れない」を防ぐのに役立つ コードの説明を冒頭に書く
  16. ©BrainPad Inc. Strictly Confidential 36 • スキーマ設定をする • Descriptionをコード内に書く •

    詳細はDescriptionに書いてしまうのがよい ◦ 全員が参照できる • スキーマ設定も必ずする ◦ 面倒だがWebUI上で色んな人が参照する コード上でメタデータを扱う 引用:発表者アサノのQiita記事[BigQueryでデータマートを作成するときのtips #SQL - Qiita] https://qiita.com/nash_efp/items/f645e006506a643c7dc1 BigQuery上のメタデータをコード管理する - istyle Tech Blog https://techblog.istyle.co.jp/archives/5935
  17. ©BrainPad Inc. Strictly Confidential 38 • 使い回しができる ◦ 中間テーブルが実質的にDWHやクレンジング層になる ◦

    ※ データマネージャなどと情報連携してガバナンスを効かせたうえで進行 ◦ 「1つのテーマの限定したものにだけ使う」ではなく、 「複数の人、複数のテーマで使う」ことができる • 継続的に使える ◦ コードが綺麗だとメンテナンスがしやすい • 細かく分けることでテストが書きやすい = 品質を保つ仕組みがはたらく ◦ テストを書いていると安心してアップデートができる ◦ コードが綺麗で、テストも通っているので、結果も信頼ができる→重要 データマートが綺麗だと何がよい?
  18. ©BrainPad Inc. Strictly Confidential 40 • 最初に何気なく作ったデータマートが4年経過した今も運用に使われたり、 アドホックな分析に使われている。自分自身も使っている ◦ ※

    運用とアドホックな分析に使うコードやデータマートはそれぞれ独立している • そしてそのデータマートを必要に応じてメンテしている。 • 特に受託分析だと、自分たちが離れてもうまく回る仕組みを常に作っておく必要が ある ◦ ただ、これは受託に限らず、多くの現場でも共通して必要なことだと考えられる 実際自分の体験として...
  19. ©BrainPad Inc. Strictly Confidential 42 • データ整備の恩恵を受けるのは、まずデータサイエンティストや分析官の仕事 をしている人たち、自分のためにやろう! • 結果的にプロジェクト、プロダクト、社会のためになる

    • データサイエンティスト/アナリスト側に、データ整備に寄り添う人がいれ ば、プロジェクトがスムーズに進むはず...! • 今日紹介したtipsが絶対的な正解ではないですが、データ整備しやすいような 工夫は絶対にしたほうがよい!自分のためにも、みんなのためにも!
  20. ©BrainPad Inc. Strictly Confidential 43 • これからのデータサイエンティストプロジェクトとデータ整備 ◦ これから(というかここ最近)のデータサイエンスプロジェクトは 運用に載せること、継続的な価値を出すことが前提になっている

    ◦ データ整備もこの前提に従う必要がある • 実際のプロジェクトでは... ◦ 思ったより書き捨てのコードは少ない ▪ あるいはPoCで書いたコードを書き捨てにする場合は、その分あとから作業コストを払う必要がある ◦ 運用に載せたあともアップデートは続く ◦ 未来の自分も第三者の立場としてコードを読む機会がある • データマートが綺麗なメリット ◦ 使い回しができる ◦ 継続的に使える ◦ コードが綺麗だとメンテナンスがしやすい ◦ 細かく分けることでテストも書きやすい • Tips ◦ クエリは小さく分ける ◦ SQLでも関数、変数を使う ◦ コードの説明を冒頭に書く ◦ コード上でメタデータを扱う サマリ
  21. ©BrainPad Inc. Strictly Confidential 45 引用:[『先輩データサイエンティストからの指南書』浅野らの書評 - StatModeling Memorandum] https://statmodeling.hatenablog.com/entry/brainpad-senpai-book

    先日こんな書評ブログを発見..! > 名著『リーダブルコード』のデータサイエンス版 に近いです 備考:タイトルについてはホントにおっしゃる通りでして、それに近い仮タイトルの時期もありました。 ただ、課題感が具体化できていない層に届けたく、よりキャッチーなタイトルにしました。
  22. 46 ©BrainPad Inc. Strictly Confidential 著書:先輩データサイエンティストからの指南書(2025, 技術評論社) 目次 1章:実務で生き抜くためのエンジニアリングスキル 2章:環境構築

    3章:コードの品質管理 4章:データの品質確認 5章:機械学習モデルの実験管理 6章:プロトタイプ開発 本日、会場でも販売! 今日はだいぶ細かいtipsの話でしたが、書籍にはマクロな 観点でデータ整備に役立つことを書いています!
  23. 49 ©BrainPad Inc. ブレインパッドでは、多様な職種で一緒に働く仲間を募集しています! 気になる求人がある方は、ぜひカジュアル面談をしましょう!(もちろん、直接応募も Welcome!) 一緒に働く仲間を募集しています! ★Pick UP求人★ BIアナリティクスコンサルタント

    データサイエンティスト データプラットフォーム テックリード データ基盤構築や構築後のデータ活用 支援業務をお任せいたします! • システム要件定義、設計・開発・運用・活 用支援までの一連工程 • クラウドをベースとしたアーキテクチャ設 計 • データベース設計・構築 などを実施 広範囲にわたる業界の様々な分野での データ活用プロジェクトにおける設計、分 析、意思決定の支援を実施! • 若手もシニア層も募集 • データサイエンティスト 150名以上が在 籍している環境で、データ活用に取り 組みませんか? 技術・ビジネス両面を見渡す BI領域の エキスパートとして、クライアントの 経営改善をリード • BIを活用したマーケティング戦略立案・ 実行、オペレーション改革を実施 • 課題設定からビジネス活用を一貫して 提供していきたい方を募集!