Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日経が挑戦するデータ民主化 ~ セルフサービス基盤がもたらす利点と苦悩~/nikkei-tec...

日経が挑戦するデータ民主化 ~ セルフサービス基盤がもたらす利点と苦悩~/nikkei-tech-talk-37

2025/9/25開催 NIKKEI Tech Talk #37 ( #nikkei_tech_talk )にて日本経済新聞社のエンジニア 東海林 岳寛さんが発表しました。発表タイトルは「日経が挑戦するデータ民主化 ~セルフサービス基盤がもたらす利点と苦悩~」です
nikkei-tech-talk-37

More Decks by 日本経済新聞社 エンジニア採用事務局

Other Decks in Technology

Transcript

  1. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. 2 自己紹介

    しょうじ  たけひろ 東海林 岳寛 株式会社日本経済新聞社 データテクノロジスト プラットフォーム推進室 データインテリジェンスグループ (DIG)Atlas チーム - 2024年 入社 - データエンジニアリング(ETL基盤開発) - 大学時代 - 統計の勉強 - 最近の趣味 - 体を動かすこと(ランニング、バトミントン)
  2. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. 3 01

    日経のデータ基盤 02 データ民主化とは 03 データ民主化の取り組み 04 おわりに
  3. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. 4 01

    日経のデータ基盤 02 データ民主化とは 03 データ民主化の取り組み 04 おわりに
  4. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. - 様々なデータを収集、拡張、蓄積し、分析可視化および施策実行するための基盤

    - 日経電子版をはじめとした各種サービス上のお客様の行動ログデータを中心に扱う 日経のデータ基盤 Atlas 5 データ連携 各種日経サービス 日経内部システム (会員、課金契約等) 外部システム (SaaS 等) 収集 会員属性/契約 コンテンツ 行動ログ サービス固有 日経IDを軸とした 顧客関連データ 蓄積 提供 Atlas データ計測 データ拡張 Atlas外 データ提供 広告配信 分析 レコメンド
  5. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. 日経のデータ基盤 Atlas

    6 - Atlas の現在の取り組みやアーキテクチャの詳細は去年のアドベントカレンダーへ
  6. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. 7 01

    日経のデータ基盤 02 データ民主化とは 03 データ民主化の取り組み 04 おわりに
  7. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. データの民主化とは〜目指すべき姿〜 8

    よくない姿 民主化の姿(第一段階) 目指すべきの民主化の姿 事業部A 事業部C 事業部D 事業部B 私たち の部門 事業部A 事業部C 事業部D 事業部B 事業部A 事業部C 事業部D 事業部B ・データが各所でバラバラ ・管理が属人化 ・データを私たちの部門が  まとめて管理 ・伴走してデータ連携 ・データや権限の管理を移譲 ・セルフサービス化で各事業部が 自走してデータ活用 CoE 専任 専任 専任 専任 伝導 伝導 目指すべきの民主化の姿
  8. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. - 日経の事業に関わる全ての事業部、職種を対象とし全社的にデータドリブンな組織に

    - 電子版のみならず、人材文化事業やグローバル事業などまで対象 データ民主化の対象とは? 9 記者 広告担当 自分の記事が どれくらい 読まれた? 広告の インプレッション は? エンジニア 新機能のA/B テストの結果は? マーケター 今回の施策の KPI達成度は?
  9. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. - 人とデータの両面が歩み寄ることで真のデータ民主化が達成される

    ふたつの方向からの民主化アプローチ 10 人々がデータに歩み寄る(ソフト) データが人々に歩み寄る(ハード) リテラシー 向上 データ サイエンス 活用 スケーラブル な基盤 データ ドリブン化 真の民主化 使いやすい BI 基盤 セルフ サービス化 セルフ サービス化
  10. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. 11 01

    日経のデータ基盤 02 データ民主化とは 03 セルフサービス化 04 おわりに
  11. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. - 今回はメインのDWH

    であるBigQuery 周辺の紹介 何をセルフサービス化しているのか 12 各種日経サービス 日経内部システム (会員、課金契約等) 外部システム (SaaS 等) BigQuery Cloud Dataflow バッチ基盤 リアルタイム基盤 Cloud Run Dataform リアルタイム基盤とバッチ基盤の前段にCloudStorage やPub/Sub があるが省略 データ分析 可視化基盤 Atlas データ利活用 データソース データの取り込みもセルフサービス 共通のエンドポイントにデータを送る Schedule Query
  12. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. - 今回はメインのDWH

    であるBigQuery 周辺の紹介 何をセルフサービス化しているのか 13 各種日経サービス 日経内部システム (会員、課金契約等) 外部システム (SaaS 等) BigQuery Cloud Dataflow バッチ基盤 リアルタイム基盤 Cloud Run Dataform リアルタイム基盤とバッチ基盤の前段にCloudStorage やPub/Sub があるが省略 データ分析 可視化基盤 Atlas データ利活用 データソース Schedule Query データの取り込みもセルフサービス 共通のエンドポイントにデータを送る
  13. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. - データの民主化を実現するために、「利用者自身が拡張可能なデータ基盤」

    - 利用者が基盤を改善拡張できることで、必要機能を自ら構築可能となり、データ民主化を促進 セルフサービスの仕組み(データ連携) 14 PR 作成 Review Merge Apply User の役 割 エンジニアの役割 BigQuery Table/ View/ MView Dataset Schedule Query Dataform SQLX IAM IAM Bindings Air ow DAG
  14. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. - 利用者が拡張したデータを利用者自身で、集計視覚化可能に

    - 複数のニーズに対応するべく3つのBIツールを提供 セルフサービスの仕組み(データ可視化) 15
  15. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. BIツールの比較 16

    アカウント数 1500 70 600 社内的特徴 即席分析のから 使える保存まで GUIでリアルタイムログを 可視化 学習コスト SQLほぼ必須 必須に応じて クエリもかける SQL 不要な ノーコード機能充実 見せるためのデータ 残すためのダッシュボード ・単発の分析やクエリ ・長期保存ダッシュボード ・行動ログの可視化 単純な可視化 試行錯誤の余地小 可視化の 表現力 ログ特化の 可視化 リッチな表現
  16. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. 数字でみるセルフサービス基盤 17

    ああああああ 約 800 TB 蓄積データ量 約 4,000 テーブル数 約 1,500 BIツールの アカウント発行数 約 30,000 1日に発行される クエリ数 約 3,000 1日で実行される DAG数
  17. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. セルフサービス化促進のための工夫 18

    一元管理された ドキュメント CI/CD の活用 充実した テンプレート ・GitHub Actions を活用 ・Test, Lint, Deploy自動化 ・Airflow はマージ前に  ユーザー自身で検証環境へ  デプロイ可能 ・セルフドキュメント基盤 ・Terraform のスキーマ情報  からドキュメント自動生成  (詳細はTech Talk #2 へ) ・データソースや書き込み先 に 応じた50超のテンプレ ・手順書もユーザ主導で進化 データ利活用の障壁を下げ、データの民主化、事業部での自走を促進
  18. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. セルフサービス基盤の利点と見えてきた副作用 19

    持続性 俊敏性 自立性 利用者が独自に改善し、 その成果が全体に波及 チケット待ちなしで 素早く開発・実験 利用者が増えても 運用負担は直線的に増えない 基盤の強化に集中 できる! エンジニアに頼まず 自分で目的達成できた 他事業部が使っている 新機能試してみる! エンジニアにとっての副作用 テーブルやジョブの中身の 詳細の把握が困難に スキャン量の多いクエリや Terraform State の肥大化 で定期棚卸しの重要性増加 利用者にとっての副作用 エンジニアにとっての副作用 各チームが独自に機能検証、独 自のルールで実装 命名規則、放置クエリ、責任者 不明などガバナンスに課題 SQL やPython などの初期の 学習コスト、セルフメンテナンス の必要 エンジニアへの依存は解決した ものの、事業部内でデータ利活 用が属人化することも
  19. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. • ドメイン知識がない場合も

    ◦ ドメイン知識がなく、既存ジョブとの関係がわからずレビューが大変、使われているのかの判断がで きず、棚卸しするにできない • 気付いたら tmp/hoge/test が氾濫 ◦ ユーザクエリを資産として活用したいが、一時用のはずが大量に残って、どれが資産なのか判断で きない… • AI の浸透でコード品質が ◦ コード生成AI の台頭で、生成AI によるコードも増加。からなずしもチームのコーディングルールに そっていないものも データエンジニアの人生はバラ色ではない 20
  20. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. セルフサービス基盤の未来 21

    苦悩01 ドメイン知識 がない.... 苦悩02 AI の浸透で 品質が.... 苦悩03 協力が 得られない.... 苦悩04 tmp/hoge/tes t が氾濫... ルールや運用方法で 解決していく! データ管理者 を各事業部に コーディング ルール作成 システム的な ガード作成 AIによる レビュー 人はロジックレビュー ルールベース自動棚卸 リポジトリで統一のコー ディングルール 一部レビューを移譲
  21. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. 22 01

    日経のデータ基盤 02 データ民主化とは 03 セルフサービス化 04 おわりに
  22. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. 今日のまとめ 23

    1. エンジニアに閉じないセルフサービス基盤 - 編集や広告、マーケなど様々な事業部のデータをセルフサービスのデータ基盤で運用 - 各事業部が自走して、データ活用をすることで組織横断でデータ活用 2. データ民主化を促進する仕組み作り - 専門知識がなくても使えるように、ニーズに応じたサービスを用意 - テンプレートやCI/CD の活用 3. データ民主化の次ステージ - セルフサービス基盤よって「持続性、俊敏性、自立性」などの利点 - 利用者の増加にこれまで見えてこなかった苦悩も発生 - 新しい仕組みや運用ルールで改善を模索
  23. Copyright ⓒ 2025 Nikkei Inc. All rights reserved. 開発環境 一緒にデータ基盤の改良・運用、データ利活用を推進する仲間を募集しています!

    - コーディングが得意な方も、インフラ管理が得意な方も、プロマネが得意な方もぜひ! おわりに 24 日経データエンジニアの技術スタック 言語 Database 分析ツール Infrastructure Python Go Node.js TypeScript Rust Java Google Cloud AWS Fastly Compute Redash Superset Kibana Jupyterhub GitHub GitHub Actions Notion Qiita Team BigQuery Elasticsearch SingleStore Redshift MySQL Postgres HCP Terraform