$30 off During Our Annual Pro Sale. View Details »

[仮置き]NTTドコモにおけるデータ活用基盤の現在と未来

Avatar for Matsubara Matsubara
November 06, 2025

 [仮置き]NTTドコモにおけるデータ活用基盤の現在と未来

This material was used at the "Data Engineering Summit 2025."
https://data-engineering-summit.findy-tools.io/2025
※ I will be using this for temporary sharing until the archive is publicly released on the official event website.

I presented on the architecture of a data distribution platform using technologies such as Snowflake, focusing on the Data Mesh approach.

Avatar for Matsubara

Matsubara

November 06, 2025
Tweet

More Decks by Matsubara

Other Decks in Technology

Transcript

  1. 松原 侑哉 2 Matsubara Yuya 株式会社NTTドコモ R&Dイノベーション本部 サービスイノベーション部ビッグデータ基盤 兼 ネットワーク本部

    ネットワーク部技術企画部⾨ Principal Data Engineer • 秘匿性の⾼いデータの取り扱いを中⼼に、現在は主にネットワーク 事業領域におけるデータやAIの活⽤を推進 • 現在はSnowflake/Databricks等々を中⼼に活⽤中(PoC中は除く • 幾つかの技術コミュニティ運営にも参画 ⾃⼰紹介
  2. 3 通信事業 B2C/ B2B ⾦融/産業/ヘルスケア/モビリティ等 スマートライフ事業 91M+ 携帯電話契約者数 106M+ dポイントクラブ会員数

    法⼈事業 DX / マーケティング / IoT 等 5G必須特許保有シェア︓世界第3位 全世界通信事業者中︓⾸位 Distribution of Estimated Authentic 5G-SEPs Holdings Source: Cyber Creative Institute Co., Ltd. As of June. 2024 会社紹介
  3. 社内データ分析基盤 4 通信 事業領域 スマートライフ・法⼈ 事業領域 Realtime Data Sharing 「通信事業領域」と「スマートライフ・法人事業領域」

    それぞれに大規模なデータ基盤が存在 必要なデータを必要な鮮度・量で互いに連携・流通 数⼗PB 数⼗PB BIGDATA
  4. On-premise データ基盤の軌跡 5 • 数十PBのデータを保有 • 毎日数百TBのデータが流入 Public Cloud Public

    Cloud Public Cloud Netezza Greenplum Amazon Web Service Redshift AWS Redshift Google Cloud BigQuery + 通信事業領域 2014 2020 2024
  5. 6 AI-Readyな世界 過去から⾔われていたことを実現できていれば 多くの要件は満たせているはず データ基盤が整えられている ガバナンスとルールが整えられている AIの活⽤・データドリブンな組織が根付いている etc. データの⺠主化 カタログの整備

    データサイフサイクル ⾼いスケーラビリティ リアルタイムなデータ処理 ⾼いデータ品質 データの信頼性・正確性・多様性・網羅性・整合性・⼀貫性・標準化 セキュリティとコンプライアンス 役割と責任の明確化
  6. 7 Data Mesh Data Owner / Data Product 基盤構成の選択 Open

    Table Format:OTF 構造/半構造化データ Access URL ⾮構造/半構造化データ
  7. 10 顧客情報 ネットワーク 位置情報 分析・予測結果 ガバナンス・カタログ 集中から分散へ データの 品質担保 「Data

    Product」 データに対する 責任の明確化 「Data Owner」 Data Mesh • データのビジネスメタデータを整備する • データの品質(鮮度・完全性)を保証する • データを最適な形に整形する • データへのアクセス権限の管理を⾏う • データの利⽤⽅法の監督を⾏う • データの問い合わせ先体制を整備する これまでの中央集権体制から 分散かつSelf-Serviceの体制へ移⾏
  8. 13 データの⾮効率な連携 AIの熱狂も⽀えに各システム内に ⼤規模なData Lake(Warehouse)が誕⽣・成⻑ データ連携はどのような実現するか︖ 課題 データのUnload/Loadによるデータ連携 データ鮮度低下 データの重複保持/ガバナンス低下

    データ処理費⽤増加 SSOTの混乱・Linageの混線 Federated Query/query federationによる連携 構造化/半構造化データ ⾮構造化/半構造化データ Copyによるデータ連携 データ処理費⽤の増加 異なるデータソース間の巨⼤データ処理の限界 データ鮮度低下 データの重複保持/ガバナンス低下 Video, Image, AI/ML Model, Dashboard etc. Table, Semantic Data etc.
  9. 15 Data A Search Data B Data C Data D

    Data E Data F XXX データアクセス権と管理 データオーナ情報 ビジネスメタデータ データ品質情報 分析⼿法 窓⼝・連絡先 etc. データ利⽤申請 Catalog Data Product Data Ownerの承認により アクセス権を取得 Snowflake Internal Marketplaceを活⽤
  10. 17 データ処理からよりCoE活動中⼼へ変化 - データのビジネスメタデータの整備 - データのコンプライアンス/法令遵守 - データの命名規則 / 書式の規定

    - データの統合Key/代替Keyの規定 - データについての問い合わせ窓⼝の整備 - データの利⽤率・⼈気度 etc. Center of Excellence モニタリング 監査・統制 規定・規則の策定 無政府状態による混乱と Data Productの品質低下を防ぐ & データ活⽤に関する ⼈・組織への評価材料とする 育成
  11. 19 相互影響 / 依存関係 のデータ化 現実世界の機器を AIが⾃⼰判断し制御 クラウド Ontology&Topologyデータの整備 データの時系列を含めた依存関係のデータ化.

    Digital Twin を実現できる状態へ AI「が」利⽤するデータ基盤へ AIが独⾃で判断し、独⾃でデータを検索し、 ⼗分なデータを取得し、⽬的に沿った実⾏ができる世界へ
  12. 20 ⽣産性の向上が⽬的 データを整備することが⽬的ではない ⽣産性の向上が⽬的である=AIの活⽤・⾃動化 まずはデータを 集めてから まずはデータをきれい にすることから データを⼗全に 集め切ってから

    データを 構造化してから …. できてからAIの利⽤を始めよう Data × AIを利⽤した意思決定のPipeline構築を始めよう ・始めから完璧なデータなど⽤意できない ・AIの活⽤によってデータの最適な形は変化する ・AIの活⽤によって⽣まれたデータにも価値がある → Agileに開発と更新を進めよう 「あなたが意思決定をする⽇はいつですか?」