Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ活用推進のためのデータ基盤チームの取り組み / Data Infrastructure ...

Sansan R&D
November 16, 2023

データ活用推進のためのデータ基盤チームの取り組み / Data Infrastructure Team Initiatives to Promote Data Utilization

■イベント:データマネジメントチームのマネジメントの方が難しかった話
https://timeedev.connpass.com/event/299088/

■登壇概要
タイトル:データ活用推進のためのデータ基盤チームの取り組み
発表者:技術本部 研究開発部 Architectグループ 折島 晋司

◉ 研究開発職 採用情報
https://media.sansan-engineering.com/randd

◉ Sansan Tech Blog
https://buildersbox.corp-sansan.com/

Sansan R&D

November 16, 2023
Tweet

More Decks by Sansan R&D

Other Decks in Technology

Transcript

  1. 写真が⼊ります 折島 晋司(おりしま しんじ) Sansan株式会社 技術本部 研究開発部 Architectグループ SREとしてオンプレ・クラウドでのインフラ構築・運⽤に従事。 前職でデータ分析基盤の設計・構築および運⽤を担ったことから

    データエンジニアに。 2023年7⽉にSansan⼊社。 現在は全社横断データ基盤へのデータ連携やプロダクトチームへのデータ 分析⽀援を⾏っている。 好きなこと ⼦育て・⽇本酒
  2. 会社概要 2 表参道本社 神⼭ラボ Sansan Innovation Lab 社 名 Sansan株式会社

    所在地 表参道本社 東京都渋⾕区神宮前5-52-2 ⻘⼭オーバルビル13F グループ 会社 Sansan Global Pte. Ltd.(シンガポール) Sansan Global Development Center, Inc.(フィリピン) ログミー株式会社 株式会社ダイヤモンド企業情報編集社 クリエイティブサーベイ株式会社 株式会社⾔語理解研究所 従業員数 1,421 名(2023年8⽉31⽇時点) 2007年6⽉11⽇ 設 ⽴ ⽀店:⼤阪、名古屋、福岡 サテライトオフィス:徳島、京都、新潟 拠 点 寺⽥ 親弘 代表者
  3. 全社横断データ基盤のスコープ ⼈脈情報 コンタクト 情報 企業情報 その他情報 契約情報 請求情報 全社横断データ基盤 企業DB

    データ構造化 データ連携 データ連携 名寄せ BIツール In-house solution データプロダクト マネジメント Salesforce *Salesforceは Salesforce, Inc. の商標です。
  4. ⼈脈情報 コンタクト 情報 企業情報 その他情報 契約情報 請求情報 全社横断データ基盤 企業DB データ構造化

    データ連携 データ連携 名寄せ BIツール In-house solution データプロダクト マネジメント Salesforce *Salesforceは Salesforce, Inc. の商標です。 今回お話するのはここの部分
  5. チームについて - 技術本部 研究開発部 Architectグループ Data Direction Team(DDT) - 全社横断データ基盤の開発・運⽤

    - 全社でのデータ利活⽤の推進 - メンバー数:6名 データエンジニア データ意思決定を⽀えるデータインフラ・ データパイプラインの構築 アナリティクスエンジニア 基盤利⽤者、データエンジニアと協⼒し、 データを使った意思決定の促進のための エンジニアリング業務 - 各プロダクトのデータ所有者と連携し、 データ収集パイプラインの設計・構築 - Google Cloud上での分析基盤構築及び運⽤業務 - メタデータ管理システム構築、運⽤ - データガバナンスシステム構築、運⽤ - データエンジニアと協⼒してデータマートや DWHの設計・構築・運⽤ - メタデータ整備 - BIツールの利⽤ルール浸透や権限整備 - データガバナンスの整備
  6. データ基盤 データ基盤上の権限と責務 データソース DB ログ ファイル データ所有者 BigQuery Cloud Composer

    (Apache Airflow) データ レイク DWH データ マート メタデータ データ 収集 エンドユーザー PdM、開発者 Looker データ 活⽤ データ基盤利⽤者 データアナリスト アプリ開発者 データプロダクトマネジャー アナリティクスエンジニア データエンジニア Amazon EKS
  7. 全社横断データ基盤 アーキテクチャ図 Cloud Storage Amazon S3 Amazon Aurora Storage Transfer

    Service Cloud SQL Logging Cloud Composer Project データ基盤 Data lake BigQuery Project データ分析A BigQuery DWH BigQuery Data mart BigQuery Project データ分析B BigQuery Group A Group B データ基盤エンジニア その他 AWSリソース Azure Blob Storage SalesForce Airbyte
  8. フェイズの変化 ⽴ち上げ - セキュリティと利便性の 両⽴のための基盤設計 - 各プロダクトの ⽣データをともかく収集 - 技術選定→Try&Error

    - data producer/consumerと の調整&ヒアリング - 責任分界点の整理、 合意形成 - 連携データの拡⼤ - 技術的負債の返済 - メンバー増員 - 利⽤者を研究員・データ アナリストから全社的に 展開 - 全社で利⽤されるデータ 基盤にするために、各部 署に⼊り込んでデータ活 ⽤⽀援から⽀える体制に シフト - データ利⽤の⺠主化 - semantic layerの拡充 - データメッシュ - プロダクトへの浸透 - reverse ETL - ビジネス貢献 - 「⾒たい数値を ⾒たいときに」 拡⼤ 未来 イマココ!
  9. 課題と打ち⼿:⽴ち上げ期 ⽴ち上げ - 連携データの拡⼤ - 技術的負債の返済 - メンバー増員 - 利⽤者を研究員・デー

    タアナリストから全社 的に展開 - 全社で利⽤されるデー タ基盤にするために、 各部署に⼊り込んでデ ータ活⽤⽀援から⽀え る体制にシフト - データ利⽤の⺠主化 - semantic layerの拡 充 - データメッシュ - プロダクトへの浸透 - reverse ETL - ビジネス貢献 - 「⾒たい数値を ⾒たいときに」 拡⼤ 未来 各プロダクトでデータの扱いが異なり、部⾨を跨いだデータ利⽤に ついて責任分界の整理がなされていない →法務・CSIRTと協働し、セキュリティと利便性を両⽴させるデー タ管理体制を構築 データを集める優先度とインパクトの判断が難しい →研究員とデータアナリストをメインターゲットにして、ニーズの ⾼いデータから優先的に対応 プロダクト側にすでにデータ基盤が存在するため、全社横断データ 基盤およびデータ連携の必要性が理解されにくい →データ利活⽤の課題をヒアリングし、既存基盤では解決できない 問題を全社横断データ基盤で解決するための道筋を説明 - セキュリティと利便性の 両⽴のための基盤設計 - 各プロダクトの ⽣データをともかく収集 - 技術選定→Try&Error - data producer/consumerと の調整&ヒアリング - 責任分界点の整理、 合意形成
  10. 課題と打ち⼿:拡⼤期 - 連携データの拡⼤ - 技術的負債の返済 - メンバー増員 - 全社で利⽤されるデー タ基盤にするために、

    各部署に⼊り込んでデ ータ活⽤⽀援から⽀え る体制にシフト - 利⽤者を研究員・デー タアナリストから全社 的に展開 データ基盤が存在し連携することができるというだけでは、プロ ダクト単体でデータ活⽤の推進を進めていくことは難しい →プロダクト担当を決めてプロダクトチームに⼊り込んで活動 利⽤者が増えたことで、データ導⼊担当者にデータ仕様の問い合 せが集中するようになってしまい、ナレッジの属⼈化&対応負荷が 偏る →データ問い合わせ窓⼝を開設しメンバー間でローテ&対応 拡⼤ 未来
  11. 今後やっていきたい事 - セキュリティと利便性の 両⽴のための基盤設計 - 各プロダクトの ⽣データをともかく収集 - 技術選定→Try&Error -

    data producer/consumerとの 調整&ヒアリング - 責任分界点の整理、 合意形成 - 連携データの拡⼤ - 技術的負債の返済 - メンバー増員 - 利⽤者を研究員・デー タアナリストから全社 的に展開 - 全社で利⽤されるデー タ基盤にするために、 各部署に⼊り込んでデ ータ活⽤⽀援から⽀え る体制にシフト - データ利⽤の⺠主化 - semantic layerの拡充 - データメッシュ - プロダクトへの浸透 - reverse ETL - ビジネス貢献 - 「⾒たい数値を ⾒たいときに」 未来 データ拡⼤に伴うデータ基盤の肥⼤化が発⽣しな いスケーラブルなデータ基盤へのシフト 利⽤者のセルフサービスによるデータ管理 Sansan全体におけるSSOTとしての基盤への実現
  12. ⼤胆さと実直さ。 チャレンジ精神を胸に、⽇々技術を磨く。 想像と創造。 ユーザーの視点に⽴ち、ものづくりを追求する。 スピードとクオリティ。 最速で最善のサービスを世に送り出す。 ⼀⾒対⽴するような特性を併せ持ち、 ときにそれらを使い分けながら、進み続ける。 すべては、ビジネスに不可⽋な インフラをつくるために。

    常識をひっくり返すアイデアで、 この挑戦の先頭へ。 技術本部 Statement 今⽇もどこかで、⼈と⼈、 企業と企業が出会っている。 そこにあるのは、 ビジネスを変える無数の可能性。 出会いの数だけ、私たちにできることがある。 その可能性を、カタチにする。 Sansan技術本部