Slide 1

Slide 1 text

Sansan株式会社 部署 名前 Sansanにおける 全社横断データ分析基盤の 挑戦と未来 Sansan 技術本部 研究開発部 Architectグループ 田辺敬之

Slide 2

Slide 2 text

Agenda - 自己紹介 - 会社概要 - Sansanの主要なサービスとデータ - 全社横断データ分析基盤(Colossus) - Colossusのリアルな課題

Slide 3

Slide 3 text

写真が入ります 田辺 敬之 Sansan株式会社 技術本部 研究開発部 Architectグループ 筑波大学大学院修士課程修了。研究は高性能計算xビッグデータ 2020年4月に新卒で株式会社ノーチラス・テクノロジーズに入社 し、国産初のRDB作りに従事。トランザクション処理全般を担当 する。 2024年7月にデータエンジニアとして入社。全社横断データ分析 基盤の運用・改善、データ利活用に従事している。

Slide 4

Slide 4 text

会社概要 3 表参道本社 神山ラボ Sansan Innovation Lab 社 名 Sansan株式会社 所在地 表参道本社 東京都渋谷区神宮前5-52-2 青山オーバルビル13F グループ 会社 Sansan Global Pte. Ltd. (シンガポール) Sansan Global Development Center, Inc.(フィリピン) Sansan Global (Thailand) Co., Ltd.(タイ) ログミー株式会社 株式会社ダイヤモンド企業情報編集社 クリエイティブサーベイ株式会社 株式会社言語理解研究所 従業員数 1,698名(2024年5月31日時点) 2007年6月11日 設 立 支店:大阪、名古屋、福岡 サテライトオフィス:徳島、京都、新潟 拠 点 寺田 親弘 代表者

Slide 5

Slide 5 text

Sansanの主要なサービスとデータ

Slide 6

Slide 6 text

Sansanの主要なサービス 請求 人や企業との出会いをビジネスチャンスにつなげる「働き方を変えるDXサービス」を提供 ビジネスフローにおけるさまざまな分野でサービスを展開 名刺管理 名刺DX 営業 営業DX 契約 契約DX 経理DX 個人向けDX 法人向けDX 必要な情報を すぐに見つけられる 情報の管理がしやすく すぐに共有できる 情報を分析・活用しやすく データに基づいた判断ができる SansanのDXサービスの活用で変わる働き方

Slide 7

Slide 7 text

主要プロダクト・営業系データを集約・活用 人脈情報 コンタクト 情報 企業情報 その他情報 契約情報 請求情報 全社横断データ分析基盤 企業DB データ構造化 データ連携 データ連携 名寄せ BIツール In-house solution データプロダクト マネジメント Salesforce ※ Salesforce は Salesforce inc. の商標であり、 許可のもとで使用しています。

Slide 8

Slide 8 text

全社横断データ分析基盤(Colossus)

Slide 9

Slide 9 text

全社横断データ分析基盤Colossus (~2020年) 営業DX サービス 名刺アプリ Sansan データ分析基盤 Eight データ分析基盤 各種営業用 データ 名刺データ化 分析基盤 2007~ 2012~ インボイス 管理サービス 人事異動情報 企業情報 Bill One データ分析基盤 2020~

Slide 10

Slide 10 text

- データ管理コストの増大 - 複数部署で同じデータを管理している場合、データの重複が発生 - 情報が複数箇所に点在すると、データ更新コストが発生 - データアクセスコストの増大 - 各部署の決まりに従ってデータアクセス - データによっては持ち主にエクスポートを依頼 - データ基盤で対応するために個別対応 データのサイロ化による影響 全社横断データ分析基盤で解決

Slide 11

Slide 11 text

全社横断データ分析基盤(Colossus)(2021年) 営業DX サービス 名刺アプリ Sansan データ分析基盤 Eight データ分析基盤 各種営業用 データ 名刺データ化 分析基盤 2007~ 2012~ 全社横断 データ基盤 インボイス 管理サービス 人事異動情報 企業情報 Bill One データ分析基盤 爆誕!!! 契約 データベース 2020~ 2021~

Slide 12

Slide 12 text

Colossusのアーキテクチャ Cloud Storage Amazon S3 Amazon Aurora Storage Transfer Service Cloud SQL Logging Cloud Composer Project データ基盤 Data lake BigQuery Project データ分析A BigQuery DWH BigQuery Data mart BigQuery Project データ分析B BigQuery Group A Group B データ基盤エンジニア その他 AWSリソース Azure Blob Storage SalesForce

Slide 13

Slide 13 text

Colossusのリアルな課題

Slide 14

Slide 14 text

- BIが適切に監視できていない - レガシーデータ基盤負債 - Cloud Composer責務持ちすぎ Colossusのリアルな課題

Slide 15

Slide 15 text

- BIが適切に監視できていない - レガシーデータ基盤負債 - Cloud Composer責務持ちすぎ Colossusのリアルな課題

Slide 16

Slide 16 text

- Colossus を使ってBIが作れるようになった。ユーザーは増え、多様な使 われ方をし、誤った民主化が進む - どのBIがどれをどのように正しく見ているか、機密性が適切か不明瞭 BIが適切に監視できていない Colossus インサイトを明確にしたBI エッジニーズやVizを改善 理解不足で怪しいBI BIを魔改造したBI

Slide 17

Slide 17 text

- 発見的統制 - BigQueryに対するBIのURL、owner、クエリ発行日、参照テーブルなど分析 - 監査ログやGA4ログを分析 - 予防的統制 - 作り方、利用の仕方のルール化・改善 解決へのアプローチ 監査ログ GA4 全社横断 データ基盤 発見的統制

Slide 18

Slide 18 text

- BIが適切に監視できていない - レガシーデータ基盤負債 - Cloud Composer責務持ちすぎ Colossusのリアルな課題

Slide 19

Slide 19 text

- 名刺データを取得・分析する名刺データ分析基盤 - 課題 - 複雑な仕組みと古い実装、引き継ぎ不足でメンテナンスコストが高い - 新データ基盤と旧データ基盤の並行運用コストが高い レガシーデータ基盤負債 データ化依頼 データ化結果納品 名刺データ化 システム データ結果 格納システム レガシー基盤 同期

Slide 20

Slide 20 text

- レガシー基盤を一部除去可能にするための新規データ連携経路構築 - 名刺データ結果格納システムで識別した名刺データの識別結果をニアリアル でDynamoに連携 - そのデータを週次でAthenaへ連携 - Athenaへ連携する部分を新データ基盤への連携へ置き換える 解決へのアプローチ 週次データ Athena Colossus

Slide 21

Slide 21 text

- BIが適切に監視できていない - レガシーデータ基盤負債問題 - Cloud Composer責務持ちすぎ Colossusのリアルな課題

Slide 22

Slide 22 text

- 現状: Composer がワークフロー・スケジューリング・データ処理 Cloud Composer 責務持ちすぎ

Slide 23

Slide 23 text

- GCP上のCompute Resourceで行うマイクロサービスとして分離する - Cloud Functions を通じて Composer のジョブをトリガーさせる仕組みを 構築する 解決へのアプローチ Micro Service Micro Service Micro Service

Slide 24

Slide 24 text

今日のまとめ

Slide 25

Slide 25 text

- データマネジメントは一度負債化すると解消するのに苦労する - 負債解消を諦めて放置するとより負債が悪化するため、泥臭く アプローチしていくことが大事 - 負債を産まないことが理想だが、事業価値を生み出してドライ ブしていくにはそれは避けられない 今日のまとめ

Slide 26

Slide 26 text

Sansan 技術本部 募集ポジション紹介 https://media.sansan-engineering.com/

Slide 27

Slide 27 text

No content