Sansan DSOC を支える名刺データ分析基盤構築 / Construction of business card data analysis infrastructure

13d936e697fe0f4fa96f926d0a712f6c?s=47 Sansan
March 02, 2020

Sansan DSOC を支える名刺データ分析基盤構築 / Construction of business card data analysis infrastructure

■イベント
データ分析基盤Developers Night #4 〜活用されるデータ基盤のつくり方〜https://techplay.jp/event/768641

■登壇概要 
タイトル:Sansan DSOC を支える名刺データ分析基盤構築
発表者: 
DSOC 研究開発部 Arc Group 千葉 祐大

▼Sansan Builders Box 

https://buildersbox.corp-sansan.com/

13d936e697fe0f4fa96f926d0a712f6c?s=128

Sansan

March 02, 2020
Tweet

Transcript

  1. Sansan DSOC を支える 名刺データ分析基盤構築 データ分析基盤Developers Night #4 20200302 Sansan 株式会社

    Data Direction Group 千葉
  2. 1 千葉 祐大(Yuta Chiba) DSOC Data Direction Group データエンジニア 2013年

    3月 室蘭工業大学 工学部 情報工学科 卒業 2013年 4月 アクセンチュア 株式会社 入社 2015年 10月 JIG-SAW 株式会社 入社 2017年 4月 Sansan 株式会社 入社 Development Group 配属 2018年 4月 Data Direction Group 新設
  3. 2

  4. Sansan株式会社が展開する2つの事業 法人向けクラウド名刺管理サービス 個人向け名刺アプリ

  5. 組織構成 法人向け名刺管理サービス Sansanの開発、提供 個人向け名刺アプリサービス Eightの開発、提供 Data Direction Team データと分析基盤の開発・保守 (データエンジニアリング

    ) Sansan事業部 Eight事業部 DSOC Sansan株式会社 データ統括部門
  6. None
  7. None
  8. DSOC で扱っているデータについて 7 - プロダクトへの新機能・既存機能の改善を 目的として名刺データを活用 - 分析に利用・公開するデータはEightに限定 - 統計処理または匿名化処理を実施

    Eight の規約に沿った利用を通して、プロダクト開発に活かしています。
  9. 8 名刺データ分析基盤について 名刺データを分析しやすいように整形・加工し、ユースケースごとに 分けて構築したデータベースと関連データ処理基盤全体を指します。 データソース ニアリアル 同期 データベース ウィークリー 同期

    データベース ウィークリーバッチ ストリーミング 名刺データ分析基盤
  10. 分析基盤構築前の課題 (1/2) 9 - 利用時に本番影響を考慮する必要がある > 利用時の心理的障壁が大きい > 責任範囲の切り分けにコストが掛かる >

    大規模な集計クエリが遅い それまではプロダクトの本番用 DB へ直接アクセスしており、課題があった。
  11. 分析基盤構築前の課題 (2/2) 10 - 利用者の増加による、大規模な集計や取得クエ リの増加 - 分析に不必要なデータの存在 データ利用の方法も多種多様になり、対応できていなかった。

  12. 分析基盤として求められた要件 11 - SQL で取得・集計が可能 - 高速なデータ取得が可能(RDBMS並みが理想) - 基盤の運用コストは最小限にしたい 主にデータ活用部門がデータをストレスなく利用するための基盤。

  13. 12 (再掲) 名刺データ分析基盤について 名刺データを分析しやすいように整形・加工し、役割ごとに構築したデータベー スと関連データ処理基盤全体を指します。 データソース ニアリアル 同期 データベース ウィークリー

    同期 データベース ウィークリーバッチ ストリーミング 名刺データ分析基盤
  14. 13 設計方針 利用者が用途ごとに使い分けられ、マネージド・サービスを活用し運用コストの 低くなるような基盤を実現。 ニアリアル 同期 データベース データ取得 随時更新 Amazon

    DynamoDB ウィークリー 同期 データベース 分析 週次更新 Amazon Athena
  15. Amazon Kinesis AWS Lambda Amazon DynamoDB ニアリアル同期基盤 データソース 14 ニアリアル同期データベース

    Kinesis + Lambda + DynamoDB を利用してニアリアル同期を実現。 Amazon EC2 Amazon RDS ポーリング ポスト トリガー ポスト
  16. ウィークリー同期データベース 15 ウィークリー同期データベース Glue + Lambda + S3 + Athena

    等を利用してウィークリー同期を実現。 AWS Glue Amazon Athena AWS Data Pipeline Amazon DynamoDB AWS Step Functions AWS Lambda Event (time-based) Amazon Simple Storage Service トリガー トリガー トリガー トリガー 取得・保存 取得 保存 ニアリアル同期基盤 取得
  17. - 分析コストの軽減 > 大量のデータに対してSQL での取得・集計が 可能となった > 分析に不必要なデータの除外 構築・運用後の効果 16

    R&D を始めとした、分析担当の業務を効率化できた。
  18. 運用中に見舞われた問題 17 - データが重複・傾向が変化している - 知らないうちに基盤利用者が増えている - コストが当初よりも増大している - データエンジニアの採用が進まない

    運用を続けていく中でいくつか問題が発覚した。
  19. データエンジニア、募集してます! 18

  20. None