DSOCのR&Dを支える、名刺データ分析基盤の構築とこれから / Construction of business card data analysis infrastructure and future

13d936e697fe0f4fa96f926d0a712f6c?s=47 Sansan
October 23, 2019

DSOCのR&Dを支える、名刺データ分析基盤の構築とこれから / Construction of business card data analysis infrastructure and future

■イベント
Sansan Builders Box 2019
https://jp.corp-sansan.com/sbb2019/

■登壇概要
タイトル:DSOCのR&Dを支える、名刺データ分析基盤の構築とこれから

登壇者:
DSOC Data Direction Group データエンジニア
千葉祐大

▼Sansan Builders Box
https://buildersbox.corp-sansan.com/

13d936e697fe0f4fa96f926d0a712f6c?s=128

Sansan

October 23, 2019
Tweet

Transcript

  1. DSOCのR&Dを⽀える、 名刺データ分析基盤の構築とこれから

  2. 千葉 祐⼤(Yuta Chiba) 2013年 3⽉ 室蘭⼯業⼤学 ⼯学部 情報⼯学科 卒業 2013年

    4⽉ アクセンチュア 株式会社 ⼊社 2015年 10⽉ JIG-SAW 株式会社 ⼊社 2017年 4⽉ Sansan 株式会社 ⼊社 Development Group 配属 2018年 4⽉ Data Direction Group 新設 DSOC Data Direction Group データエンジニア
  3. Sansan Builders Box Agenda - はじめに - データ分析基盤について - 分析基盤を構築することで実現できたこと

    - さいごに
  4. はじめに

  5. Sansan Builders Box DSOC における、データエンジニアについて - データ分析基盤の設計・構築・保守・運⽤・改修 - 他部署との連携や調整 -

    BI ツールを⽤いたダッシュボード作成 - メタデータ管理 主に分析者や開発者が利⽤するデータセットとデータベースを構築・管理 しています。
  6. Sansan Builders Box 分析⽤データについて 名刺に由来するデータは Eight の規約に沿って、統計処理化または匿名処理 化されたデータセットを利⽤し、プロダクト開発に活かしています。 - プロダクトへの新機能・既存機能の改善を⽬的として名

    刺データを活⽤ - 分析に利⽤・公開するデータは Eight に限定 - 統計処理または匿名化処理を実施
  7. データ分析基盤について

  8. Sansan Builders Box 基盤の要件 - 分析⽤データに対して、⾼速な集計や取得が可能 - API 等のアクセスを想定した、⾼速なレスポンス -

    データの逐次更新が理想 以下、3点を要件として整理しました。
  9. Sansan Builders Box 設計⽅針 利⽤者が⽤途ごとに使い分けられ、マネージド・サービスを活⽤し運⽤コス トの低くなるような基盤を⽬指しました。 データ取得 随時更新 Amazon DynamoDB

    分析 週次更新 Amazon Athena ニアリアル 同期基盤 ウィークリー 同期基盤
  10. Sansan Builders Box データ分析基盤について データソース ニアリアル 同期基盤 ウィークリー 同期基盤 ウィークリーバッチ

    ストリーミング データ分析基盤 データソースからストリーミングでニアリアル DB への同期を実現し、 ウィークリーのバッチで分析⽤の DB へ連携する2段階の構造としました。
  11. Sansan Builders Box ニアリアル同期データベース データフロー Kinesis + Lambda + DynamoDB

    を利⽤してニアリアル同期を実現。 Amazon EC2 Amazon RDS Amazon Kinesis AWS Lambda Amazon DynamoDB ポーリング ポスト トリガー ポスト データソース ニアリアル同期基盤
  12. Sansan Builders Box ウィークリー同期データベース データフロー ニアリアル同期基盤 AWS Glue Amazon Athena

    AWS Data Pipeline Amazon DynamoDB AWS Step Functions AWS Lambda Event (time-based) Amazon Simple Storage Service トリガー トリガー トリガー トリガー 取得・保存 取得 保存 取得 取得 Glue + Lambda + S3 + Athena 等を利⽤してウィークリー同期を実現。 ウィークリー同期基盤
  13. 分析基盤を構築することで実現できたこと

  14. Sansan Builders Box 分析基盤によって実現できたこと - データ取得・分析のスピードが向上 > ミリ秒オーダーのデータ取得 > SQL

    ベースでのビッグデータ操作 - データに対する前処理の共通化 > 個別での処理が不要 - 分析可能なデータセットのカタログ化 > 利⽤可能なデータセットの整理・⼀元化
  15. さいごに

  16. None