Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DSOCのR&Dを支える、名刺データ分析基盤の構築とこれから / Construction of business card data analysis infrastructure and future

Sansan
October 23, 2019

DSOCのR&Dを支える、名刺データ分析基盤の構築とこれから / Construction of business card data analysis infrastructure and future

■イベント
Sansan Builders Box 2019
https://jp.corp-sansan.com/sbb2019/

■登壇概要
タイトル:DSOCのR&Dを支える、名刺データ分析基盤の構築とこれから

登壇者:
DSOC Data Direction Group データエンジニア
千葉祐大

▼Sansan Builders Box
https://buildersbox.corp-sansan.com/

Sansan

October 23, 2019
Tweet

More Decks by Sansan

Other Decks in Technology

Transcript

  1. DSOCのR&Dを⽀える、
    名刺データ分析基盤の構築とこれから

    View Slide

  2. 千葉 祐⼤(Yuta Chiba)
    2013年 3⽉ 室蘭⼯業⼤学 ⼯学部 情報⼯学科 卒業
    2013年 4⽉ アクセンチュア 株式会社 ⼊社
    2015年 10⽉ JIG-SAW 株式会社 ⼊社
    2017年 4⽉ Sansan 株式会社 ⼊社
    Development Group 配属
    2018年 4⽉ Data Direction Group 新設
    DSOC
    Data Direction Group
    データエンジニア

    View Slide

  3. Sansan Builders Box
    Agenda
    - はじめに
    - データ分析基盤について
    - 分析基盤を構築することで実現できたこと
    - さいごに

    View Slide

  4. はじめに

    View Slide

  5. Sansan Builders Box
    DSOC における、データエンジニアについて
    - データ分析基盤の設計・構築・保守・運⽤・改修
    - 他部署との連携や調整
    - BI ツールを⽤いたダッシュボード作成
    - メタデータ管理
    主に分析者や開発者が利⽤するデータセットとデータベースを構築・管理
    しています。

    View Slide

  6. Sansan Builders Box
    分析⽤データについて
    名刺に由来するデータは Eight の規約に沿って、統計処理化または匿名処理
    化されたデータセットを利⽤し、プロダクト開発に活かしています。
    - プロダクトへの新機能・既存機能の改善を⽬的として名
    刺データを活⽤
    - 分析に利⽤・公開するデータは Eight に限定
    - 統計処理または匿名化処理を実施

    View Slide

  7. データ分析基盤について

    View Slide

  8. Sansan Builders Box
    基盤の要件
    - 分析⽤データに対して、⾼速な集計や取得が可能
    - API 等のアクセスを想定した、⾼速なレスポンス
    - データの逐次更新が理想
    以下、3点を要件として整理しました。

    View Slide

  9. Sansan Builders Box
    設計⽅針
    利⽤者が⽤途ごとに使い分けられ、マネージド・サービスを活⽤し運⽤コス
    トの低くなるような基盤を⽬指しました。
    データ取得
    随時更新
    Amazon DynamoDB
    分析
    週次更新
    Amazon Athena
    ニアリアル
    同期基盤
    ウィークリー
    同期基盤

    View Slide

  10. Sansan Builders Box
    データ分析基盤について
    データソース
    ニアリアル
    同期基盤
    ウィークリー
    同期基盤
    ウィークリーバッチ
    ストリーミング
    データ分析基盤
    データソースからストリーミングでニアリアル DB への同期を実現し、
    ウィークリーのバッチで分析⽤の DB へ連携する2段階の構造としました。

    View Slide

  11. Sansan Builders Box
    ニアリアル同期データベース データフロー
    Kinesis + Lambda + DynamoDB を利⽤してニアリアル同期を実現。
    Amazon EC2
    Amazon RDS Amazon Kinesis AWS Lambda Amazon DynamoDB
    ポーリング ポスト トリガー ポスト
    データソース ニアリアル同期基盤

    View Slide

  12. Sansan Builders Box
    ウィークリー同期データベース データフロー
    ニアリアル同期基盤
    AWS Glue Amazon Athena
    AWS Data Pipeline Amazon DynamoDB
    AWS Step Functions
    AWS Lambda
    Event
    (time-based)
    Amazon Simple Storage
    Service
    トリガー
    トリガー トリガー
    トリガー
    取得・保存 取得
    保存
    取得
    取得
    Glue + Lambda + S3 + Athena 等を利⽤してウィークリー同期を実現。
    ウィークリー同期基盤

    View Slide

  13. 分析基盤を構築することで実現できたこと

    View Slide

  14. Sansan Builders Box
    分析基盤によって実現できたこと
    - データ取得・分析のスピードが向上
    > ミリ秒オーダーのデータ取得
    > SQL ベースでのビッグデータ操作
    - データに対する前処理の共通化
    > 個別での処理が不要
    - 分析可能なデータセットのカタログ化
    > 利⽤可能なデータセットの整理・⼀元化

    View Slide

  15. さいごに

    View Slide

  16. View Slide