Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DSOCのR&Dを支える、名刺データ分析基盤の構築とこれから / Construction of business card data analysis infrastructure and future

DSOCのR&Dを支える、名刺データ分析基盤の構築とこれから / Construction of business card data analysis infrastructure and future

■イベント
Sansan Builders Box 2019
https://jp.corp-sansan.com/sbb2019/

■登壇概要
タイトル:DSOCのR&Dを支える、名刺データ分析基盤の構築とこれから

登壇者:
DSOC Data Direction Group データエンジニア
千葉祐大

▼Sansan DSOC
https://sansan-dsoc.com/

Sansan DSOC

October 23, 2019
Tweet

More Decks by Sansan DSOC

Other Decks in Technology

Transcript

  1. 千葉 祐⼤(Yuta Chiba) 2013年 3⽉ 室蘭⼯業⼤学 ⼯学部 情報⼯学科 卒業 2013年

    4⽉ アクセンチュア 株式会社 ⼊社 2015年 10⽉ JIG-SAW 株式会社 ⼊社 2017年 4⽉ Sansan 株式会社 ⼊社 Development Group 配属 2018年 4⽉ Data Direction Group 新設 DSOC Data Direction Group データエンジニア
  2. Sansan Builders Box DSOC における、データエンジニアについて - データ分析基盤の設計・構築・保守・運⽤・改修 - 他部署との連携や調整 -

    BI ツールを⽤いたダッシュボード作成 - メタデータ管理 主に分析者や開発者が利⽤するデータセットとデータベースを構築・管理 しています。
  3. Sansan Builders Box データ分析基盤について データソース ニアリアル 同期基盤 ウィークリー 同期基盤 ウィークリーバッチ

    ストリーミング データ分析基盤 データソースからストリーミングでニアリアル DB への同期を実現し、 ウィークリーのバッチで分析⽤の DB へ連携する2段階の構造としました。
  4. Sansan Builders Box ニアリアル同期データベース データフロー Kinesis + Lambda + DynamoDB

    を利⽤してニアリアル同期を実現。 Amazon EC2 Amazon RDS Amazon Kinesis AWS Lambda Amazon DynamoDB ポーリング ポスト トリガー ポスト データソース ニアリアル同期基盤
  5. Sansan Builders Box ウィークリー同期データベース データフロー ニアリアル同期基盤 AWS Glue Amazon Athena

    AWS Data Pipeline Amazon DynamoDB AWS Step Functions AWS Lambda Event (time-based) Amazon Simple Storage Service トリガー トリガー トリガー トリガー 取得・保存 取得 保存 取得 取得 Glue + Lambda + S3 + Athena 等を利⽤してウィークリー同期を実現。 ウィークリー同期基盤
  6. Sansan Builders Box 分析基盤によって実現できたこと - データ取得・分析のスピードが向上 > ミリ秒オーダーのデータ取得 > SQL

    ベースでのビッグデータ操作 - データに対する前処理の共通化 > 個別での処理が不要 - 分析可能なデータセットのカタログ化 > 利⽤可能なデータセットの整理・⼀元化