■イベント Sansan Builders Box 2019 https://jp.corp-sansan.com/sbb2019/
■登壇概要 タイトル:DSOCのR&Dを支える、名刺データ分析基盤の構築とこれから
登壇者: DSOC Data Direction Group データエンジニア 千葉祐大
▼Sansan Builders Box https://buildersbox.corp-sansan.com/
DSOCのR&Dを⽀える、名刺データ分析基盤の構築とこれから
View Slide
千葉 祐⼤(Yuta Chiba)2013年 3⽉ 室蘭⼯業⼤学 ⼯学部 情報⼯学科 卒業2013年 4⽉ アクセンチュア 株式会社 ⼊社2015年 10⽉ JIG-SAW 株式会社 ⼊社2017年 4⽉ Sansan 株式会社 ⼊社Development Group 配属2018年 4⽉ Data Direction Group 新設DSOCData Direction Groupデータエンジニア
Sansan Builders BoxAgenda- はじめに- データ分析基盤について- 分析基盤を構築することで実現できたこと- さいごに
はじめに
Sansan Builders BoxDSOC における、データエンジニアについて- データ分析基盤の設計・構築・保守・運⽤・改修- 他部署との連携や調整- BI ツールを⽤いたダッシュボード作成- メタデータ管理主に分析者や開発者が利⽤するデータセットとデータベースを構築・管理しています。
Sansan Builders Box分析⽤データについて名刺に由来するデータは Eight の規約に沿って、統計処理化または匿名処理化されたデータセットを利⽤し、プロダクト開発に活かしています。- プロダクトへの新機能・既存機能の改善を⽬的として名刺データを活⽤- 分析に利⽤・公開するデータは Eight に限定- 統計処理または匿名化処理を実施
データ分析基盤について
Sansan Builders Box基盤の要件- 分析⽤データに対して、⾼速な集計や取得が可能- API 等のアクセスを想定した、⾼速なレスポンス- データの逐次更新が理想以下、3点を要件として整理しました。
Sansan Builders Box設計⽅針利⽤者が⽤途ごとに使い分けられ、マネージド・サービスを活⽤し運⽤コストの低くなるような基盤を⽬指しました。データ取得随時更新Amazon DynamoDB分析週次更新Amazon Athenaニアリアル同期基盤ウィークリー同期基盤
Sansan Builders Boxデータ分析基盤についてデータソースニアリアル同期基盤ウィークリー同期基盤ウィークリーバッチストリーミングデータ分析基盤データソースからストリーミングでニアリアル DB への同期を実現し、ウィークリーのバッチで分析⽤の DB へ連携する2段階の構造としました。
Sansan Builders Boxニアリアル同期データベース データフローKinesis + Lambda + DynamoDB を利⽤してニアリアル同期を実現。Amazon EC2Amazon RDS Amazon Kinesis AWS Lambda Amazon DynamoDBポーリング ポスト トリガー ポストデータソース ニアリアル同期基盤
Sansan Builders Boxウィークリー同期データベース データフローニアリアル同期基盤AWS Glue Amazon AthenaAWS Data Pipeline Amazon DynamoDBAWS Step FunctionsAWS LambdaEvent(time-based)Amazon Simple StorageServiceトリガートリガー トリガートリガー取得・保存 取得保存取得取得Glue + Lambda + S3 + Athena 等を利⽤してウィークリー同期を実現。ウィークリー同期基盤
分析基盤を構築することで実現できたこと
Sansan Builders Box分析基盤によって実現できたこと- データ取得・分析のスピードが向上> ミリ秒オーダーのデータ取得> SQL ベースでのビッグデータ操作- データに対する前処理の共通化> 個別での処理が不要- 分析可能なデータセットのカタログ化> 利⽤可能なデータセットの整理・⼀元化
さいごに