Slide 1

Slide 1 text

DSOCのR&Dを⽀える、 名刺データ分析基盤の構築とこれから

Slide 2

Slide 2 text

千葉 祐⼤(Yuta Chiba) 2013年 3⽉ 室蘭⼯業⼤学 ⼯学部 情報⼯学科 卒業 2013年 4⽉ アクセンチュア 株式会社 ⼊社 2015年 10⽉ JIG-SAW 株式会社 ⼊社 2017年 4⽉ Sansan 株式会社 ⼊社 Development Group 配属 2018年 4⽉ Data Direction Group 新設 DSOC Data Direction Group データエンジニア

Slide 3

Slide 3 text

Sansan Builders Box Agenda - はじめに - データ分析基盤について - 分析基盤を構築することで実現できたこと - さいごに

Slide 4

Slide 4 text

はじめに

Slide 5

Slide 5 text

Sansan Builders Box DSOC における、データエンジニアについて - データ分析基盤の設計・構築・保守・運⽤・改修 - 他部署との連携や調整 - BI ツールを⽤いたダッシュボード作成 - メタデータ管理 主に分析者や開発者が利⽤するデータセットとデータベースを構築・管理 しています。

Slide 6

Slide 6 text

Sansan Builders Box 分析⽤データについて 名刺に由来するデータは Eight の規約に沿って、統計処理化または匿名処理 化されたデータセットを利⽤し、プロダクト開発に活かしています。 - プロダクトへの新機能・既存機能の改善を⽬的として名 刺データを活⽤ - 分析に利⽤・公開するデータは Eight に限定 - 統計処理または匿名化処理を実施

Slide 7

Slide 7 text

データ分析基盤について

Slide 8

Slide 8 text

Sansan Builders Box 基盤の要件 - 分析⽤データに対して、⾼速な集計や取得が可能 - API 等のアクセスを想定した、⾼速なレスポンス - データの逐次更新が理想 以下、3点を要件として整理しました。

Slide 9

Slide 9 text

Sansan Builders Box 設計⽅針 利⽤者が⽤途ごとに使い分けられ、マネージド・サービスを活⽤し運⽤コス トの低くなるような基盤を⽬指しました。 データ取得 随時更新 Amazon DynamoDB 分析 週次更新 Amazon Athena ニアリアル 同期基盤 ウィークリー 同期基盤

Slide 10

Slide 10 text

Sansan Builders Box データ分析基盤について データソース ニアリアル 同期基盤 ウィークリー 同期基盤 ウィークリーバッチ ストリーミング データ分析基盤 データソースからストリーミングでニアリアル DB への同期を実現し、 ウィークリーのバッチで分析⽤の DB へ連携する2段階の構造としました。

Slide 11

Slide 11 text

Sansan Builders Box ニアリアル同期データベース データフロー Kinesis + Lambda + DynamoDB を利⽤してニアリアル同期を実現。 Amazon EC2 Amazon RDS Amazon Kinesis AWS Lambda Amazon DynamoDB ポーリング ポスト トリガー ポスト データソース ニアリアル同期基盤

Slide 12

Slide 12 text

Sansan Builders Box ウィークリー同期データベース データフロー ニアリアル同期基盤 AWS Glue Amazon Athena AWS Data Pipeline Amazon DynamoDB AWS Step Functions AWS Lambda Event (time-based) Amazon Simple Storage Service トリガー トリガー トリガー トリガー 取得・保存 取得 保存 取得 取得 Glue + Lambda + S3 + Athena 等を利⽤してウィークリー同期を実現。 ウィークリー同期基盤

Slide 13

Slide 13 text

分析基盤を構築することで実現できたこと

Slide 14

Slide 14 text

Sansan Builders Box 分析基盤によって実現できたこと - データ取得・分析のスピードが向上 > ミリ秒オーダーのデータ取得 > SQL ベースでのビッグデータ操作 - データに対する前処理の共通化 > 個別での処理が不要 - 分析可能なデータセットのカタログ化 > 利⽤可能なデータセットの整理・⼀元化

Slide 15

Slide 15 text

さいごに

Slide 16

Slide 16 text

No content