Slide 1

Slide 1 text

Sansan DSOC を支える 名刺データ分析基盤構築 データ分析基盤Developers Night #4 20200302 Sansan 株式会社 Data Direction Group 千葉

Slide 2

Slide 2 text

1 千葉 祐大(Yuta Chiba) DSOC Data Direction Group データエンジニア 2013年 3月 室蘭工業大学 工学部 情報工学科 卒業 2013年 4月 アクセンチュア 株式会社 入社 2015年 10月 JIG-SAW 株式会社 入社 2017年 4月 Sansan 株式会社 入社 Development Group 配属 2018年 4月 Data Direction Group 新設

Slide 3

Slide 3 text

2

Slide 4

Slide 4 text

Sansan株式会社が展開する2つの事業 法人向けクラウド名刺管理サービス 個人向け名刺アプリ

Slide 5

Slide 5 text

組織構成 法人向け名刺管理サービス Sansanの開発、提供 個人向け名刺アプリサービス Eightの開発、提供 Data Direction Team データと分析基盤の開発・保守 (データエンジニアリング ) Sansan事業部 Eight事業部 DSOC Sansan株式会社 データ統括部門

Slide 6

Slide 6 text

No content

Slide 7

Slide 7 text

No content

Slide 8

Slide 8 text

DSOC で扱っているデータについて 7 - プロダクトへの新機能・既存機能の改善を 目的として名刺データを活用 - 分析に利用・公開するデータはEightに限定 - 統計処理または匿名化処理を実施 Eight の規約に沿った利用を通して、プロダクト開発に活かしています。

Slide 9

Slide 9 text

8 名刺データ分析基盤について 名刺データを分析しやすいように整形・加工し、ユースケースごとに 分けて構築したデータベースと関連データ処理基盤全体を指します。 データソース ニアリアル 同期 データベース ウィークリー 同期 データベース ウィークリーバッチ ストリーミング 名刺データ分析基盤

Slide 10

Slide 10 text

分析基盤構築前の課題 (1/2) 9 - 利用時に本番影響を考慮する必要がある > 利用時の心理的障壁が大きい > 責任範囲の切り分けにコストが掛かる > 大規模な集計クエリが遅い それまではプロダクトの本番用 DB へ直接アクセスしており、課題があった。

Slide 11

Slide 11 text

分析基盤構築前の課題 (2/2) 10 - 利用者の増加による、大規模な集計や取得クエ リの増加 - 分析に不必要なデータの存在 データ利用の方法も多種多様になり、対応できていなかった。

Slide 12

Slide 12 text

分析基盤として求められた要件 11 - SQL で取得・集計が可能 - 高速なデータ取得が可能(RDBMS並みが理想) - 基盤の運用コストは最小限にしたい 主にデータ活用部門がデータをストレスなく利用するための基盤。

Slide 13

Slide 13 text

12 (再掲) 名刺データ分析基盤について 名刺データを分析しやすいように整形・加工し、役割ごとに構築したデータベー スと関連データ処理基盤全体を指します。 データソース ニアリアル 同期 データベース ウィークリー 同期 データベース ウィークリーバッチ ストリーミング 名刺データ分析基盤

Slide 14

Slide 14 text

13 設計方針 利用者が用途ごとに使い分けられ、マネージド・サービスを活用し運用コストの 低くなるような基盤を実現。 ニアリアル 同期 データベース データ取得 随時更新 Amazon DynamoDB ウィークリー 同期 データベース 分析 週次更新 Amazon Athena

Slide 15

Slide 15 text

Amazon Kinesis AWS Lambda Amazon DynamoDB ニアリアル同期基盤 データソース 14 ニアリアル同期データベース Kinesis + Lambda + DynamoDB を利用してニアリアル同期を実現。 Amazon EC2 Amazon RDS ポーリング ポスト トリガー ポスト

Slide 16

Slide 16 text

ウィークリー同期データベース 15 ウィークリー同期データベース Glue + Lambda + S3 + Athena 等を利用してウィークリー同期を実現。 AWS Glue Amazon Athena AWS Data Pipeline Amazon DynamoDB AWS Step Functions AWS Lambda Event (time-based) Amazon Simple Storage Service トリガー トリガー トリガー トリガー 取得・保存 取得 保存 ニアリアル同期基盤 取得

Slide 17

Slide 17 text

- 分析コストの軽減 > 大量のデータに対してSQL での取得・集計が 可能となった > 分析に不必要なデータの除外 構築・運用後の効果 16 R&D を始めとした、分析担当の業務を効率化できた。

Slide 18

Slide 18 text

運用中に見舞われた問題 17 - データが重複・傾向が変化している - 知らないうちに基盤利用者が増えている - コストが当初よりも増大している - データエンジニアの採用が進まない 運用を続けていく中でいくつか問題が発覚した。

Slide 19

Slide 19 text

データエンジニア、募集してます! 18

Slide 20

Slide 20 text

No content