■イベント データ分析基盤Developers Night #4 〜活用されるデータ基盤のつくり方〜https://techplay.jp/event/768641
■登壇概要 タイトル:Sansan DSOC を支える名刺データ分析基盤構築 発表者: DSOC 研究開発部 Arc Group 千葉 祐大
▼Sansan Builders Box https://buildersbox.corp-sansan.com/
Sansan DSOC を支える名刺データ分析基盤構築データ分析基盤Developers Night #4 20200302Sansan 株式会社 Data Direction Group 千葉
View Slide
1千葉 祐大(Yuta Chiba)DSOCData Direction Groupデータエンジニア2013年 3月 室蘭工業大学 工学部 情報工学科 卒業2013年 4月 アクセンチュア 株式会社 入社2015年 10月 JIG-SAW 株式会社 入社2017年 4月 Sansan 株式会社 入社Development Group 配属2018年 4月 Data Direction Group 新設
2
Sansan株式会社が展開する2つの事業法人向けクラウド名刺管理サービス 個人向け名刺アプリ
組織構成法人向け名刺管理サービスSansanの開発、提供個人向け名刺アプリサービスEightの開発、提供Data Direction Teamデータと分析基盤の開発・保守(データエンジニアリング )Sansan事業部 Eight事業部 DSOCSansan株式会社データ統括部門
DSOC で扱っているデータについて7- プロダクトへの新機能・既存機能の改善を目的として名刺データを活用- 分析に利用・公開するデータはEightに限定- 統計処理または匿名化処理を実施Eight の規約に沿った利用を通して、プロダクト開発に活かしています。
8名刺データ分析基盤について名刺データを分析しやすいように整形・加工し、ユースケースごとに分けて構築したデータベースと関連データ処理基盤全体を指します。データソースニアリアル同期データベースウィークリー同期データベースウィークリーバッチストリーミング名刺データ分析基盤
分析基盤構築前の課題 (1/2)9- 利用時に本番影響を考慮する必要がある> 利用時の心理的障壁が大きい> 責任範囲の切り分けにコストが掛かる> 大規模な集計クエリが遅いそれまではプロダクトの本番用 DB へ直接アクセスしており、課題があった。
分析基盤構築前の課題 (2/2)10- 利用者の増加による、大規模な集計や取得クエリの増加- 分析に不必要なデータの存在データ利用の方法も多種多様になり、対応できていなかった。
分析基盤として求められた要件11- SQL で取得・集計が可能- 高速なデータ取得が可能(RDBMS並みが理想)- 基盤の運用コストは最小限にしたい主にデータ活用部門がデータをストレスなく利用するための基盤。
12(再掲) 名刺データ分析基盤について名刺データを分析しやすいように整形・加工し、役割ごとに構築したデータベースと関連データ処理基盤全体を指します。データソースニアリアル同期データベースウィークリー同期データベースウィークリーバッチストリーミング名刺データ分析基盤
13設計方針利用者が用途ごとに使い分けられ、マネージド・サービスを活用し運用コストの低くなるような基盤を実現。ニアリアル同期データベースデータ取得随時更新Amazon DynamoDBウィークリー同期データベース分析週次更新Amazon Athena
Amazon Kinesis AWS Lambda Amazon DynamoDBニアリアル同期基盤データソース14ニアリアル同期データベースKinesis + Lambda + DynamoDB を利用してニアリアル同期を実現。Amazon EC2Amazon RDSポーリング ポスト トリガー ポスト
ウィークリー同期データベース15ウィークリー同期データベースGlue + Lambda + S3 + Athena 等を利用してウィークリー同期を実現。AWS Glue Amazon AthenaAWS Data Pipeline Amazon DynamoDBAWS Step FunctionsAWS LambdaEvent(time-based)Amazon Simple StorageServiceトリガートリガー トリガートリガー取得・保存 取得保存ニアリアル同期基盤取得
- 分析コストの軽減> 大量のデータに対してSQL での取得・集計が可能となった> 分析に不必要なデータの除外構築・運用後の効果16R&D を始めとした、分析担当の業務を効率化できた。
運用中に見舞われた問題17- データが重複・傾向が変化している- 知らないうちに基盤利用者が増えている- コストが当初よりも増大している- データエンジニアの採用が進まない運用を続けていく中でいくつか問題が発覚した。
データエンジニア、募集してます!18