$30 off During Our Annual Pro Sale. View Details »

Sansan DSOC を支える名刺データ分析基盤構築 / Construction of business card data analysis infrastructure

Sansan
March 02, 2020

Sansan DSOC を支える名刺データ分析基盤構築 / Construction of business card data analysis infrastructure

■イベント
データ分析基盤Developers Night #4 〜活用されるデータ基盤のつくり方〜https://techplay.jp/event/768641

■登壇概要 
タイトル:Sansan DSOC を支える名刺データ分析基盤構築
発表者: 
DSOC 研究開発部 Arc Group 千葉 祐大

▼Sansan Builders Box 

https://buildersbox.corp-sansan.com/

Sansan

March 02, 2020
Tweet

More Decks by Sansan

Other Decks in Technology

Transcript

  1. Sansan DSOC を支える
    名刺データ分析基盤構築
    データ分析基盤Developers Night #4 20200302
    Sansan 株式会社 Data Direction Group 千葉

    View Slide

  2. 1
    千葉 祐大(Yuta Chiba)
    DSOC
    Data Direction Group
    データエンジニア
    2013年 3月 室蘭工業大学 工学部 情報工学科 卒業
    2013年 4月 アクセンチュア 株式会社 入社
    2015年 10月 JIG-SAW 株式会社 入社
    2017年 4月 Sansan 株式会社 入社
    Development Group 配属
    2018年 4月 Data Direction Group 新設

    View Slide

  3. 2

    View Slide

  4. Sansan株式会社が展開する2つの事業
    法人向けクラウド名刺管理サービス 個人向け名刺アプリ

    View Slide

  5. 組織構成
    法人向け名刺管理サービス
    Sansanの開発、提供
    個人向け名刺アプリサービス
    Eightの開発、提供
    Data Direction Team
    データと分析基盤の開発・保守
    (データエンジニアリング )
    Sansan事業部 Eight事業部 DSOC
    Sansan株式会社
    データ統括部門

    View Slide

  6. View Slide

  7. View Slide

  8. DSOC で扱っているデータについて
    7
    - プロダクトへの新機能・既存機能の改善を
    目的として名刺データを活用
    - 分析に利用・公開するデータはEightに限定
    - 統計処理または匿名化処理を実施
    Eight の規約に沿った利用を通して、プロダクト開発に活かしています。

    View Slide

  9. 8
    名刺データ分析基盤について
    名刺データを分析しやすいように整形・加工し、ユースケースごとに
    分けて構築したデータベースと関連データ処理基盤全体を指します。
    データソース
    ニアリアル
    同期
    データベース
    ウィークリー
    同期
    データベース
    ウィークリーバッチ
    ストリーミング
    名刺データ分析基盤

    View Slide

  10. 分析基盤構築前の課題 (1/2)
    9
    - 利用時に本番影響を考慮する必要がある
    > 利用時の心理的障壁が大きい
    > 責任範囲の切り分けにコストが掛かる
    > 大規模な集計クエリが遅い
    それまではプロダクトの本番用 DB へ直接アクセスしており、課題があった。

    View Slide

  11. 分析基盤構築前の課題 (2/2)
    10
    - 利用者の増加による、大規模な集計や取得クエ
    リの増加
    - 分析に不必要なデータの存在
    データ利用の方法も多種多様になり、対応できていなかった。

    View Slide

  12. 分析基盤として求められた要件
    11
    - SQL で取得・集計が可能
    - 高速なデータ取得が可能(RDBMS並みが理想)
    - 基盤の運用コストは最小限にしたい
    主にデータ活用部門がデータをストレスなく利用するための基盤。

    View Slide

  13. 12
    (再掲) 名刺データ分析基盤について
    名刺データを分析しやすいように整形・加工し、役割ごとに構築したデータベー
    スと関連データ処理基盤全体を指します。
    データソース
    ニアリアル
    同期
    データベース
    ウィークリー
    同期
    データベース
    ウィークリーバッチ
    ストリーミング
    名刺データ分析基盤

    View Slide

  14. 13
    設計方針
    利用者が用途ごとに使い分けられ、マネージド・サービスを活用し運用コストの
    低くなるような基盤を実現。
    ニアリアル
    同期
    データベース
    データ取得
    随時更新
    Amazon DynamoDB
    ウィークリー
    同期
    データベース
    分析
    週次更新
    Amazon Athena

    View Slide

  15. Amazon Kinesis AWS Lambda Amazon DynamoDB
    ニアリアル同期基盤
    データソース
    14
    ニアリアル同期データベース
    Kinesis + Lambda + DynamoDB を利用してニアリアル同期を実現。
    Amazon EC2
    Amazon RDS
    ポーリング ポスト トリガー ポスト

    View Slide

  16. ウィークリー同期データベース
    15
    ウィークリー同期データベース
    Glue + Lambda + S3 + Athena 等を利用してウィークリー同期を実現。
    AWS Glue Amazon Athena
    AWS Data Pipeline Amazon DynamoDB
    AWS Step Functions
    AWS Lambda
    Event
    (time-based)
    Amazon Simple Storage
    Service
    トリガー
    トリガー トリガー
    トリガー
    取得・保存 取得
    保存
    ニアリアル同期基盤
    取得

    View Slide

  17. - 分析コストの軽減
    > 大量のデータに対してSQL での取得・集計が
    可能となった
    > 分析に不必要なデータの除外
    構築・運用後の効果
    16
    R&D を始めとした、分析担当の業務を効率化できた。

    View Slide

  18. 運用中に見舞われた問題
    17
    - データが重複・傾向が変化している
    - 知らないうちに基盤利用者が増えている
    - コストが当初よりも増大している
    - データエンジニアの採用が進まない
    運用を続けていく中でいくつか問題が発覚した。

    View Slide

  19. データエンジニア、募集してます!
    18

    View Slide

  20. View Slide