Slide 1

Slide 1 text

スケーラブルなデータ収集と活用の舞台裏 ~ Web講演会を例に ~ 2020-07-09 コロナ時代の医療業界を支援するエムスリーのプロダクト開発の舞台裏

Slide 2

Slide 2 text

自己紹介 鳥山 誠 (Toriyama Makoto) 入社: 2020年1月 趣味: 音楽 前職: 人材系企業 - 社内Webシステムを作ったり (Angular, Scala) - クエリパイプラインを構築したり (Redshift, Digdag) 所属: Unit1 - 製薬企業向けPF

Slide 3

Slide 3 text

製薬企業向けプラットフォーム - MR君 (2000~) - Web講演会 (2011~) エムスリー創業期からのサービス群 m3.com上で医師へ薬剤などの情報提供 × 製薬企業のマーケティング支援

Slide 4

Slide 4 text

Web講演会 m3.com上で行うオンラインの講演会 (最近アプリも出ました =>) - 例: - 製薬会社、医療機器メーカー主催の医師向け講演会 - 看護師、薬剤師向けの薬剤、機器の説明会 => 正にいま「医療関係者の情報収集」に貢献しうるサービス

Slide 5

Slide 5 text

(当社IR資料より抜粋)

Slide 6

Slide 6 text

そんな勢いで増える「データ」をどう扱っているのか?

Slide 7

Slide 7 text

「データ」を扱う どう集めているのか? => 収集 どう使っているのか? => 活用

Slide 8

Slide 8 text

どう集めているのか? => 収集 どう使っているのか? => 活用 …の2つに焦点を当ててお話しします 「データ」を扱う

Slide 9

Slide 9 text

データの”収集”

Slide 10

Slide 10 text

Web講演会サーバはOn Premise + AWS (移行中)、ログ送信先はGCP (最近全面移行した) Webビーコン方式のアクセス解析ツールを自前実装 + 視聴予約・視聴 (RDBトランザクション) 視聴ログ送信(一定時間ごとビーコン送信) Web講演会の視聴データの話

Slide 11

Slide 11 text

- Cloud Runがオートスケールしリクエストをさばく - ログをPub/Subにエクスポート、BigQueryに連携 GCP構成図

Slide 12

Slide 12 text

- ログデータは先述の仕組み (+α) でリアルタイムに連携 - DBのデータは、Digdag+EmbulkでBigQueryに連携 - => BigQuery上で双方を組み合わせた分析が可能 BigQueryはデータ基盤の中心

Slide 13

Slide 13 text

データの”活用”

Slide 14

Slide 14 text

データ活用と言っても...

Slide 15

Slide 15 text

今日はあえてこちら

Slide 16

Slide 16 text

データ分析観点はサービスの成長とともに変わっている 過去: MR君(= 医師向けメッセージ) => 配信数と既読率を追う。以上! 現在: - 講演会の視聴率はどうだったか? - 講演会に至るまでのアクセス動線は? - メッセージ添付の動画・コンテンツまで見てもらえているか? - 医師からのフィードバック・アンケート回答内容はあるか? => 分析要件が複雑化・多様化 「データ分析」って集計するだけでは?

Slide 17

Slide 17 text

- オンプレの分析用Oracleに、諸々のチームが諸々の技術で ETL - Java製ツールで非Engでもデータ抽出できる - => 便利だが、増えるデータに対応できない && データ定義が管理しきれない ... かつてのデータ分析基盤 「データは出たけどこれ正しいんだっけ?」 PdM

Slide 18

Slide 18 text

- BigQueryに集まったデータを BIツールで分析 - 利用を促進するため、各種データマートを構築(進行中) クラウドでやりましょう

Slide 19

Slide 19 text

- Oracleデータ + ログデータ + Salesforceデータを材料に、データマートに統合 - 昨日までの実績がすぐに可視化される世界 => 意思決定を支援 活用事例1: プロダクトマネージャ向けダッシュボード

Slide 20

Slide 20 text

- GCPのData Catalogによるメタデータ管理を行っている - descriptionを丁寧に書く => デプロイしたら即テーブル定義を確認できる 活用事例1: プロダクトマネージャ向けダッシュボード

Slide 21

Slide 21 text

- メンテナンス困難になっていた CSV付きレポートメール (Shell製) - BQ上でデータマートを構築し、データマートから出力 (同時にPythonにした) - 大規模配信のレポートが安定して出力できるように 活用事例2: クライアント向けレポート (100~200通/日 程度)

Slide 22

Slide 22 text

構成図

Slide 23

Slide 23 text

- 全サービスのKPIがすぐ追える世界 - ETL基盤をいい感じにクラウド化する - データ基盤そのものをクライアントと共有して、更なる価値提供 - etc... この先やりたいこと

Slide 24

Slide 24 text

まとめ - データ基盤は「収集」と「活用」両方のスケーラビリティが大事 - エムスリー、歴史のあるサービスも頑張っています - まだまだやれることがたくさんあります!!