Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Data Gateway Talk vol.4 スポンサートーク2
Search
recochoku
November 21, 2019
Technology
400
1
Share
Data Gateway Talk vol.4 スポンサートーク2
2019年11月21日 Data Gateway Talk vol.4 スポンサートークにてお話したスライドです。レコチョクのデータ基盤についてです。
recochoku
November 21, 2019
More Decks by recochoku
See All by recochoku
RecoChoku tech night -AWS re:Invent 2019 参加報告会- 田村(航)
labo
0
350
RecoChoku tech night -AWS re:Invent 2019 参加報告会- 山根
labo
0
430
Data Gateway Talk vol.4 スポンサートーク1
labo
0
540
Data Gateway Talk vol.4 若手LT
labo
0
420
RecoChoku tech night #09 -reinvent2018報告会-
labo
1
1.5k
RecoChoku tech night #09 -reinvent2018報告会- オープニング
labo
1
490
Other Decks in Technology
See All in Technology
生成AI時代に信頼性をどう保ち続けるか - Policy as Code の実践
akitok_
1
200
PdM・Eng・QAで進めるAI駆動開発の現在地/aidd-with-pdm-eng-qa
shota_kusaba
0
200
AIが自律的に働く時代へ Amazon Quick で実現するAIエージェント紹介
koheiyoshikawa
0
200
[Scram Fest Niigata2026]Quality as Code〜AIにQAの思考を再現させる試み〜
masamiyajiri
1
310
How to learn AWS Well-Architected with AWS BuilderCards: Security Edition
coosuke
PRO
0
120
Building Production-Ready Agents Microsoft Agent Framework
_mertmetin
0
170
AI時代の品質はテストプロセスの作り直し #scrumniigata
kyonmm
PRO
4
1.4k
【技術書典20】OpenFOAM(自宅で深める流体解析)流れと熱移動(2)
kamakiri1225
0
390
いつの間にかデータエンジニア以外の業務も増えていたけど、意外と経験が役に立ってる
zozotech
PRO
0
460
鹿野さんに聞く!CSSの最新トレンド Ver.2026
tonkotsuboy_com
6
2.9k
"うちにはまだ早い"は本当? ─ 小さく始めるPlatform Engineering入門
harukasakihara
5
500
SREの仕事は「壊さないこと」ではなくなった 〜自律化していくシステムに、責任と判断を与えるという価値〜 / 20260515 Naoki Shimada
shift_evolve
PRO
1
130
Featured
See All Featured
Odyssey Design
rkendrick25
PRO
2
610
GraphQLとの向き合い方2022年版
quramy
50
15k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
350
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
360
A designer walks into a library…
pauljervisheath
211
24k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
1.3k
We Have a Design System, Now What?
morganepeng
55
8.1k
Embracing the Ebb and Flow
colly
88
5k
Discover your Explorer Soul
emna__ayadi
2
1.1k
How to build a perfect <img>
jonoalderson
1
5.5k
Amusing Abliteration
ianozsvald
1
160
Transcript
© RecoChoku Co.,Ltd. Proprietary and Confidential 株式会社レコチョク 事業システム部 エンタープライズディストリビューショングループ データドリブンチーム
佐藤 俊之 2019/11/25 データ分析基盤紹介 サクッと 2019年11月21日(木) Data Gateway Talk vol.4
© RecoChoku Co.,Ltd. Proprietary and Confidential 自己紹介 2 2019/11/25 佐藤
俊之 (Toshiyuki Sato) データ分析基盤管理者 - データベースエンジニア - BIスペシャリスト - CRM、レコメンデーションなどデータ関連システム担当 好きなAWSサービス - Redshift - S3 好きなアーティスト - スピッツ - ELLEGARDEN
© RecoChoku Co.,Ltd. Proprietary and Confidential レコチョクサービスとデータ 3 2019/11/25 ①音楽配信サービス
従量課金制 定額課金制 ②音楽体験サービス 会員属性情報 課金ログ アクセスログ お気に入りアーティスト情報 再生ログ プレイリスト アプリ操作ログ 視聴ログ アーティストフォロー情報 お気に入り動画 ③楽曲管理システム 楽曲情報 アーティスト情報 ジャンル情報 楽曲配信情報
© RecoChoku Co.,Ltd. Proprietary and Confidential データ分析基盤 4 2019/11/25 各フロントサービスデータ
バックエンドシステムデータ BIツール アドホック分析 定型レポート出力 アクセスログ 再生ログ アプリ操作ログ 楽曲情報 商品情報 アーティスト情報 課金実績 会員データ PUSHトークン情報 お気に入りアーティスト情報 プレイリスト 視聴ログ CRM用データ出力 Amazon Redshift Amazon Kinesis Data Streams Amazon S3 レコメンド PUSH配信 twitter配信 機械学習 メール配信 Amazon Kinesis Data Streams Amazon EMR Amazon Personalize データ加工
© RecoChoku Co.,Ltd. Proprietary and Confidential データ分析基盤の役割 1. データ収集 –
レコチョク全サービスの分析用データを一元管理 – S3ファイル連携、RDS直接連携など連携方法を共通化 – Kinesisからユーザの行動データ(アプリ操作ログ、課金実績など)をほぼリアルタイムで収集 2. データ加工 – CRM PUSH/メール配信、効果測定、レコメンデーション、BI用などの加工データを作成 – 機械学習でユーザ毎に活動時間を分析し、CRM配信に利用 3. データ活用 – 販売促進 : パーソナライズ、レコメンド、 CRM配信 – 分析 : 効果測定、KPI分析、分析データの提供、リアルタイム分析 – 報告 : 日次/週次/月次レポート、アドホック分析 – 予測 : 売上予測、退会抑止 5 2019/11/25
© RecoChoku Co.,Ltd. Proprietary and Confidential レコチョク データ分析基盤あるあるのご紹介 • 新規サービスが増えるのでデータがどんどん増えていく
• 夜間バッチがどんどん増えていく、日次処理の終了が遅くなって いく、レポート出力が遅れてくる • いつも夜中にアラートが発生する • スロークエリが突然発生する、他の処理も巻き込まれる • 月初は月次処理で負荷が高い、安心できない • 連携データのデータフォーマットが突然変更されて、アラート発生 • 突然大量のデータが連携される 6 2019/11/25
© RecoChoku Co.,Ltd. Proprietary and Confidential データ分析基盤あるあるのつづき • データが連携されない、連絡がない •
連携データにタブや改行が混じっている • サービスによってカラム名が統一されていない • 障害影響のデータ調査依頼が突然くる • データ分析依頼の要件がざっくりすぎる、追加の依頼が五月雨式にくる • データ修正依頼がある、再集計もあわせて発生 7 2019/11/25 対応 → ジョブコントローラーを開発し、連携遅延データの取込は自動スキップ → Redshiftの機能を使って、不正データは自動で取込除外 → 監視を強化し、クリティカルなアラート以外は朝10時にまとめてアラート通知 → いろいろ対応を実施した結果、現在は夜間のアラートは発生していない
© RecoChoku Co.,Ltd. Proprietary and Confidential 現在と今後 現在は • データ分析基盤の運用はサービス追加以外はほとんどない
• 定常的な運用はすべて自動化済み • DOMO(BIツール≠データプラットフォーム)を有効活用 – データおよびデータ加工処理をDOMO内のRedshiftへ移行し負荷を分散 – データの民主化を実現 – レポート運用自動化 今後はデータ分析、データ活用に注力していく 8 2019/11/25
© RecoChoku Co.,Ltd. Proprietary and Confidential 宣伝 エンジニア採用サイト 9 2019/11/25
エンジニアブログ公開中 https://recruit.recochoku.jp/ https://techblog.recochoku.jp/ 音楽ニュースサイト レコログ https://recochoku.jp/ch/recolog/
© RecoChoku Co.,Ltd. Proprietary and Confidential ありがとうございました 10 2019/11/25