Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
「北欧、暮らしの道具店」のデータ基盤の変遷
Search
ikeda-masashi
November 15, 2022
Technology
3.7k
1
Share
「北欧、暮らしの道具店」のデータ基盤の変遷
https://kurashi.com/news/13050
11/15(火) 19:00 ~
「北欧、暮らしの道具店」データ分析チームのトークセッション vol.2
登壇資料。
ikeda-masashi
November 15, 2022
More Decks by ikeda-masashi
See All by ikeda-masashi
コーディングエージェントに 独自Extension書かせてみた
mashiike
0
78
Redshiftを中心としたAWSでのデータ基盤
mashiike
0
320
運用の役立たないダッシュボードの作り方。
mashiike
3
1.2k
Amazon Aurora MySQL と Amazon Redshift の Zero-ETL Integration について使い所を考えてみた!
mashiike
0
1k
Warningアラートを放置しない!アラート駆動でログやメトリックを自動収集する仕組みによる恩恵
mashiike
6
5k
Prepalert ~Mackerelアラートにログや集計値を貼り付けてくれるトイル削減ツール~
mashiike
0
2.1k
人狼ゲームで考えるデータ基盤 〜データとはいったい・・・〜
mashiike
0
460
『エンタープライズ』という言葉の重さ 〜Data Vault 2.0をやめた2022年冬〜
mashiike
2
6k
Redshift ServerlessとProvisioned Cluster のちょっとした違い
mashiike
0
7.2k
Other Decks in Technology
See All in Technology
AIと乗り切った1,500ページ超のヘルプサイト基盤刷新とさらにその先の話
mugi_uno
2
310
フロントエンドの相手が変わった - AIが加わったWebの新しいインターフェース設計
azukiazusa1
33
10k
SLI/SLO、「完全に理解した」から「チョットデキル」へ
maruloop
1
120
エンタープライズの厳格な制約を開発者に意識させない:クラウドネイティブ開発基盤設計/cloudnative-kaigi-golden-path
mhrtech
0
210
The 7 pitfalls of AI
ufried
0
190
ボトムアップの改善の火を灯し続けろ!〜支援現場で学んだ、消えないための3つの打ち手〜 / 20260509 Kazuki Mori
shift_evolve
PRO
2
570
GKE Agent SandboxでAIが生成したコードを 安全に実行してみた
lamaglama39
0
200
「SaaSの次の時代」に重要性を増すステークホルダーマネジメントの要諦 ~解像度を圧倒的に高めPdMの価値を最大化させる方法~
kakehashi
PRO
3
3.8k
CyberAgent YJC Connect
shimaf4979
1
160
UIライブラリに依存しすぎないReact Native設計を目指して
grandbig
0
200
Microsoft 365 / Microsoft 365 Copilot : 自分の状態を確認する「ラベル」について
taichinakamura
0
460
バイブコーディングで3倍早く⚪⚪を作ってみた
samakada
0
220
Featured
See All Featured
Optimising Largest Contentful Paint
csswizardry
37
3.7k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
130
Reality Check: Gamification 10 Years Later
codingconduct
0
2.1k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
160
Color Theory Basics | Prateek | Gurzu
gurzu
0
300
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.2k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
140
Transcript
「北欧、暮らしの道具店」のデータ 基盤の変遷 〜データ基盤の変遷は 意思決定のボトルネックとともに〜
自己紹介/会社紹介 池田 将士 (@mashiike) 面白法人カヤック その他事業部 SREチーム所属 データエンジニア/サーバーサイドエンジニア 出身: 千葉県
趣味: オンラインゲームと食べ比べ、飲み比べ 鎌倉が本拠地 Web技術が得意な会社 面白そうな事をやる エンジニアが多い
「北欧、暮らしの道具店」とカヤックの関係 伴走型支援 エンジニアリングリソース 採用ノウハウ etc… カヤックは技術が強みの会社 エンジニアの数がとても多い 「北欧、暮らしの道具店」に技術的に関わっていくパート ナーの立ち位置にいます。 +成功事例
アジェンダ • データ基盤の変遷は??? • 「北欧、暮らしの道具店」のデータ基盤の変遷 ◦ 創世記: ◦ 出MySQL記: ◦
Looker記: ◦ そして未来へ: …
データ基盤の変遷は??? ズバリ。「意思決定のパフォーマンスチューニング」
データ基盤の変遷は??? 何かしらの意思決定で必要な分析に関して • レスポンスタイム (分析が必要になったときに素早く結果を返せる能力 ) • スループット(一定期間に分析できる能力 ) •
安定性(必要なときに分析できる能力 ) • etc… これらに困ったことが起きるとき、データ基盤の変遷は起こる。 ズバリ。「意思決定のパフォーマンスチューニング」
データ基盤の変遷は??? 何かしらの意思決定で必要な分析に関して • レスポンスタイム (分析が必要になったときに素早く結果を返せる能力 ) • スループット(一定期間に分析できる能力 ) •
安定性(必要なときに分析できる能力 ) • etc… これらに困ったことが起きるとき、データ基盤の変遷は起こる。 ズバリ。「意思決定のパフォーマンスチューニング」 つまり、データ基盤の変遷は「分析に関するボトルネックの特定」とともにある そして、ボトルネックは移動する データ基盤の変遷は段階的に起きる
「北欧、暮らしの道具店」のデータ基盤の変遷 創世記: 出MySQL記: ボトルネック: 高度な集計クエリ & アプリデータと統合した分析
「北欧、暮らしの道具店」のデータ基盤: 創世記 Webのアクセスデータは Google Analytics 注文・会員情報 etc…は MySQL (Redash)
「北欧、暮らしの道具店」のデータ基盤: 創世記 Webのアクセスデータは Google Analytics 注文・会員情報 etc…は MySQL (Redash) 「北欧、暮らしの道具店」
アプリリリースにより状況が変わる 登場
「北欧、暮らしの道具店」のデータ基盤: 創世記 課題: • 基幹DBとFirebase&GA4のデータをか け合わせたアプリの分析が困難 • MySQLでの集計クエリの実行時間が長 い ボトルネックは分析用DB(MySQL)
そして、出MySQL記へ すべてのデータをBigQueryへ集約
そして、出MySQL記へ すべてのデータをBigQueryへ集約 [余談] 後日、同じことをする OSSツールも開発 https://github.com/kayac/mascaras Viewを使ってExportする方法もあるが、 開発目的でMaskされたSnapshotがほしいケースも あったのでこの方式にした。
そして、出MySQL記へ すべてのデータをBigQueryへ集約
そして、出MySQL記へ すべてのデータをBigQueryへ集約 本番で現在も稼働中 https://github.com/kayac/bqin
そして、出MySQL記へ すべてのデータをBigQueryへ集約
そして、出MySQL記へ すべてのデータをBigQueryへ集約 BigQueryで分析が完結するようになった結果 「SQLが書ける人」に分析のオーダーが集まった! クラシコムさんでは 「SQLを書ける人」が実は少ない。 ボトルネックが に移動した。
そして、出MySQL記へ ボトルネック
そして、出MySQL記へ ボトルネック FirebaseとGoogle Analyticsのデータを生で見るのは大変 Scheduled Queryで加工処理して分析しやすくしていた FirebaseとGoogle AnalyticsのExport 実は出力される時刻が不安定 ※最大で72時間遅れることがある
Scheduled Queryによるデータマート生成も 実は地味にボトルネック
そして、出MySQL記へ ボトルネック
「北欧、暮らしの道具店」のデータ基盤の変遷 出MySQL記: ボトルネック: 「SQLをかける人」およびRedash Scheduled Queryによるデータマート生成 Looker記:
Looker導入 出MySQL記のあるとき、海外で密かに噂になっていた がやってきた。 導入の決め手になったのは • LookMLによるSQL自動生成と使用感の良いUI • PDT(Persistent Derived Table)とDatagroup
Triggerを使ったデータマート生成
Looker導入 LookMLによるSQL自動生成と使用感の良いUI Business User自身はSQLを書く必要がない! 「SQLを書ける人」に依存するという 使用時のボトルネックを解決 データチームはLookMLを書きまくる。
Looker導入 PDT(Persistent Derived Table)とDatagroup Triggerを使ったデータマート生成 がLooker Forumで見つけてきたLookerのハック(裏技) Lookerによるデータマート生成:データ遅延にも対応可能
こうして、Looker記(現代)へ
こうして、Looker記(現代)へ 創世記から約2年、様々な分析の役に立ってきた? Looker記のデータ基盤 思えば、きっかけはアプリリリースだった。 https://prtimes.jp/main/html/rd/p/000000068.000024748.html
こうして、Looker記(現代)へ Looker記(現代)のボトルネックの生みの親は LookML複雑すぎ問題! PDT, Liquid, 多段Explore, 隠しExplore etc… LookMLの改変・メンテナンスコストが爆増 あのときは、イケてるツールに触れてテンション上がってたんですよね・・・
「北欧、暮らしの道具店」のデータ基盤の変遷(現在進行系) ボトルネック: が生み出した複雑過ぎるLookMLたち Looker記(現代): そして未来へ:
そして未来へ そもそも、LookerはBIツールなのでデータマート生成はある意味目的外利用 create_processのデータマート生成 ワークフローアプリケーション or ETL SaaS 餅は餅屋に!!!
そして未来へ データマートを作るコストが高いため、 LiquidやDerived Tableを多用して複雑化 データマートを2次加工してExploreを作る 1 Explore 1データマート が理想
そこで、出てくるのがETL SaaS
そこで、出てくるのがETL SaaS の複雑さ 餅は餅屋に移行して、管理しやすくする
そこで、出てくるのがETL SaaS の複雑さ 餅は餅屋に移行して、管理しやすくする それが「北欧、暮らしの道具店」のデータ基盤の Next Generation 今ならLookerと相性の良いと言われる dbtがtroccoで使える
まとめ • データ基盤の変遷は「意思決定のボトルネック」と共にある。 意思決定に必要な分析のパフォーマンスチューニング! • ボトルネックは常に移動する。 その時、その時の状況に合わせたデータ基盤の変遷は大事 • 最終的に、その時の分析の役に立っていればそれでよし! 常に、未来のことを考えよう。