Slide 1

Slide 1 text

October 24, 2025 マイベストのシンプルなデータ基盤の話 - Googleスイートとのつき合い方 複雑さに呑まれないデータ基盤:規模・コスト・運用で見極める “ちょうど良い”設計 (Findy Tools)

Slide 2

Slide 2 text

数年に一度のゲームをする時期。Switch2は買えていない民です ポケモンZA楽しい! 2

Slide 3

Slide 3 text

自己紹介 品原 悠杜 COO室 データサイエンスチーム|データエンジニア 九州大学大学院にてコンピュータビジョンの研究に従事。大手通信企業を経て、 2020 年7月にアイデミー入社。社内データ基盤の立ち上げ〜運用、法人向けDXソリューショ ン事業におけるデータサイエンス領域の業務、データサイエンス組織の統括等に従事。 2024年10月よりマイベストにデータエンジニアとして参画。 ●経歴 @snhrytdesu ライブ・フェス / 料理 ●趣味 某通信企業 → → 3

Slide 4

Slide 4 text

No content

Slide 5

Slide 5 text

いろいろなモノ・コトを徹底的に比較しています 5

Slide 6

Slide 6 text

No content

Slide 7

Slide 7 text

データ基盤アーキテクチャ・選定理由 01

Slide 8

Slide 8 text

現行のアーキテクチャ 8

Slide 9

Slide 9 text

● 2021年頃に立ち上がったアーキテクチャをベースにしている ○ 当時はまだSnowflakeやDatabricksがそこまで台頭しておらず、 DWHの選択肢としてはBigQueryがデファクトだった ● 2024年まで、社内にデータ基盤専任の人材が不在。 データ基盤は当時のCTOが「未来への投資」として片手間で構築・運用 ● 運用にかけられるリソースが限定的だったからこそ、コストは慎重に吟味 ○ Dataform選定の決め手もそのあたりにある ● 2024年10月にデータエンジニア(私)が入社して手をつけてきたのは 大枠のアーキテクチャというより、DWH内のテーブルの改修・拡張 「こうあるべきだからこのツール!」といったニーズベースの組み立てではなく、様々な歴史的経緯を経て今の形に着地 アーキテクチャの選定理由はどちらかというと制約ベース 9 https://note.com/miraoto/n/n9feee6d6cb22

Slide 10

Slide 10 text

そんな前CTOが今月で退職することに 😭 10 渡邊直登さん ありがとうございました!!!! 最終出社時に撮ってもらった記念チェキ

Slide 11

Slide 11 text

● Googleサービス群との相性がいい ● なんやかんやのコストメリット ● 老舗DWHならではの豊富なナレッジ ● Google Cloudの進化(特にAI文脈)にあやかれる DWHをSnowflakeにする、Databricksにする、Transformationをdbtにする、BIをLookerにする、Evidenceにする等 現在は他にもいろいろ選択肢がある中で、改めてこのアーキテクチャを採用し続けることに意味を与えてみる 現アーキテクチャを肯定しよう 11 今日はこれらをメインで話します

Slide 12

Slide 12 text

少しだけ遠回りします 12 ※ 長くはならないのでご安心を

Slide 13

Slide 13 text

前提: マイベストのデータについて 02

Slide 14

Slide 14 text

BigQueryの月間アクティブ利用者数は定常的に150名超え。 社員数は230名程度で推移しているため、利用率でいうと60%超え(ピーク月には80%弱!)という非常に高い水準をキープ。 マイベスト社員の驚異的なデータ基盤利用率 14 ↑よかったらNote読んでください(宣伝)

Slide 15

Slide 15 text

Q. どうしてこんなに利用率が高いの? 15

Slide 16

Slide 16 text

A. 事業の特性上、データ基盤にアクセスで きないとめちゃくちゃ不便だから 16

Slide 17

Slide 17 text

1コンテンツにこれだけのデータが紐づく 17 検索 (SEO) ログ ・対策キーワードの順位 ・検索CTR etc. サービスDB ・商品情報 ・順位、検証スコア etc. ユーザーログ ・セッション ・クリック、CTR ・読了 etc. コンバージョンログ 主要3EC + ASPそれぞれで ・コンバージョン数、CVR ・売上 etc. 広告出稿状況 ・Adsense or 企業広告 ・広告収益 etc. その他 ・各種予算 ・社内管理用メタデータ ・関連YouTube動画 etc.

Slide 18

Slide 18 text

これが数万ページ × Web/App × 数カ国分… 18

Slide 19

Slide 19 text

これを毎回スプシごにょごにょは さすがにムリがあるので … 19

Slide 20

Slide 20 text

単体で利用者の6〜7割のニーズがカバーできる👑王様👑テーブルを作り、使い勝手向上&SSoT化によるデータガバナンス向上 これらを網羅した One Big Tableをデータ基盤上に構築している 20 社内向けに整理したリネージュ。具体のテーブルレベルで見るともっと複雑 kingdom_daily/weekly/monthly という名前でテーブルが実在 (別名だが海外版もあり) 本取り組みの結果、データ基盤の全社利用率が飛躍的に向上 → データ基盤にアクセスできることは「強み」ではなく「基礎」に

Slide 21

Slide 21 text

このテーブルを社員はどう使うか? 21 ・ポイントで数値を見たい ・簡易なグラフのスクショがほしい ・ダッシュボード化したい ・ドリルダウンや絞り込みなど  インタラクティブに操作したい ・変数をいじってシミュレーションしたい ・簡易ダッシュボード化したい

Slide 22

Slide 22 text

Googleサービス群とどう相性がいい? 03

Slide 23

Slide 23 text

このテーブルを社員はどう使うか? 23 ・ポイントで数値を見たい ・簡易なグラフのスクショがほしい ・ダッシュボード化したい ・ドリルダウンや絞り込みなど  インタラクティブに操作したい 他のDWHサービスでもできる 他のDWHサービスでもできる BigQueryやや優遇 ネイティブで対応しているのは BigQueryだけ ・変数をいじってシミュレーションしたい ・簡易ダッシュボード化したい

Slide 24

Slide 24 text

このテーブルを社員はどう使うか? 24 ・ポイントで数値を見たい ・簡易なグラフのスクショがほしい ・ダッシュボード化したい ・ドリルダウンや絞り込みなど  インタラクティブに操作したい 他のDWHサービスでもできる 他のDWHサービスでもできる BigQueryやや優遇 ネイティブで対応しているのは BigQueryだけ ・変数をいじってシミュレーションしたい ・簡易ダッシュボード化したい え、それだけ?

Slide 25

Slide 25 text

スプレッドシート ×BigQueryの強み ● いったんスプレッドシートにデータを持ってきた後に、無限の柔軟性で任意の集計・見せ方ができる ○ それってアンチパターン寄りでは? → Yes. But, 綺麗事だけじゃ通用しない世界がある ○ いろいろ囁かれながらも、未だにExcel・スプシが廃れないのにはそれなりの理由(= 優れたUX)がある ○ なんやかんやで、非エンジニアが最も習熟しているツールはExcel・スプシであることも多い ● データの部分的な編集が可能 ○ テーブル本体の値をガイドラインとして、値を部分的に編集してシミュレーションしたりできる ■ 直接テーブルデータを上書きするわけではないので、データ破壊のリスクがない ○ e.g. 予算策定時の利用 こういったことが、ネイティブの機能で実現できる点は、十分に BigQueryの強力な優位性と言えるだろう スプシは単なるツールじゃない。インフラだ 25

Slide 26

Slide 26 text

● BigQuery Studio、スプレッドシート、 Looker Studio すべての利用状況を BigQueryの INFORMATION_SCHEMA からユーザー単位でトラッキング可能 ○ 金食い虫になっている野良のスプシ、Looker Studioなども検出可能 ○ (細かい話として、スプシのURLのみ audit_log の接続が必要) ● Google Analytics, Google Tag Manager, Google Search Console, YouTube等とのデータ連携がスムーズ ● Looker Studioで、BigQueryと接続したときにしか使えない機能がある ○ BI Engine ○ BigQueryにエクスポートされたGoogle Analyticsテーブルの指標自動作成 その他Googleサービス群との相性のよさ 26

Slide 27

Slide 27 text

なんやかんやのコストメリット 04

Slide 28

Slide 28 text

そして最後に BigQueryを使うことの最大の福利厚生 … 28

Slide 29

Slide 29 text

dbtが席巻している領域ではあるが、まだまだDataformも現役級 Dataformが選択肢に入る! 29 Findy Toolsさんに寄稿させていただいた 記事 より抜粋 国内でMeetupイベントだって開かれちゃう(宣伝)(2回目企画しなきゃ…)

Slide 30

Slide 30 text

Dataform, Looker Studioが無償なおかげで、データ基盤トータルのランニングコストは比較的抑えられている(はず) 無償万歳 30 Extract & Load DWH Transformation BI マイベストの構成 💰 TROCCO / Cloud Functions 💰 BigQuery Dataform Looker Studio / スプレッドシート よく見る構成 💰 Fivetran 💰 Snowflake 💰 dbt (Cloud or Core) 💰Looker

Slide 31

Slide 31 text

Conclusion 05

Slide 32

Slide 32 text

● 時間をとって、ちゃんと他のデータスタックに触れてみる ○ 前半で言及したとおり、直近でしっかり吟味したうえでのアーキテクチャではない ○ 他に最適な形があるのか、はたまた吟味したうえで現行の形が最適なのかを考える必要あり ● 分析AIエージェントの構築と、それを見据えた全体アーキテクチャ設計 ○ 分析AIエージェントのたたきは作ってはいるがまだまだ模索中(この話はまたどこか別の機会に) 今後の課題 32

Slide 33

Slide 33 text

● Googleサービス群との相性がいい ○ スプシとのネイティブ連携は BigQueryの強み ● なんやかんやのコストメリット ○ DataformはBigQuery利用者の福利厚生 ● 老舗DWHならではの豊富なナレッジ ● Google Cloudの進化(特にAI文脈)にあやかれる まとめ: 現在のアーキテクチャの採用理由(後付け) 33

Slide 34

Slide 34 text

Thank you