Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最速最小からはじめるデータプロダクト / Data Product MVP

最速最小からはじめるデータプロダクト / Data Product MVP

データプロダクトを作ろう!となったとき、目の前にデータがあるがゆえに初手から大きなデータプロダクトを構想しがちです。
この発表では、データエンジニアだから取れる、データプロダクトの価値検証手段を紹介します。

DataOps Night #5 での登壇資料です
https://finatext.connpass.com/event/333016/

Amane Suzuki

October 30, 2024
Tweet

More Decks by Amane Suzuki

Other Decks in Technology

Transcript

  1. © CADDi Inc. • DS → MLE → PdM →

    データエンジニア 兼 PdM • Kaggle Master • ⾼校⽣に AI を教える授業をたまにやってます • LoL の世界⼤会の決勝が 11/2 にあるので 望まれればその話を3時間します #T1WIN 鈴⽊天⾳です。よろしくお願いします 8
  2. © CADDi Inc. 社内向けデータ分析基盤の整備を進めてきた 11 〜 2023年9⽉ 2023年10⽉〜12⽉ 2024年1⽉〜3⽉ 2024年4⽉〜

    ⼀⾔で⾔うと ごく⼀部が利⽤ データ基盤 爆速⽴ち上げ 仕組み整備と 利⽤者拡⼤ データで新しい 価値を届ける 導⼊ツール BigQuery trocco Looker Studio dbt データ エンジニア数 0 1 2 4 いわゆる「データ分析基盤」ができた
  3. © CADDi Inc. 社内向けデータ分析基盤のその先へ 14 〜 2023年9⽉ 2023年10⽉〜12⽉ 2024年1⽉〜3⽉ 2024年4⽉〜

    ⼀⾔で⾔うと ごく⼀部が利⽤ データ基盤 爆速⽴ち上げ 仕組み整備と 利⽤者拡⼤ データで新しい 価値を届ける 導⼊ツール BigQuery trocco Looker Studio dbt データ エンジニア数 0 1 2 4 社内向け分析基盤を超えて ユーザーに価値を届けたい
  4. © CADDi Inc. 前提|「データがある」と「使える」にはギャップがある きれいじゃないとか ⼿軽に取り出せないとか 16 id name age

    created_at score 1.0 Alice 24.0 2021-07-15 88 2.0 Bob 07-20-2021 3.0 29.0 2021/07/25 85 4.0 Daisy 31.0 92 5.0 Evan 2021-07-29 95
  5. © CADDi Inc. データを使えるようにする⼿段はたくさん語られてきた • クラウドサービス(BigQuery, Snowflake)を利⽤したデータ基盤構築 • dbt を利⽤した

    ELT パイプライン • Dimensional Modeling や Data Vault といったデータモデリング • テストと Elementary を利⽤したデータ品質管理 • dbt Docs などのデータカタログ 17
  6. © CADDi Inc. 本発表で想定している「データプロダクト」 21 データを蓄積して 取り出すもの データを分析して 届けるもの データを学習した

    アルゴリズムを 利⽤するもの • データ管理SaaS • データ提供API • ダッシュボード • アナリティクス • 推薦システム • 異常検知システム
  7. © CADDi Inc. 本発表で想定している「データプロダクト」 22 データを蓄積して 取り出すもの データを分析して 届けるもの データを学習した

    アルゴリズムを 利⽤するもの • データ管理SaaS • データ提供API • ダッシュボード • アナリティクス • 推薦システム • 異常検知システム だいたいこのあたり データを出し⼊れするだけではなく 集計‧分析機能を提供したくなったら
  8. © CADDi Inc. 俗に⾔う MVP = Minimum Viable Product のこと

    24 ユーザーが価値を体験できるという制約のもとで、最も⼩さく作ったもの https://x.com/jopas/status/515301088660959233
  9. © CADDi Inc. データプロダクトの検証で確認したいこと 26 早めに考えたいこと • そもそも分析があればユーザーの課題は解決するのか • ユーザーに刺すために新しく集めないといけないデータはあるか

    • 全ユーザー共通の分析 ↔ ユーザー個別のカスタマイズ の境界線をどこに置くか その後すぐに考えたいことの例 • データ基盤のセキュリティで強化しないといけない部分があるか • データプロダクトを提供することでその他のプロダクトとシナジーがあるか
  10. © CADDi Inc. 紙に絵を書く / Figma でプロトタイピング 28 システムを作らずに済むなら⼀番良い 紙

    / Figma でプロトタイプを⽤意して、それを⼀緒に⾒ながら議論する これだともうちょっと 掘り下げて⾒たくなるなぁ こんな感じで⾒せれば 〇〇が実現できますかね?
  11. © CADDi Inc. Excel / Spreadsheet で使ってもらう 29 データを Excel

    に出⼒し、⼿動でユーザーに提供する メリット • データ基盤と切り離すことができるため、セキュリティ上の懸念が減る • 提供したものをさらに加⼯して使ってもらうことで、 どこまで踏み込めばいいのか検証できる デメリット • データの⾃動更新まわりを検証するのが⾯倒 ◦ 同じ会社内ならコネクテッドシートで⼀定解決する
  12. © CADDi Inc. BI ツールを活⽤する 30 ある程度データ基盤が整っている状態であれば、BI ツールも使いやすい 権限制御も組み込まれていることが多く、ユーザーに触ってもらうこともやりやすい •

    PDFでのレポート⽣成 ◦ ダッシュボードからレポートPDFを出⼒し、ユーザーに定期的に送る • ダッシュボード埋め込み ◦ 既にアプリがあるならダッシュボードを埋め込むのも便利 • Viewerとして招待
  13. © CADDi Inc. Streamlit でデモする 31 Python スクリプトがそのままインタラクティブな Web アプリになるツール

    ユーザー⼊⼒に応じた分析‧可視化ができるので、⼿元の PC でデモするのに便利 Web 上で公開して使ってもらうとなると認証周りは別途作る必要がある (Streamlit Cloud で⼀定解決可?) https://streamlit.io/
  14. © CADDi Inc. 例|CADDi のデモ基盤 32 GitHub に push するだけで社内向けの認証がついたデモアプリを作れる基盤がある

    GitHub Actions で⾃動デプロイ ブランチごとに別アプリが⽴つ 社内認証 Cloud IAP Cloud Run + Streamlit BigQuery
  15. © CADDi Inc. データ基盤が整っていると初速が速いのは間違いない 34 • BIツールに必要なデータをシュッと出せたり • Excel/Spreadsheetにコネクテッドシートでシュッと出せたり •

    権限が管理されているデータセットをシュッと切り出せたり • データの品質も⾼く、鮮度も保証されていたり などが実現されていればデータプロダクトへの⼀歩を踏み出しやすいのは確か
  16. © CADDi Inc. チームの体制を整える 35 CADDi のデータチームは エンジニア4名 + アナリスト2名

    (あまり業務に差はない) 価値検証フェーズのプロジェクトにはペア以上で⼊り、分析と仕組みの⽤意を並列化 プロジェクトA プロジェクトB 基盤整えたりする
  17. © CADDi Inc. チームを超えて協⼒する 36 CADDi のデータマネジメントチームは CS チームと頻繁に話すようにしている •

    顧客に近く、感覚を共有している • CS 業務の中ですでに顧客の利⽤状況を分析し、⽀援している • CS 業務の仕組み化を進める中で、データを⾒る習慣が根付いている
  18. © CADDi Inc. まとめ 38 1. データがあるので活⽤したい、は危険 ◦ データがある ↔

    データが使える のギャップがそもそもある ◦ 今あるデータに発想が縛られ、ユーザーが求めていないものに着地しやすい 2. 最速最⼩から始めよう ◦ ユーザーからフィードバックをもらう⼿段はたくさんある ◦ いまあるデータやツール、体制にとらわれずに最速最⼩でリリースしよう
  19. 39