Slide 1

Slide 1 text

© CADDi Inc. © CADDi Inc. 1 最速最⼩からはじめるデータプロダクト キャディ株式会社 鈴⽊天⾳ @SakuEji

Slide 2

Slide 2 text

© CADDi Inc. 2 うちは業界でも独⾃のデータを持ってるので、これを活⽤するんです!

Slide 3

Slide 3 text

© CADDi Inc. 3 いいね! うちは業界でも独⾃のデータを持ってるので、これを活⽤するんです!

Slide 4

Slide 4 text

© CADDi Inc. 4 うちは業界でも独⾃のデータを持ってるので、これを活⽤するんです! あぶない!

Slide 5

Slide 5 text

© CADDi Inc. 5 うちは業界でも独⾃のデータを持ってるので、これを活⽤するんです! とくに あぶない!

Slide 6

Slide 6 text

© CADDi Inc. 6 うちは業界でも独⾃のデータを持ってるので、これを活⽤するんです! とくに あぶない! じゃあ、どうするの? という話をします

Slide 7

Slide 7 text

© CADDi Inc. 7 うちは業界でも独⾃のデータを持ってるので、これを活⽤するんです! とくに あぶない! 最速最⼩から始めよう 結論

Slide 8

Slide 8 text

© CADDi Inc. ● DS → MLE → PdM → データエンジニア 兼 PdM ● Kaggle Master ● ⾼校⽣に AI を教える授業をたまにやってます ● LoL の世界⼤会の決勝が 11/2 にあるので 望まれればその話を3時間します #T1WIN 鈴⽊天⾳です。よろしくお願いします 8

Slide 9

Slide 9 text

© CADDi Inc. CADDi Drawer / CADDi Quote 9

Slide 10

Slide 10 text

© CADDi Inc. 10

Slide 11

Slide 11 text

© CADDi Inc. 社内向けデータ分析基盤の整備を進めてきた 11 〜 2023年9⽉ 2023年10⽉〜12⽉ 2024年1⽉〜3⽉ 2024年4⽉〜 ⼀⾔で⾔うと ごく⼀部が利⽤ データ基盤 爆速⽴ち上げ 仕組み整備と 利⽤者拡⼤ データで新しい 価値を届ける 導⼊ツール BigQuery trocco Looker Studio dbt データ エンジニア数 0 1 2 4 いわゆる「データ分析基盤」ができた

Slide 12

Slide 12 text

© CADDi Inc. よくある BigQuery を利⽤したデータ基盤です 12 データレイク データウェアハウス データマート

Slide 13

Slide 13 text

© CADDi Inc. データ基盤をつくった流れはこちらのスライドで 13 https://speakerdeck.com/amaotone/data-platform-development-starting-from-the-user-needs

Slide 14

Slide 14 text

© CADDi Inc. 社内向けデータ分析基盤のその先へ 14 〜 2023年9⽉ 2023年10⽉〜12⽉ 2024年1⽉〜3⽉ 2024年4⽉〜 ⼀⾔で⾔うと ごく⼀部が利⽤ データ基盤 爆速⽴ち上げ 仕組み整備と 利⽤者拡⼤ データで新しい 価値を届ける 導⼊ツール BigQuery trocco Looker Studio dbt データ エンジニア数 0 1 2 4 社内向け分析基盤を超えて ユーザーに価値を届けたい

Slide 15

Slide 15 text

© CADDi Inc. 社外のユーザーにもデータの価値を届けるには? 15 データレイク データウェアハウス データマート 社内ユーザー 社外ユーザー

Slide 16

Slide 16 text

© CADDi Inc. 前提|「データがある」と「使える」にはギャップがある きれいじゃないとか ⼿軽に取り出せないとか 16 id name age created_at score 1.0 Alice 24.0 2021-07-15 88 2.0 Bob 07-20-2021 3.0 29.0 2021/07/25 85 4.0 Daisy 31.0 92 5.0 Evan 2021-07-29 95

Slide 17

Slide 17 text

© CADDi Inc. データを使えるようにする⼿段はたくさん語られてきた ● クラウドサービス(BigQuery, Snowflake)を利⽤したデータ基盤構築 ● dbt を利⽤した ELT パイプライン ● Dimensional Modeling や Data Vault といったデータモデリング ● テストと Elementary を利⽤したデータ品質管理 ● dbt Docs などのデータカタログ 17

Slide 18

Slide 18 text

© CADDi Inc. データはある程度使えるようになったが プロダクト化するにはもう⼀段ハードルがある 18

Slide 19

Slide 19 text

© CADDi Inc. データが使える ≠ データが使われる データを⾒せることが先⾏するあまり ユーザーが扱えないアウトプットになる 今あるデータを使うことに集中するあまり 本来取りに⾏くべきデータを取るのが遅れる 19

Slide 20

Slide 20 text

© CADDi Inc. 20 うちは業界でも独⾃のデータを持ってるので、これを活⽤するんです! とくに あぶない! 最速最⼩から始めよう 結論

Slide 21

Slide 21 text

© CADDi Inc. 本発表で想定している「データプロダクト」 21 データを蓄積して 取り出すもの データを分析して 届けるもの データを学習した アルゴリズムを 利⽤するもの ● データ管理SaaS ● データ提供API ● ダッシュボード ● アナリティクス ● 推薦システム ● 異常検知システム

Slide 22

Slide 22 text

© CADDi Inc. 本発表で想定している「データプロダクト」 22 データを蓄積して 取り出すもの データを分析して 届けるもの データを学習した アルゴリズムを 利⽤するもの ● データ管理SaaS ● データ提供API ● ダッシュボード ● アナリティクス ● 推薦システム ● 異常検知システム だいたいこのあたり データを出し⼊れするだけではなく 集計‧分析機能を提供したくなったら

Slide 23

Slide 23 text

© CADDi Inc. © CADDi Inc. 最速最⼩から始めるって なんだ? 23

Slide 24

Slide 24 text

© CADDi Inc. 俗に⾔う MVP = Minimum Viable Product のこと 24 ユーザーが価値を体験できるという制約のもとで、最も⼩さく作ったもの https://x.com/jopas/status/515301088660959233

Slide 25

Slide 25 text

© CADDi Inc. データプロダクトはプロダクトです(それはそう) 25 プロダクト開発で⼀番怖いのは「誰にも使われないこと」 通常のプロダクト開発であれば、 ⼩さく作ってユーザーからフィードバックをもらうサイクルが知られてきている ⽬の前になまじデータがあると「いまあるデータを」使うという発想になりがち

Slide 26

Slide 26 text

© CADDi Inc. データプロダクトの検証で確認したいこと 26 早めに考えたいこと ● そもそも分析があればユーザーの課題は解決するのか ● ユーザーに刺すために新しく集めないといけないデータはあるか ● 全ユーザー共通の分析 ↔ ユーザー個別のカスタマイズ の境界線をどこに置くか その後すぐに考えたいことの例 ● データ基盤のセキュリティで強化しないといけない部分があるか ● データプロダクトを提供することでその他のプロダクトとシナジーがあるか

Slide 27

Slide 27 text

© CADDi Inc. © CADDi Inc. 最速最⼩を 実現する⼿段 27

Slide 28

Slide 28 text

© CADDi Inc. 紙に絵を書く / Figma でプロトタイピング 28 システムを作らずに済むなら⼀番良い 紙 / Figma でプロトタイプを⽤意して、それを⼀緒に⾒ながら議論する これだともうちょっと 掘り下げて⾒たくなるなぁ こんな感じで⾒せれば 〇〇が実現できますかね?

Slide 29

Slide 29 text

© CADDi Inc. Excel / Spreadsheet で使ってもらう 29 データを Excel に出⼒し、⼿動でユーザーに提供する メリット ● データ基盤と切り離すことができるため、セキュリティ上の懸念が減る ● 提供したものをさらに加⼯して使ってもらうことで、 どこまで踏み込めばいいのか検証できる デメリット ● データの⾃動更新まわりを検証するのが⾯倒 ○ 同じ会社内ならコネクテッドシートで⼀定解決する

Slide 30

Slide 30 text

© CADDi Inc. BI ツールを活⽤する 30 ある程度データ基盤が整っている状態であれば、BI ツールも使いやすい 権限制御も組み込まれていることが多く、ユーザーに触ってもらうこともやりやすい ● PDFでのレポート⽣成 ○ ダッシュボードからレポートPDFを出⼒し、ユーザーに定期的に送る ● ダッシュボード埋め込み ○ 既にアプリがあるならダッシュボードを埋め込むのも便利 ● Viewerとして招待

Slide 31

Slide 31 text

© CADDi Inc. Streamlit でデモする 31 Python スクリプトがそのままインタラクティブな Web アプリになるツール ユーザー⼊⼒に応じた分析‧可視化ができるので、⼿元の PC でデモするのに便利 Web 上で公開して使ってもらうとなると認証周りは別途作る必要がある (Streamlit Cloud で⼀定解決可?) https://streamlit.io/

Slide 32

Slide 32 text

© CADDi Inc. 例|CADDi のデモ基盤 32 GitHub に push するだけで社内向けの認証がついたデモアプリを作れる基盤がある GitHub Actions で⾃動デプロイ ブランチごとに別アプリが⽴つ 社内認証 Cloud IAP Cloud Run + Streamlit BigQuery

Slide 33

Slide 33 text

© CADDi Inc. © CADDi Inc. 最速最⼩を 実現する環境 33

Slide 34

Slide 34 text

© CADDi Inc. データ基盤が整っていると初速が速いのは間違いない 34 ● BIツールに必要なデータをシュッと出せたり ● Excel/Spreadsheetにコネクテッドシートでシュッと出せたり ● 権限が管理されているデータセットをシュッと切り出せたり ● データの品質も⾼く、鮮度も保証されていたり などが実現されていればデータプロダクトへの⼀歩を踏み出しやすいのは確か

Slide 35

Slide 35 text

© CADDi Inc. チームの体制を整える 35 CADDi のデータチームは エンジニア4名 + アナリスト2名 (あまり業務に差はない) 価値検証フェーズのプロジェクトにはペア以上で⼊り、分析と仕組みの⽤意を並列化 プロジェクトA プロジェクトB 基盤整えたりする

Slide 36

Slide 36 text

© CADDi Inc. チームを超えて協⼒する 36 CADDi のデータマネジメントチームは CS チームと頻繁に話すようにしている ● 顧客に近く、感覚を共有している ● CS 業務の中ですでに顧客の利⽤状況を分析し、⽀援している ● CS 業務の仕組み化を進める中で、データを⾒る習慣が根付いている

Slide 37

Slide 37 text

© CADDi Inc. とにかくゴールから考えよう 37 最終的にユーザーに使われるデータプロダクトを作ることがゴール ● いまあるデータ ● いま使っているツール ● いまのプロジェクト体制 に囚われず、使えるものはなんでも使って価値を検証しよう

Slide 38

Slide 38 text

© CADDi Inc. まとめ 38 1. データがあるので活⽤したい、は危険 ○ データがある ↔ データが使える のギャップがそもそもある ○ 今あるデータに発想が縛られ、ユーザーが求めていないものに着地しやすい 2. 最速最⼩から始めよう ○ ユーザーからフィードバックをもらう⼿段はたくさんある ○ いまあるデータやツール、体制にとらわれずに最速最⼩でリリースしよう

Slide 39

Slide 39 text

39