Slide 1

Slide 1 text

© CADDi Inc. © CADDi Inc. 1 使われないものを作るな! 出⼝から作るデータ分析基盤 キャディ株式会社 鈴⽊天⾳ 播磨尚志

Slide 2

Slide 2 text

© CADDi Inc. 2 「データ分析基盤を作ってください」 と⾔われて 最初に何を考えますか?

Slide 3

Slide 3 text

© CADDi Inc. 3

Slide 4

Slide 4 text

© CADDi Inc. 4 ツールが思い浮かんだ⼈は要注意

Slide 5

Slide 5 text

© CADDi Inc. 5 ⼤事なのは「ニーズ」

Slide 6

Slide 6 text

© CADDi Inc. 6 ⼤事なのは「ニーズ」 という話をします

Slide 7

Slide 7 text

© CADDi Inc. 7 設計 調達 製造 販売 CADDi Drawer サプライチェーンにまつわる上流‧下流のデータを相互に補完し合う CADDi について簡単に紹介します CADDi Manufacturing 部品調達プラットフォーム 調達‧⽣産機能の⼀括請負による モノからサプライチェーンを変⾰ technology knowledge 図⾯データ活⽤クラウド 図⾯とその周辺データの資産化による データからサプライチェーンを変⾰

Slide 8

Slide 8 text

© CADDi Inc. 鈴⽊ 天⾳ ● Drawer のデータマネジメント ● DS → MLE → PdM → データエンジニア ● たまに⾼校⽣に AI を教えています ● Kaggle Master ● 最近 LoL の世界⼤会がアツすぎる 播磨 尚志 ● Manufacturing のデータマネジメント ● コンサル → 事業会社へ ● 協⼒会社のQCD改善標準化 → データエンジニア ● 趣味は⼦育て/ゲーム/⽇曜⼤⼯/⾃転⾞ よろしくお願いします 8

Slide 9

Slide 9 text

© CADDi Inc. CADDi Drawer のデータ活⽤の歴史 9 〜 2023年9⽉ 2023年10⽉〜12⽉ 2024年1⽉〜3⽉ 2024年4⽉〜 ⼀⾔で⾔うと ごく⼀部が利⽤ データ基盤 爆速⽴ち上げ 仕組み整備と 利⽤者拡⼤ データで新しい 価値を届ける 導⼊ツール BigQuery trocco Looker Studio dbt データ エンジニア数 0 1 2 4

Slide 10

Slide 10 text

© CADDi Inc. CADDi Drawer のデータ活⽤の歴史 10 〜 2023年9⽉ 2023年10⽉〜12⽉ 2024年1⽉〜3⽉ 2024年4⽉〜 ⼀⾔で⾔うと ごく⼀部が利⽤ データ基盤 爆速⽴ち上げ 仕組み整備と 利⽤者拡⼤ データで新しい 価値を届ける 導⼊ツール BigQuery trocco Looker Studio dbt データ エンジニア数 0 1 2 4 このあたりの話をします

Slide 11

Slide 11 text

© CADDi Inc. © CADDi Inc. 「使われるデータ基盤」 を作ろう 11

Slide 12

Slide 12 text

© CADDi Inc. 存在するデータを⽚っ端からデータ基盤に⼊れたら? 12 プロダクトのデータベースは当然連携するとして、Salesforceのデータも あったら便利そうだな。このチームではスプシでデータ管理してるからそ れも⼊れたほうがいいのかな。ログもあると分析の幅が広がるかな…… 後で追加するの⾯倒そうだし使いそうなデータは全部⼊れよう!

Slide 13

Slide 13 text

© CADDi Inc. そして来る問い合わせの嵐 13 Salesforceのデータおかしくない? これじゃ分析できないよ ユーザーの⾏動分析したいんだけど SQLの書き⽅わからないから助けて ここの集計ロジックどうなってます? うちの部署の数値と違うんだけど ⽬的のテーブル⾒つからないし いまいち使いづらいな……

Slide 14

Slide 14 text

© CADDi Inc. まずはデータに関するニーズを調べよう 14 ● 誰も使わないものを作るのが⼀番⽣産性が低い ● 想像で作ったものはたいてい使われない ● 使いにくいという印象を持たれると野良データが増えてつらい

Slide 15

Slide 15 text

© CADDi Inc. CADDi Drawer のデータ活⽤の歴史 15 〜 2023年9⽉ 2023年10⽉〜12⽉ 2024年1⽉〜3⽉ 2024年4⽉〜 ⼀⾔で⾔うと ごく⼀部が利⽤ データ基盤 爆速⽴ち上げ 仕組み整備と 利⽤者拡⼤ データで新しい 価値を届ける 導⼊ツール BigQuery trocco Looker Studio dbt データ エンジニア数 0 1 2 4

Slide 16

Slide 16 text

© CADDi Inc. ニーズを知るため、各チームへのヒアリングを⾏う 16 職種を問わずヒアリングをし、情報の流れを調べる ● 「普段の仕事で使っているツールを教えて下さい」 ● 「このKPIの元となる数値ってどこにありますか?」 ● 「KPIは誰がどれくらいの頻度で確認してます?」 ● 「いま何の分析に⼯数を使っていますか?」 網羅的に聞くより、⽇常的に使⽤するものを優先的に探る ヒアリングを進める過程で 各チームの中にデータと向き合う仲間を作る

Slide 17

Slide 17 text

© CADDi Inc. ヒアリングでわかったこと 17 ● みんなデータを⾒ようとはしている ☺ ● 最新の数値を報告するため⼯数を多く使っている ○ スプレッドシートでの分析が中⼼ ○ データソースからスプシに ⽣データを⼿でコピペしているケースも存在 ● 数値の引⽤‧孫引きが多く存在し、 数値の正しさを保証することが難しい

Slide 18

Slide 18 text

© CADDi Inc. どこから着⼿するかを決める 18 ● メンバーが⽇常業務で使っているデータ ● リーダーの意思決定に必要なデータ を中⼼に着⼿する優先順位を決める ボトムアップとトップダウン、 両⽅のユースケースをカバーすると理解が得やすい

Slide 19

Slide 19 text

© CADDi Inc. ユースケースの優先度の⾒極め 19 実際の物を取り扱う事業では、会計/契約に近いユースケースが確度が⾼そう 事例1 Bad 事例 ● 案件の進捗管理(ステータス別の滞留リードタイム計測) ● 会計/契約から遠いユースケース ● そこそこ⼯数を投⼊して整備するも、業務側の運⽤変更に伴い消滅 事例2 Good 事例 ● 良品率の分析、サプライパートナーの分析 ● 会計/契約から近いユースケース ● 導⼊後も安定して活⽤される

Slide 20

Slide 20 text

© CADDi Inc. 最終的に実現したいすがた 20 売上の数値が欲しい すごい データ基盤 図⾯数上限超えそうな顧客に連絡したい エラー出てないか監視したい うまく使えてない⼈をフォローしたい

Slide 21

Slide 21 text

© CADDi Inc. 既にニーズがあるデータを爆速で追加して提供する 21 売上の数値が欲しい 売上出したいなら Salesforce が必要だなぁ 分析しましたよ! これ使ってみてください

Slide 22

Slide 22 text

© CADDi Inc. 既にニーズがあるデータを爆速で追加して提供する 22 売上の数値が欲しい ● 別の場所で使いそうだから共通化しよう ● 整理された形でモデリングしよう などの雑念を捨てるのが⼤事 SaaS も活⽤し速く価値を届けることに集中 売上出したいなら Salesforce が必要だなぁ 分析しましたよ! これ使ってみてください

Slide 23

Slide 23 text

© CADDi Inc. 個別対応をしながら、少しずつデータソースを増やす 23 図⾯数上限超えそうな顧客に連絡したい 図⾯数はプロダクトの データベースに⼊ってるな データ置いておきました! これ使ってみてください

Slide 24

Slide 24 text

© CADDi Inc. 繰り返すと、求められているデータだけが⼊った状態に 24 売上の数値が欲しい 図⾯数上限超えそうな顧客に連絡したい エラー出てないか監視したい うまく使えてない⼈をフォローしたい

Slide 25

Slide 25 text

© CADDi Inc. 新たなニーズも集まってくる 25 売上の数値が欲しいと思ってたけど 図⾯数もわかるんだ!それなら もっと活⽤してもらえる顧客がわかるかも 図⾯数上限超えそうな顧客に連絡したい 最近の傾向から予測したいんだけど 図⾯数以外の数値は使えないかな? エラー出てないか監視したい 顧客の図⾯枚数によって インフラの負荷ってどれくらい違う? うまく使えてない⼈をフォローしたい ユーザーの職種ってわからない?

Slide 26

Slide 26 text

© CADDi Inc. 「使える!」を増やし、データ基盤への信頼を⾼める 26 売上の数値が欲しいと思ってたけど 図⾯数もわかるんだ!それなら もっと活⽤してもらえる顧客がわかるかも 図⾯数上限超えそうな顧客に連絡したい 最近の傾向から予測したいんだけど 図⾯数以外の数値は使えないかな? エラー出てないか監視したい 顧客の図⾯枚数によって インフラの負荷ってどれくらい違う? うまく使えてない⼈をフォローしたい ユーザーの職種ってわからない? データソースの幅を増やす ユースケースの幅を増やす

Slide 27

Slide 27 text

© CADDi Inc. ここまでのまとめ 27 1. ニーズがあることが確定しているところから作ろう ○ 誰も使わないものを作るのが⼀番⽣産性が低い ○ 各チームとの関係づくりを兼ねて職種問わずヒアリング 2. 早すぎる最適化を避けよう ○ SaaSも活⽤しながら、速く価値を届ける ○ ユーザーの信頼を貯めながら少しずつデータ基盤を育てる

Slide 28

Slide 28 text

© CADDi Inc. © CADDi Inc. 「使われているデータ基盤」の その先へ 28

Slide 29

Slide 29 text

© CADDi Inc. CADDi Drawer のデータ活⽤の歴史 29 〜 2023年9⽉ 2023年10⽉〜12⽉ 2024年1⽉〜3⽉ 2024年4⽉〜 ⼀⾔で⾔うと ごく⼀部が利⽤ データ基盤 爆速⽴ち上げ 仕組み整備と 利⽤者拡⼤ データで新しい 価値を届ける 導⼊ツール BigQuery trocco Looker Studio dbt データ エンジニア数 0 1 2 4

Slide 30

Slide 30 text

© CADDi Inc. 30 リファクタリングで データの流路をシンプルに

Slide 31

Slide 31 text

© CADDi Inc. データレイヤー|レイヤーごとにテーブルの役割を変える 31 集計‧分析 データレイク 各地のデータを コピーしたテーブル データマート ユーザーが⾒たい軸で 分析した結果のテーブル

Slide 32

Slide 32 text

© CADDi Inc. 改善を続ける中で共通の分析が⾒えてきたら 32 データレイク 各地のデータを コピーしたテーブル データマート ユーザーが⾒たい軸で 分析した結果のテーブル 分析結果を別の分析で 利⽤したくなったら 共通の分析が出てきたシグナル

Slide 33

Slide 33 text

© CADDi Inc. 共通の分析が⾒えてきたら、DWH 層を作る 33 データレイク 各地のデータを コピーしたテーブル データマート ユーザーが⾒たい軸で 分析した結果のテーブル データウェアハウス 共通して使える データを⼊れたテーブル

Slide 34

Slide 34 text

© CADDi Inc. 必要に応じて層を追加していく 34 データレイク 各地のデータを コピーしたテーブル データマート ユーザーが⾒たい軸で 分析した結果のテーブル データウェアハウス 共通して使える データを⼊れたテーブル インターフェース 通貨の換算など最低限の 整形をしたテーブル

Slide 35

Slide 35 text

© CADDi Inc. 35 データ基盤をモニタリングして 信頼性を保つ

Slide 36

Slide 36 text

© CADDi Inc. データテストでデータの信頼性を⾼める 36 間違ったデータを提供することの悪影響は⼤きい ● データ分析のUXが低下 ● 間違った分析に基づく意思決定の失敗 dbt test でテストを書いて品質を担保 ● 売上テーブルの⾦額カラムは⽋損があってはいけない ● テナントテーブルの id カラムは重複があってはいけない ● 契約テーブルの顧客 id カラムは顧客テーブルの id カラム に含まれている値でないといけない など

Slide 37

Slide 37 text

© CADDi Inc. 汚いデータを綺麗にするなら根本から 37 データテストを書くうちに「そんなわけない」データがたくさん⾒つかる ● 売上に負の値? ● 同名のテナントが複数存在する!? ● 完全に同⼀な⾏が121件存在する??!?!?!? データ基盤の中でクレンジングしたくなるが、極⼒⼊⼝から綺麗にする データを作っている⼈と連携せずに⼩⼿先で綺麗にしてもいずれ問題が再発する ⾃動でのデータテストを中⼼に⼈の営みを変えていくことが重要

Slide 38

Slide 38 text

© CADDi Inc. データの品質をモニタリングする 38 Elementary を利⽤してデータテストをモニタリングする データ基盤が健全であることを担保しつつ改善サイクルを回す

Slide 39

Slide 39 text

© CADDi Inc. データリネージを⾒て重要なテーブルを⾒極める 39 dbt Docs や Elementary でデータリネージを可視化 利⽤されていないテーブルは撤退して、重要なテーブルに運⽤⼯数を割く → 結果的にデータの品質も上がる

Slide 40

Slide 40 text

© CADDi Inc. 使われるデータ基盤を保つサイクル 40 ニーズのあるデータを データ基盤に追加 共通点が⾒えてきたら リファクタリング 不要なテーブルを消して 持ち物を減らす データ基盤の状況を モニタリング

Slide 41

Slide 41 text

© CADDi Inc. まとめ 41 1. ニーズから始めよう ○ 仲間づくりを兼ねて各チームにヒアリングしよう ○ 素早くニーズを検証し、データが使われている状態に持っていこう 2. 使われるようになってから改善をしよう ○ 共通で使われる処理が⾒えてきたらリファクタリングしよう ○ テストとモニタリングを駆使して信頼性を⾼めよう

Slide 42

Slide 42 text

42