Upgrade to Pro — share decks privately, control downloads, hide ads and more …

使われないものを作るな!出口から作るデータ分析基盤 / Data Platform Development Starting from the User Needs

使われないものを作るな!出口から作るデータ分析基盤 / Data Platform Development Starting from the User Needs

本資料は Tech Play イベント『データ基盤運用の工数削減に効いた俺的ベストプラクティス データマネジメントの勘所』での登壇資料です。
https://techplay.jp/event/940296

データ基盤を構築する際、多くの人が最初にdbt、BigQuery、troccoといったツール名を思い浮かべるかもしれません。しかし、ビジネス価値を生み出すデータ基盤を開発するためには良いツールを選定するだけでなく、「どの技術をいつのタイミングで導入するか」「関係者をどのように巻き込むか」といった観点も重要です。この発表では、製造業のDXを進めるCADDiが直面したデータの課題と、利用状況に合わせて段階的にデータ基盤を拡充していった過程についてご紹介します。

Amane Suzuki

May 15, 2024
Tweet

More Decks by Amane Suzuki

Other Decks in Technology

Transcript

  1. © CADDi Inc. 7 設計 調達 製造 販売 CADDi Drawer

    サプライチェーンにまつわる上流‧下流のデータを相互に補完し合う CADDi について簡単に紹介します CADDi Manufacturing 部品調達プラットフォーム 調達‧⽣産機能の⼀括請負による モノからサプライチェーンを変⾰ technology knowledge 図⾯データ活⽤クラウド 図⾯とその周辺データの資産化による データからサプライチェーンを変⾰
  2. © CADDi Inc. 鈴⽊ 天⾳ • Drawer のデータマネジメント • DS

    → MLE → PdM → データエンジニア • たまに⾼校⽣に AI を教えています • Kaggle Master • 最近 LoL の世界⼤会がアツすぎる 播磨 尚志 • Manufacturing のデータマネジメント • コンサル → 事業会社へ • 協⼒会社のQCD改善標準化 → データエンジニア • 趣味は⼦育て/ゲーム/⽇曜⼤⼯/⾃転⾞ よろしくお願いします 8
  3. © CADDi Inc. CADDi Drawer のデータ活⽤の歴史 9 〜 2023年9⽉ 2023年10⽉〜12⽉

    2024年1⽉〜3⽉ 2024年4⽉〜 ⼀⾔で⾔うと ごく⼀部が利⽤ データ基盤 爆速⽴ち上げ 仕組み整備と 利⽤者拡⼤ データで新しい 価値を届ける 導⼊ツール BigQuery trocco Looker Studio dbt データ エンジニア数 0 1 2 4
  4. © CADDi Inc. CADDi Drawer のデータ活⽤の歴史 10 〜 2023年9⽉ 2023年10⽉〜12⽉

    2024年1⽉〜3⽉ 2024年4⽉〜 ⼀⾔で⾔うと ごく⼀部が利⽤ データ基盤 爆速⽴ち上げ 仕組み整備と 利⽤者拡⼤ データで新しい 価値を届ける 導⼊ツール BigQuery trocco Looker Studio dbt データ エンジニア数 0 1 2 4 このあたりの話をします
  5. © CADDi Inc. CADDi Drawer のデータ活⽤の歴史 15 〜 2023年9⽉ 2023年10⽉〜12⽉

    2024年1⽉〜3⽉ 2024年4⽉〜 ⼀⾔で⾔うと ごく⼀部が利⽤ データ基盤 爆速⽴ち上げ 仕組み整備と 利⽤者拡⼤ データで新しい 価値を届ける 導⼊ツール BigQuery trocco Looker Studio dbt データ エンジニア数 0 1 2 4
  6. © CADDi Inc. ニーズを知るため、各チームへのヒアリングを⾏う 16 職種を問わずヒアリングをし、情報の流れを調べる • 「普段の仕事で使っているツールを教えて下さい」 • 「このKPIの元となる数値ってどこにありますか?」

    • 「KPIは誰がどれくらいの頻度で確認してます?」 • 「いま何の分析に⼯数を使っていますか?」 網羅的に聞くより、⽇常的に使⽤するものを優先的に探る ヒアリングを進める過程で 各チームの中にデータと向き合う仲間を作る
  7. © CADDi Inc. ヒアリングでわかったこと 17 • みんなデータを⾒ようとはしている ☺ • 最新の数値を報告するため⼯数を多く使っている

    ◦ スプレッドシートでの分析が中⼼ ◦ データソースからスプシに ⽣データを⼿でコピペしているケースも存在 • 数値の引⽤‧孫引きが多く存在し、 数値の正しさを保証することが難しい
  8. © CADDi Inc. ユースケースの優先度の⾒極め 19 実際の物を取り扱う事業では、会計/契約に近いユースケースが確度が⾼そう 事例1 Bad 事例 •

    案件の進捗管理(ステータス別の滞留リードタイム計測) • 会計/契約から遠いユースケース • そこそこ⼯数を投⼊して整備するも、業務側の運⽤変更に伴い消滅 事例2 Good 事例 • 良品率の分析、サプライパートナーの分析 • 会計/契約から近いユースケース • 導⼊後も安定して活⽤される
  9. © CADDi Inc. 既にニーズがあるデータを爆速で追加して提供する 22 売上の数値が欲しい • 別の場所で使いそうだから共通化しよう • 整理された形でモデリングしよう

    などの雑念を捨てるのが⼤事 SaaS も活⽤し速く価値を届けることに集中 売上出したいなら Salesforce が必要だなぁ 分析しましたよ! これ使ってみてください
  10. © CADDi Inc. 新たなニーズも集まってくる 25 売上の数値が欲しいと思ってたけど 図⾯数もわかるんだ!それなら もっと活⽤してもらえる顧客がわかるかも 図⾯数上限超えそうな顧客に連絡したい 最近の傾向から予測したいんだけど

    図⾯数以外の数値は使えないかな? エラー出てないか監視したい 顧客の図⾯枚数によって インフラの負荷ってどれくらい違う? うまく使えてない⼈をフォローしたい ユーザーの職種ってわからない?
  11. © CADDi Inc. 「使える!」を増やし、データ基盤への信頼を⾼める 26 売上の数値が欲しいと思ってたけど 図⾯数もわかるんだ!それなら もっと活⽤してもらえる顧客がわかるかも 図⾯数上限超えそうな顧客に連絡したい 最近の傾向から予測したいんだけど

    図⾯数以外の数値は使えないかな? エラー出てないか監視したい 顧客の図⾯枚数によって インフラの負荷ってどれくらい違う? うまく使えてない⼈をフォローしたい ユーザーの職種ってわからない? データソースの幅を増やす ユースケースの幅を増やす
  12. © CADDi Inc. ここまでのまとめ 27 1. ニーズがあることが確定しているところから作ろう ◦ 誰も使わないものを作るのが⼀番⽣産性が低い ◦

    各チームとの関係づくりを兼ねて職種問わずヒアリング 2. 早すぎる最適化を避けよう ◦ SaaSも活⽤しながら、速く価値を届ける ◦ ユーザーの信頼を貯めながら少しずつデータ基盤を育てる
  13. © CADDi Inc. CADDi Drawer のデータ活⽤の歴史 29 〜 2023年9⽉ 2023年10⽉〜12⽉

    2024年1⽉〜3⽉ 2024年4⽉〜 ⼀⾔で⾔うと ごく⼀部が利⽤ データ基盤 爆速⽴ち上げ 仕組み整備と 利⽤者拡⼤ データで新しい 価値を届ける 導⼊ツール BigQuery trocco Looker Studio dbt データ エンジニア数 0 1 2 4
  14. © CADDi Inc. 改善を続ける中で共通の分析が⾒えてきたら 32 データレイク 各地のデータを コピーしたテーブル データマート ユーザーが⾒たい軸で

    分析した結果のテーブル 分析結果を別の分析で 利⽤したくなったら 共通の分析が出てきたシグナル
  15. © CADDi Inc. 共通の分析が⾒えてきたら、DWH 層を作る 33 データレイク 各地のデータを コピーしたテーブル データマート

    ユーザーが⾒たい軸で 分析した結果のテーブル データウェアハウス 共通して使える データを⼊れたテーブル
  16. © CADDi Inc. 必要に応じて層を追加していく 34 データレイク 各地のデータを コピーしたテーブル データマート ユーザーが⾒たい軸で

    分析した結果のテーブル データウェアハウス 共通して使える データを⼊れたテーブル インターフェース 通貨の換算など最低限の 整形をしたテーブル
  17. © CADDi Inc. データテストでデータの信頼性を⾼める 36 間違ったデータを提供することの悪影響は⼤きい • データ分析のUXが低下 • 間違った分析に基づく意思決定の失敗

    dbt test でテストを書いて品質を担保 • 売上テーブルの⾦額カラムは⽋損があってはいけない • テナントテーブルの id カラムは重複があってはいけない • 契約テーブルの顧客 id カラムは顧客テーブルの id カラム に含まれている値でないといけない など
  18. © CADDi Inc. 汚いデータを綺麗にするなら根本から 37 データテストを書くうちに「そんなわけない」データがたくさん⾒つかる • 売上に負の値? • 同名のテナントが複数存在する!?

    • 完全に同⼀な⾏が121件存在する??!?!?!? データ基盤の中でクレンジングしたくなるが、極⼒⼊⼝から綺麗にする データを作っている⼈と連携せずに⼩⼿先で綺麗にしてもいずれ問題が再発する ⾃動でのデータテストを中⼼に⼈の営みを変えていくことが重要
  19. © CADDi Inc. データリネージを⾒て重要なテーブルを⾒極める 39 dbt Docs や Elementary でデータリネージを可視化

    利⽤されていないテーブルは撤退して、重要なテーブルに運⽤⼯数を割く → 結果的にデータの品質も上がる
  20. © CADDi Inc. まとめ 41 1. ニーズから始めよう ◦ 仲間づくりを兼ねて各チームにヒアリングしよう ◦

    素早くニーズを検証し、データが使われている状態に持っていこう 2. 使われるようになってから改善をしよう ◦ 共通で使われる処理が⾒えてきたらリファクタリングしよう ◦ テストとモニタリングを駆使して信頼性を⾼めよう
  21. 42