Upgrade to Pro — share decks privately, control downloads, hide ads and more …

カケハシがDatabricksを採用した背景 〜薬局DXを支えるデータ基盤が目指す姿〜

kakehashi
January 30, 2023

カケハシがDatabricksを採用した背景 〜薬局DXを支えるデータ基盤が目指す姿〜

kakehashi

January 30, 2023
Tweet

More Decks by kakehashi

Other Decks in Business

Transcript

  1. Copyright © KAKEHASHI Inc. All Rights Reserved. 自己紹介 大木 康平

    • SIerでキャリアをスタート後、インターネット広告業界に移り、 広告代理店の大規模データ分析基盤の開発・運用を経験。 • 2022/01にカケハシ入社後は全社横断のデータ基盤開発の チームに所属。アーキテクチャの刷新のためにDatabricksの 社内への導入、全社横断的なデータマネジメントの推進を担 う。
  2. Copyright © KAKEHASHI Inc. All Rights Reserved. アジェンダ • カケハシについて

    • カケハシデータ基盤の歩み、Databricks導入の背景 • Databricks採用の決め手、期待したこと • 今後のカケハシデータ基盤の目指す姿
  3. Copyright © KAKEHASHI Inc. All Rights Reserved. テクノロジーで、 薬局をあるべき形に。 全国に、コンビニエンスストアより多い約

    6万店が存在する調剤薬 局。その経営や薬剤師の業務、患者さんとの関係性など、薬局の あり方そのものをアップデートし、薬局 DX(デジタルトランスフォー メーション)を推進する、独自のプロダクトを展開しています。
  4. Copyright © KAKEHASHI Inc. All Rights Reserved. 2016年 2017年 2018年

    2019年 2020年 Musubi 正式リリース シード資金調達 創業 プレSeries A調達 Series A調達 Series B調達 9 億 0.7 億 1.6 億 26 億 2
 6
 6
 8
 12
 15
 19
 28
 36
 44
 65
 79
 84
 88
 18 億 Extension 調達 8 96
 105
 ✔ 創業6年 ✔ 累計55億円の資金調達 ✔ 社員数296人(2022年10月時点) 2021年 114
 126
 126
 130
 153
 296 180
 192
 2022年 214
 * 2022年10月時点 241
 264
 これまでのカケハシの歩み
  5. Copyright © KAKEHASHI Inc. All Rights Reserved. ⽇本の医療は、⽇きな転換点を迎えています。 医療をより良く、そしてより確かなものとして次世代へつないでいくために。 いま必要なのは、「しなやかな医療体験」だと私たちは考えます。

    それは、医療の受け⽇と担い⽇、その両者の体験をアップデートするということ。 不合理なシステムや仕組みのために、患者さんの安 ⽇と納得と満⽇が置き去りになることも、 医療従事者が過剰な献⽇と⽇⽇犠牲を強いられることも。 どちらも、私たちが望むべきものではないはずです。 しなやかさとは、⽇い品質であり、どこまでも続くなめらかさであり、 そして決して崩れることのない強さのこと。 つまり、サステイナブルな医療の前提を、私たちはつくりたい。 あらゆる医療体験を、しなやかに。そして、 ⽇本の医療を未来へつなぐ、カケハシに。 ⽇本の医療体験を、しなやかに。
  6. Copyright © KAKEHASHI Inc. All Rights Reserved. カケハシデータ基盤の歩み • 2019年頃、データに基づいた意思決定で各プロダクトの改善を行い、ユーザーによ

    り高い価値を届けるために社内のデータ基盤が構築される 2019~2021のデータ基盤アーキテクチャイメージ
  7. Copyright © KAKEHASHI Inc. All Rights Reserved. 2019~2021 社内でのデータ活用は順調に進んだ •

    社内データ分析、可視化のケース ◦ プロジェクト管理、KPI、NSMの計測 ◦ ヘルススコアの導出 ◦ システムのSLA、SLO監視 ◦ 人事採用進捗、実績の可視化 • プロダクトでの利用ケース ◦ 機械学習 ◦ 事業の実証結果分析 ◦ BIレポーティング カケハシデータ基盤の歩み
  8. Copyright © KAKEHASHI Inc. All Rights Reserved. 顕在化した課題 • 解消し切れていないデータサイロ

    ◦ Redash上でのデータソースを横断したデータのJOINが困難 ◦ SQLの複雑化、クエリ性能の限界 • データ基盤チームの開発速度と利用側の期待値の乖離 ◦ エンジニア不足による開発速度低下、溜まり続ける開発依頼チケット ◦ 基盤チーム側のドメイン知識の不足 ◦ 開発時のコミュニケーションコストの増大
  9. Copyright © KAKEHASHI Inc. All Rights Reserved. • 解消し切れていないデータサイロ ◦

    Redash上でのデータソースを横断したデータのJOINが困難 ◦ SQLの複雑化、クエリ性能の限界 • データ基盤チームの開発速度と利用側の期待値の乖離 ◦ エンジニア不足による開発速度低下、溜まり続ける開発依頼チケット ◦ 基盤チーム側のドメイン知識の不足 ◦ 開発時のコミュニケーションコストの増大 顕在化した課題 技術課題:データサイロ 運用組織課題:中央集権的組織構造の限界
  10. Copyright © KAKEHASHI Inc. All Rights Reserved. 課題解消に向けたアプローチ データサイロ解消へのアプローチ •

    大規模データの分析等に適したクエリエンジンとデータストレージへのデータ統 合が必要 • 専用のデータウェアハウス製品の導入で解決が見込める
  11. Copyright © KAKEHASHI Inc. All Rights Reserved. • 中央集権的組織構造になる原因 ◦

    データパイプラインの開発オーナーシップを決める上で、技術的な専門性やシステムアーキテク チャを境界にしている 中央集権的組織構造の改善のためのアプローチ
  12. Copyright © KAKEHASHI Inc. All Rights Reserved. 中央集権的組織構造の改善のためのアプローチ • 初期のデータ基盤立ち上げフェーズで中央集権的組織構造になるのは自然な流れ

    ではある • 一方で急速に進む会社事業の拡大に合わせて増加するデータ活用ニーズに合わせ て社内のデータ基盤運用組織の拡張性も確保する必要がある データメッシュの原則を参考にし、ビジネスドメインを境界とした分散オーナーシップ 型データ基盤運用組織を目指す
  13. Copyright © KAKEHASHI Inc. All Rights Reserved. • データメッシュとは ◦

    データ基盤における中央集権的組織構造の拡張性等の課題解消のために近年登場した概念 • データメッシュの4つの原則 ◦ Domain Ownership ▪ データに対して最も専門性を持つドメインチームが、データの開発オーナーシップを持つ ◦ Data as a product ▪ データもプロダクトとして管理し、ドメインの内外にいるデータ利用者に高品質のデータを提供 できるようにする ◦ Self-serve data platform ▪ 各ドメインのデータプロダクトの開発に集中するためのデータインフラが必要 ◦ Federated computational governance ▪ ドメインと中央組織の間で責任範囲を分担したガバナンスの仕組みが必要 中央集権的組織構造の改善のためのアプローチ
  14. Copyright © KAKEHASHI Inc. All Rights Reserved. 中央集権的組織構造の改善のためのアプローチ • カケハシで目指す分散オーナーシップ型データ基盤組織の具体像

    ◦ 各ドメインチームはデータ領域のオーナーシップも持つ ◦ データ基盤チームは横断的なマネジメント、ガバナンスに注力
  15. Copyright © KAKEHASHI Inc. All Rights Reserved. 中央集権的組織構造の改善のためのアプローチ • 分散オーナーシップ型の組織で期待すること

    ◦ データ基盤の運用組織としての拡張性を確保 ◦ 最も専門性を有するドメインチームが開発を担うことで、利用者に向けてより質の高いソリューショ ンを提供 ◦ DataOpsの加速 ▪ データ関連の開発がドメインチームで完結するため、データの収集〜分析〜得られた洞察を ビジネスに活かすまでの一連のサイクルを高速に回すためのシステムと組織の構造を実現
  16. Copyright © KAKEHASHI Inc. All Rights Reserved. 中央集権的組織構造の改善のためのアプローチ • システムアーキテクチャを最適化する上でも有効

    ◦ ドメインを境界とすることでコンウェイの法則がシステムアーキテクチャに対して良い方向に作用す る ◦ データ品質の本質的な向上施策はデータの最上流からの改善が必要 ▪ Garbage In, Garbage Out ▪ データパイプライン上でオーナーシップが分断されている場合、チーム間のコミュニケーショ ンコスト、パワーバランス、開発優先度調整等が絡んでくる
  17. Copyright © KAKEHASHI Inc. All Rights Reserved. 中央集権的組織構造の改善のためのアプローチ • カケハシの組織構造とも相性良い

    ◦ 事業ドメイン毎にサービス開発のチームが分割され自走する構造 ◦ 各チーム内にエンジニア、データサイエンティスト、 PdM、PMM、ドメインエキスパート等、サービスを 開発、運用する上で必要なロールのメンバーが所属 ◦ データ活用も開発チームに閉じたユースケースが多く、一部では既に実質的にオーナーシップを渡 している部分もある
  18. Copyright © KAKEHASHI Inc. All Rights Reserved. 課題解消に向けたアプローチ 技術面、運用組織面の課題の解決のためには、データ基盤の技術的な刷新、組織構造 の漸進的な変革が必要

    分散オーナーシップ組織を前提とした運用が可能かつ、技術課題も解決できるデータ基 盤プラットフォームの導入が必要と判断
  19. Copyright © KAKEHASHI Inc. All Rights Reserved. Databricks採用の決め手、期待したこと 要約するとDatabricksのアーキテクチャコンセプトがカケハシの要件に合致していた 決め手となった点は:

    • データレイクハウスアーキテクチャのメリット • 強固なデータエンジニアリング組織の実現 • 横断的なデータマネジメントを技術面でサポート • 分散オーナーシップ型組織の実現をサポート
  20. Copyright © KAKEHASHI Inc. All Rights Reserved. • データレイク〜ウェアハウスまで共通したデータストア・クエリエンジン •

    ファイルベースの基盤でSpark Read, Writeを繋げるシンプルなデータフロー • DBFSによるファイルアクセスの抽象化により、マルチクラウド環境にも強い • 未連携のRawデータへのアクセスが容易 データレイクハウスアーキテクチャのメリット データ基盤のアーキテクチャが非常にシンプルになり、開発コストや運用コストが削減可 能
  21. Copyright © KAKEHASHI Inc. All Rights Reserved. • Databricksの標準機能でデータ基盤を構築可能 ◦

    ETL処理, ワークフローエンジン , BI, 機械学習に至るまで の要素をオールインワンで提供している ため、基本的に標準機能でデータ基盤を構築可能 ◦ 自前で各種サービスを組み合わせるケースも減らせる データレイクハウスアーキテクチャのメリット データ基盤構築例)
  22. Copyright © KAKEHASHI Inc. All Rights Reserved. • 組織内のスキルを標準化 ◦

    Apache Spark, Delta Lake, MLflow等のOSSベースの機能を会社のデータエンジニアリング、機械 学習における標準技術に 強固なデータエンジニアリング組織の実現 • データエンジニアリングの知見の蓄積・共有による生産性の向上に繋がる ◦ 概念レベルでのデータエンジニアリングの知見を全社横断的に共有可能 ◦ チームを越境したデータエンジニアリソースの流動性を確保 ◦ 既存人材のデータ領域への進出のための教育コストを削減
  23. Copyright © KAKEHASHI Inc. All Rights Reserved. • オープンな仕様 ◦

    個人のスキルセットのベンダロックイン回避 ◦ 組織の開発資産、データのベンダロックイン回避 ◦ PythonやScala等を操るエンジニアも広くデータエンジニアリングへ招待 ◦ 採用市場の人材への訴求効果 • 豊富な言語選択肢 ◦ Notebookの言語をPython, Scala, R, SQLから選択可能 ◦ 多様なバックグラウンドを持つメンバーが得意な言語で実装可能 強固なデータエンジニアリング組織の実現
  24. Copyright © KAKEHASHI Inc. All Rights Reserved. 横断的なデータマネジメントをサポート • 横断的なデータマネジメントの施策が実施可能

    ◦ データ基盤がDatabricks上で完結させれるため、メタデータ情報の捕捉範囲の網羅性が高くなる ◦ メタデータの情報は網羅性が重要になってくるが、捕捉対象が限定的であったり収集先の対象 が増えるとその分ガバナンスコストが膨れ上がる 各種マネジメント、監視が必要 全てのデータ、処理、操作 がマネジメント対象になり得 る
  25. Copyright © KAKEHASHI Inc. All Rights Reserved. 横断的なデータマネジメントをサポート • 標準機能の充実

    ◦ データカタログ機能や、 Unity Catalogによるデータリネージュの自動収集、統合的なデータアク セス権限管理の機能は基盤チームの負荷を軽減 ◦ 開発リソースが潤沢であれば自作したり OSSツールを別途導入するという選択肢もありだが、状 況的に厳しい データリネージュ例
  26. Copyright © KAKEHASHI Inc. All Rights Reserved. 分散オーナーシップ型の組織をサポート • Workspace環境の分離

    ◦ 個別の開発ドメインチーム単位で環境を分離可能 ◦ ETL環境を各自のAWSアカウント上にホストし、責任分界点を明確にして自走する環境を提供可能 ◦ Domain Ownership, Data as a product, Self-serve data platformの面を支援 • Unity Catalogでのデータ共有、アクセス権限の管理 ◦ 分散したWorkspace間のデータを統合したデータストアとして会社全体で共有できる ◦ 個別に環境は分離しているが、データストアに対しては横串でのアカウントの権限の管理が可能 ◦ データ基盤チームによるガバナンスコストを削減 ◦ Federated computational governanceの面を支援
  27. Copyright © KAKEHASHI Inc. All Rights Reserved. • Databricksを全社横断データ基盤として活用 ◦

    2022/11時点でまだ移行フェーズ • 分散オーナーシップ組織化を推進 ◦ Workspace環境を適切な範囲(事業ドメイン、境界づけられたコンテキスト)に徐々に分離していく ▪ 初期のフェーズではモノリシックな環境で運用を開始 ◦ チーム内での必要なロールの明確化、ロールチェンジ、採用計画への反映等 • データ基盤チームは横断的なデータマネジメントに注力 ◦ データ基盤全体向けのガイドラインやポリシーの制定、各チームとの責任分界点の整理等の活動 に徐々にシフト ◦ データ利用者向けのデータ活用の手助け、文化の醸成の活動にも注力 今後のアーキテクチャ、組織設計の構想
  28. Copyright © KAKEHASHI Inc. All Rights Reserved. • Databricksを活用したデータ基盤開発に興味がある方 •

    ヘルスケア領域のサービス開発に興味がある方 • データエンジニアリングに興味がある方 • カケハシに興味を持っていただいた方 エンジニア絶賛募集中 カケハシ採用サイト