Upgrade to Pro — share decks privately, control downloads, hide ads and more …

カケハシがDatabricksを採用した背景 〜薬局DXを支えるデータ基盤が目指す姿〜

kakehashi
January 30, 2023

カケハシがDatabricksを採用した背景 〜薬局DXを支えるデータ基盤が目指す姿〜

kakehashi

January 30, 2023
Tweet

More Decks by kakehashi

Other Decks in Business

Transcript

  1. Copyright © KAKEHASHI Inc. All Rights Reserved.
    カケハシがDatabricksを採用した背景
    〜薬局DXを支えるデータ基盤が目指す姿〜
    株式会社カケハシ 大木康平
    2022/11/22 Databricks Japan Developer Summit

    View full-size slide

  2. Copyright © KAKEHASHI Inc. All Rights Reserved.
    自己紹介

    View full-size slide

  3. Copyright © KAKEHASHI Inc. All Rights Reserved.
    自己紹介
    大木 康平
    ● SIerでキャリアをスタート後、インターネット広告業界に移り、
    広告代理店の大規模データ分析基盤の開発・運用を経験。
    ● 2022/01にカケハシ入社後は全社横断のデータ基盤開発の
    チームに所属。アーキテクチャの刷新のためにDatabricksの
    社内への導入、全社横断的なデータマネジメントの推進を担
    う。

    View full-size slide

  4. Copyright © KAKEHASHI Inc. All Rights Reserved.
    アジェンダ

    View full-size slide

  5. Copyright © KAKEHASHI Inc. All Rights Reserved.
    アジェンダ
    ● カケハシについて
    ● カケハシデータ基盤の歩み、Databricks導入の背景
    ● Databricks採用の決め手、期待したこと
    ● 今後のカケハシデータ基盤の目指す姿

    View full-size slide

  6. Copyright © KAKEHASHI Inc. All Rights Reserved.
    カケハシについて

    View full-size slide

  7. Copyright © KAKEHASHI Inc. All Rights Reserved.
    テクノロジーで、
    薬局をあるべき形に。
    全国に、コンビニエンスストアより多い約 6万店が存在する調剤薬
    局。その経営や薬剤師の業務、患者さんとの関係性など、薬局の
    あり方そのものをアップデートし、薬局 DX(デジタルトランスフォー
    メーション)を推進する、独自のプロダクトを展開しています。

    View full-size slide

  8. Copyright © KAKEHASHI Inc. All Rights Reserved.
    2016年 2017年 2018年 2019年 2020年
    Musubi
    正式リリース
    シード資金調達
    創業
    プレSeries A調達
    Series A調達
    Series B調達
    9 億
    0.7 億
    1.6 億
    26 億
    2

    6
 6
 8

    12

    15

    19

    28

    36

    44

    65

    79

    84

    88

    18 億
    Extension 調達
    8
    96

    105

    ✔ 創業6年
    ✔ 累計55億円の資金調達
    ✔ 社員数296人(2022年10月時点)
    2021年
    114

    126
 126

    130

    153

    296
    180

    192

    2022年
    214

    * 2022年10月時点
    241

    264

    これまでのカケハシの歩み

    View full-size slide

  9. Copyright © KAKEHASHI Inc. All Rights Reserved.
    ⽇本の医療は、⽇きな転換点を迎えています。
    医療をより良く、そしてより確かなものとして次世代へつないでいくために。
    いま必要なのは、「しなやかな医療体験」だと私たちは考えます。
    それは、医療の受け⽇と担い⽇、その両者の体験をアップデートするということ。
    不合理なシステムや仕組みのために、患者さんの安
    ⽇と納得と満⽇が置き去りになることも、
    医療従事者が過剰な献⽇と⽇⽇犠牲を強いられることも。
    どちらも、私たちが望むべきものではないはずです。
    しなやかさとは、⽇い品質であり、どこまでも続くなめらかさであり、
    そして決して崩れることのない強さのこと。
    つまり、サステイナブルな医療の前提を、私たちはつくりたい。
    あらゆる医療体験を、しなやかに。そして、
    ⽇本の医療を未来へつなぐ、カケハシに。
    ⽇本の医療体験を、しなやかに。

    View full-size slide

  10. Copyright © KAKEHASHI Inc. All Rights Reserved.
    患者さんのための薬局づくりのパートナーとして、
    複合プロダクトで「薬局DX」をトータルサポート。

    View full-size slide

  11. Copyright © KAKEHASHI Inc. All Rights Reserved.
    カケハシデータ基盤の歩み、Databricks導入
    の背景

    View full-size slide

  12. Copyright © KAKEHASHI Inc. All Rights Reserved.
    カケハシデータ基盤の歩み
    ● 2019年頃、データに基づいた意思決定で各プロダクトの改善を行い、ユーザーによ
    り高い価値を届けるために社内のデータ基盤が構築される
    2019~2021のデータ基盤アーキテクチャイメージ

    View full-size slide

  13. Copyright © KAKEHASHI Inc. All Rights Reserved.
    2019~2021 社内でのデータ活用は順調に進んだ
    ● 社内データ分析、可視化のケース
    ○ プロジェクト管理、KPI、NSMの計測
    ○ ヘルススコアの導出
    ○ システムのSLA、SLO監視
    ○ 人事採用進捗、実績の可視化
    ● プロダクトでの利用ケース
    ○ 機械学習
    ○ 事業の実証結果分析
    ○ BIレポーティング
    カケハシデータ基盤の歩み

    View full-size slide

  14. Copyright © KAKEHASHI Inc. All Rights Reserved.
    活用が進むにつれて徐々に課題も顕在化
    カケハシデータ基盤の歩み

    View full-size slide

  15. Copyright © KAKEHASHI Inc. All Rights Reserved.
    顕在化した課題
    ● 解消し切れていないデータサイロ
    ○ Redash上でのデータソースを横断したデータのJOINが困難
    ○ SQLの複雑化、クエリ性能の限界
    ● データ基盤チームの開発速度と利用側の期待値の乖離
    ○ エンジニア不足による開発速度低下、溜まり続ける開発依頼チケット
    ○ 基盤チーム側のドメイン知識の不足
    ○ 開発時のコミュニケーションコストの増大

    View full-size slide

  16. Copyright © KAKEHASHI Inc. All Rights Reserved.
    ● 解消し切れていないデータサイロ
    ○ Redash上でのデータソースを横断したデータのJOINが困難
    ○ SQLの複雑化、クエリ性能の限界
    ● データ基盤チームの開発速度と利用側の期待値の乖離
    ○ エンジニア不足による開発速度低下、溜まり続ける開発依頼チケット
    ○ 基盤チーム側のドメイン知識の不足
    ○ 開発時のコミュニケーションコストの増大
    顕在化した課題
    技術課題:データサイロ
    運用組織課題:中央集権的組織構造の限界

    View full-size slide

  17. Copyright © KAKEHASHI Inc. All Rights Reserved.
    技術課題:データサイロ
    課題解消に向けたアプローチ

    View full-size slide

  18. Copyright © KAKEHASHI Inc. All Rights Reserved.
    課題解消に向けたアプローチ
    データサイロ解消へのアプローチ
    ● 大規模データの分析等に適したクエリエンジンとデータストレージへのデータ統
    合が必要
    ● 専用のデータウェアハウス製品の導入で解決が見込める

    View full-size slide

  19. Copyright © KAKEHASHI Inc. All Rights Reserved.
    運用組織課題:中央集権的組織構造の限界
    課題解消に向けたアプローチ

    View full-size slide

  20. Copyright © KAKEHASHI Inc. All Rights Reserved.
    ● 中央集権的組織構造になる原因
    ○ データパイプラインの開発オーナーシップを決める上で、技術的な専門性やシステムアーキテク
    チャを境界にしている
    中央集権的組織構造の改善のためのアプローチ

    View full-size slide

  21. Copyright © KAKEHASHI Inc. All Rights Reserved.
    中央集権的組織構造の改善のためのアプローチ
    ● 初期のデータ基盤立ち上げフェーズで中央集権的組織構造になるのは自然な流れ
    ではある
    ● 一方で急速に進む会社事業の拡大に合わせて増加するデータ活用ニーズに合わせ
    て社内のデータ基盤運用組織の拡張性も確保する必要がある
    データメッシュの原則を参考にし、ビジネスドメインを境界とした分散オーナーシップ
    型データ基盤運用組織を目指す

    View full-size slide

  22. Copyright © KAKEHASHI Inc. All Rights Reserved.
    ● データメッシュとは
    ○ データ基盤における中央集権的組織構造の拡張性等の課題解消のために近年登場した概念
    ● データメッシュの4つの原則
    ○ Domain Ownership
    ■ データに対して最も専門性を持つドメインチームが、データの開発オーナーシップを持つ
    ○ Data as a product
    ■ データもプロダクトとして管理し、ドメインの内外にいるデータ利用者に高品質のデータを提供
    できるようにする
    ○ Self-serve data platform
    ■ 各ドメインのデータプロダクトの開発に集中するためのデータインフラが必要
    ○ Federated computational governance
    ■ ドメインと中央組織の間で責任範囲を分担したガバナンスの仕組みが必要
    中央集権的組織構造の改善のためのアプローチ

    View full-size slide

  23. Copyright © KAKEHASHI Inc. All Rights Reserved.
    中央集権的組織構造の改善のためのアプローチ
    ● カケハシで目指す分散オーナーシップ型データ基盤組織の具体像
    ○ 各ドメインチームはデータ領域のオーナーシップも持つ
    ○ データ基盤チームは横断的なマネジメント、ガバナンスに注力

    View full-size slide

  24. Copyright © KAKEHASHI Inc. All Rights Reserved.
    中央集権的組織構造の改善のためのアプローチ
    ● 分散オーナーシップ型の組織で期待すること
    ○ データ基盤の運用組織としての拡張性を確保
    ○ 最も専門性を有するドメインチームが開発を担うことで、利用者に向けてより質の高いソリューショ
    ンを提供
    ○ DataOpsの加速
    ■ データ関連の開発がドメインチームで完結するため、データの収集〜分析〜得られた洞察を
    ビジネスに活かすまでの一連のサイクルを高速に回すためのシステムと組織の構造を実現

    View full-size slide

  25. Copyright © KAKEHASHI Inc. All Rights Reserved.
    中央集権的組織構造の改善のためのアプローチ
    ● システムアーキテクチャを最適化する上でも有効
    ○ ドメインを境界とすることでコンウェイの法則がシステムアーキテクチャに対して良い方向に作用す

    ○ データ品質の本質的な向上施策はデータの最上流からの改善が必要
    ■ Garbage In, Garbage Out
    ■ データパイプライン上でオーナーシップが分断されている場合、チーム間のコミュニケーショ
    ンコスト、パワーバランス、開発優先度調整等が絡んでくる

    View full-size slide

  26. Copyright © KAKEHASHI Inc. All Rights Reserved.
    中央集権的組織構造の改善のためのアプローチ
    ● カケハシの組織構造とも相性良い
    ○ 事業ドメイン毎にサービス開発のチームが分割され自走する構造
    ○ 各チーム内にエンジニア、データサイエンティスト、 PdM、PMM、ドメインエキスパート等、サービスを
    開発、運用する上で必要なロールのメンバーが所属
    ○ データ活用も開発チームに閉じたユースケースが多く、一部では既に実質的にオーナーシップを渡
    している部分もある

    View full-size slide

  27. Copyright © KAKEHASHI Inc. All Rights Reserved.
    課題解消に向けたアプローチ
    技術面、運用組織面の課題の解決のためには、データ基盤の技術的な刷新、組織構造
    の漸進的な変革が必要
    分散オーナーシップ組織を前提とした運用が可能かつ、技術課題も解決できるデータ基
    盤プラットフォームの導入が必要と判断

    View full-size slide

  28. Copyright © KAKEHASHI Inc. All Rights Reserved.
    Databricks採用の決め手、期待したこと

    View full-size slide

  29. Copyright © KAKEHASHI Inc. All Rights Reserved.
    Databricks採用の決め手、期待したこと
    要約するとDatabricksのアーキテクチャコンセプトがカケハシの要件に合致していた
    決め手となった点は:
    ● データレイクハウスアーキテクチャのメリット
    ● 強固なデータエンジニアリング組織の実現
    ● 横断的なデータマネジメントを技術面でサポート
    ● 分散オーナーシップ型組織の実現をサポート

    View full-size slide

  30. Copyright © KAKEHASHI Inc. All Rights Reserved.
    ● データレイク〜ウェアハウスまで共通したデータストア・クエリエンジン
    ● ファイルベースの基盤でSpark Read, Writeを繋げるシンプルなデータフロー
    ● DBFSによるファイルアクセスの抽象化により、マルチクラウド環境にも強い
    ● 未連携のRawデータへのアクセスが容易
    データレイクハウスアーキテクチャのメリット
    データ基盤のアーキテクチャが非常にシンプルになり、開発コストや運用コストが削減可

    View full-size slide

  31. Copyright © KAKEHASHI Inc. All Rights Reserved.
    ● Databricksの標準機能でデータ基盤を構築可能
    ○ ETL処理, ワークフローエンジン , BI, 機械学習に至るまで の要素をオールインワンで提供している
    ため、基本的に標準機能でデータ基盤を構築可能
    ○ 自前で各種サービスを組み合わせるケースも減らせる
    データレイクハウスアーキテクチャのメリット
    データ基盤構築例)

    View full-size slide

  32. Copyright © KAKEHASHI Inc. All Rights Reserved.
    ● 組織内のスキルを標準化
    ○ Apache Spark, Delta Lake, MLflow等のOSSベースの機能を会社のデータエンジニアリング、機械
    学習における標準技術に
    強固なデータエンジニアリング組織の実現
    ● データエンジニアリングの知見の蓄積・共有による生産性の向上に繋がる
    ○ 概念レベルでのデータエンジニアリングの知見を全社横断的に共有可能
    ○ チームを越境したデータエンジニアリソースの流動性を確保
    ○ 既存人材のデータ領域への進出のための教育コストを削減

    View full-size slide

  33. Copyright © KAKEHASHI Inc. All Rights Reserved.
    ● オープンな仕様
    ○ 個人のスキルセットのベンダロックイン回避
    ○ 組織の開発資産、データのベンダロックイン回避
    ○ PythonやScala等を操るエンジニアも広くデータエンジニアリングへ招待
    ○ 採用市場の人材への訴求効果
    ● 豊富な言語選択肢
    ○ Notebookの言語をPython, Scala, R, SQLから選択可能
    ○ 多様なバックグラウンドを持つメンバーが得意な言語で実装可能
    強固なデータエンジニアリング組織の実現

    View full-size slide

  34. Copyright © KAKEHASHI Inc. All Rights Reserved.
    強固なデータエンジニアリング組織の実現
    職種やチームを問わず、データを利用する全員で知見を共有し、強固なデータエンジニ
    アリング組織の実現が目指せる!

    View full-size slide

  35. Copyright © KAKEHASHI Inc. All Rights Reserved.
    横断的なデータマネジメントをサポート
    ● 横断的なデータマネジメントの施策が実施可能
    ○ データ基盤がDatabricks上で完結させれるため、メタデータ情報の捕捉範囲の網羅性が高くなる
    ○ メタデータの情報は網羅性が重要になってくるが、捕捉対象が限定的であったり収集先の対象
    が増えるとその分ガバナンスコストが膨れ上がる
    各種マネジメント、監視が必要
    全てのデータ、処理、操作
    がマネジメント対象になり得

    View full-size slide

  36. Copyright © KAKEHASHI Inc. All Rights Reserved.
    横断的なデータマネジメントをサポート
    ● 標準機能の充実
    ○ データカタログ機能や、 Unity Catalogによるデータリネージュの自動収集、統合的なデータアク
    セス権限管理の機能は基盤チームの負荷を軽減
    ○ 開発リソースが潤沢であれば自作したり OSSツールを別途導入するという選択肢もありだが、状
    況的に厳しい
    データリネージュ例

    View full-size slide

  37. Copyright © KAKEHASHI Inc. All Rights Reserved.
    分散オーナーシップ型の組織をサポート
    ● Workspace環境の分離
    ○ 個別の開発ドメインチーム単位で環境を分離可能
    ○ ETL環境を各自のAWSアカウント上にホストし、責任分界点を明確にして自走する環境を提供可能
    ○ Domain Ownership, Data as a product, Self-serve data platformの面を支援
    ● Unity Catalogでのデータ共有、アクセス権限の管理
    ○ 分散したWorkspace間のデータを統合したデータストアとして会社全体で共有できる
    ○ 個別に環境は分離しているが、データストアに対しては横串でのアカウントの権限の管理が可能
    ○ データ基盤チームによるガバナンスコストを削減
    ○ Federated computational governanceの面を支援

    View full-size slide

  38. Copyright © KAKEHASHI Inc. All Rights Reserved.
    分散オーナーシップ型の組織をサポート
    分散オーナーシップ型のシステムアーキテクチャイメージ図

    View full-size slide

  39. Copyright © KAKEHASHI Inc. All Rights Reserved.
    分散オーナーシップ型の組織をサポート
    分散オーナーシップ型のシステムアーキテクチャイメージ図
    データメッシュ原則
    - Domain Ownership
    - Data as a product
    - Self-serve data platform
    -
    データメッシュ原則
    - Federated computational
    governance

    View full-size slide

  40. Copyright © KAKEHASHI Inc. All Rights Reserved.
    今後のカケハシデータ基盤の目指す姿

    View full-size slide

  41. Copyright © KAKEHASHI Inc. All Rights Reserved.
    ● Databricksを全社横断データ基盤として活用
    ○ 2022/11時点でまだ移行フェーズ
    ● 分散オーナーシップ組織化を推進
    ○ Workspace環境を適切な範囲(事業ドメイン、境界づけられたコンテキスト)に徐々に分離していく
    ■ 初期のフェーズではモノリシックな環境で運用を開始
    ○ チーム内での必要なロールの明確化、ロールチェンジ、採用計画への反映等
    ● データ基盤チームは横断的なデータマネジメントに注力
    ○ データ基盤全体向けのガイドラインやポリシーの制定、各チームとの責任分界点の整理等の活動
    に徐々にシフト
    ○ データ利用者向けのデータ活用の手助け、文化の醸成の活動にも注力
    今後のアーキテクチャ、組織設計の構想

    View full-size slide

  42. Copyright © KAKEHASHI Inc. All Rights Reserved.
    最後に

    View full-size slide

  43. Copyright © KAKEHASHI Inc. All Rights Reserved.
    ● Databricksを活用したデータ基盤開発に興味がある方
    ● ヘルスケア領域のサービス開発に興味がある方
    ● データエンジニアリングに興味がある方
    ● カケハシに興味を持っていただいた方
    エンジニア絶賛募集中
    カケハシ採用サイト

    View full-size slide