急成長スタートアップを支えるデータ基盤の裏側

ほしいと出会えるイン
テントセールス急成長スタートアップを支えるデータ基盤の裏側 2024-03-13 Sales Marker CTO チンシン X @ShinChen03

INDEX © Sales Marker Co., Ltd. 2 01 自己紹介 02
事業紹介 03 要求の変化とデータ構造の変化 04 どう設計すれば良かった？ 05 最後に

株式会社SalesMarker 取締役CTO 陳晨（チンシン） / @ShinChen03 アメリカワシントン大学セントルイス校修士課程終了後、 LINE株式会社に新卒入社。全社横断ビッグデータプラットフォーム構築プロジェクトに従事後、日本マイクロソフトに転
職し、AI＆ビッグデータ部門にて世界中のお客様に対しシステム設計から開発、運用までシステム全般をサポート。その後株式会社スタンバイにてリアルタイム分析基盤の構築をリードする。テクノロジーで社会の効率化に貢献したい想いにより、 CrossBorder株式会社（現：株式会社Sales Marker）を共同創業。 ex 自己紹介

5 © Sales Marker Co., Ltd. ※出所： 2019 Gartner End-User
Buyer Surveyより自社の課題を解決するツールを導入したいとき、何をしますか？

% Webで検索をした経験がある

購買意思決定の60%を占める事前調査部分に直接アプローチできないことで取りこぼしが起きているため、事前調査時点でアプローチを行うことが必要購買プロセスの60%がWeb上で終了している 7 © Sales Marker Co., Ltd. BtoBビジネスにおいては購買プロセスのうち約60%が、ベンダーの営業担当者に会う前に
終了していると言われており、企業へのコンタクト段階ではほとんど意思決定が行われています。事前調査 60% 営業担当 40% BtoBビジネスにおける購買プロセス ※出所： 2019 Gartner End-User Buyer Surveyより

Buyer Surveyより Sales Markerは、 2年でARR15億円 YoY 900% 成長

Buyer Surveyよりユニコーン企業 “T2D3”の 2倍の成長速度

Buyer Surveyより組織人数: 2023/2 20人 → 2024/2 150人エンジニア数: 2023/2 3人 → 2024/2 25人 40人 80人 120人 150人 100人 80人 40人

エンジニアチームは世界トップレベルのメンバーが集まっています

米Googleを始め、世界から優秀な人材が集結

Buyer Surveyより Sales Markerは「インテントセールス」を実現します国内最大500万件の法人データ、370万件の人物データ、50億レコードのインテントデータを保有インテント 50億件法人データ 500万件人物データ 370万人インテントセールスの仕組み国内最大のデータ量

事業成長にと共に変化する要件急成長の裏側で、データに関するアーキテクチャはどう変化してきたのか？

事業成長にと共に変化する要件フェーズ１（サービス開始初期）インテントデータ x 法人データ x 部署データ x 人物データ x
部分検索要件データ構造 3 index Daily 要件データ構造法人データ: 500万インテントデータ: 2千インテントデータ × 法人データ

事業成長にと共に変化する要件フェーズ2（サービス開始2ヶ月後）インテントデータ x 法人データ x 部署データ x 人物データ x
部分検索要件データ構造 3 index Daily 課題：顧客のデータと突合する為、大量に名寄せを走らせる必要がある法人データの母数が多い為Aurora mysqlでは負荷が高い要件データ構造法人データ: 500万インテントデータ: 1万インテントデータ × 法人データ × 部分検索

事業成長にと共に変化する要件フェーズ2（サービス開始2ヶ月後）インテントデータ x 法人データ x 部署データ x 人物データ x
部分検索要件データ構造 3 index Daily 解決方法：Opensearchを導入し、検索用にデータを同期させる事で解決要件データ構造法人データ: 500万インテントデータ: 1万 1 index Daily インテントデータ × 法人データ × 部分検索

事業成長にと共に変化する要件フェーズ3 インテントデータ x 法人データ x 部署データ x 人物データ x
部分検索要件データ構造 3 index Daily 課題：法人だけでは課題解決できず、部署や人物のデータを導入する必要が新たに出てきた。要件データ構造 1 index Daily 法人データ: 500万部署データ: 150万人物データ: 300万インテントデータ: 100万インテントデータ × 法人データインテントデータ × 部署データインテントデータ × 人物データ × 部分検索

部分検索要件データ構造 3 index Daily 解決方法：開発期間が2週間の為Indexを追加する事で対応要件データ構造法人データ: 500万部署データ: 150万人物データ: 300万インテントデータ: 100万 3 index Daily インテントデータ × 法人データインテントデータ × 部署データインテントデータ × 人物データ × 部分検索

部分検索要件データ構造 3 index Daily 課題：OpensearchはJoin出来ず、Index間の横断的な検索が出来ない要件データ構造法人データ: 500万部署データ: 150万人物データ: 300万インテントデータ: 1000万 3 index Daily インテントデータ × 法人データ × 部署データ × 人物データ × 部分検索

部分検索要件データ構造 3 index Daily 解決方法：新たなIndex設計をし、一定冗長させることで横断検索を可能に要件データ構造法人データ: 500万部署データ: 150万人物データ: 300万インテントデータ: 1000万 Unified index Daily インテントデータ × 法人データ × 部署データ × 人物データ × 部分検索

部分検索要件データ構造 3 index Daily 課題：インテントデータが増えすぎてしまい、過去データを検索する際にパフォーマスが著しく落ちてしまう要件データ構造法人データ: 500万部署データ: 150万人物データ: 300万インテントデータ: 2億 Unified index Daily インテントデータ × 法人データ × 部署データ × 人物データ × 部分検索

部分検索要件解決方法：Athenaを新規に立ち上げ、定期的に古いデータをアーカイブする仕組みを作り、Hot/Coldデータの振り分けを実施要件法人データ: 500万部署データ: 150万人物データ: 300万インテントデータ: 2億インテントデータ × 法人データ × 部署データ × 人物データ × 部分検索データ構造 3 index Daily データ構造 Unified index Daily Daily

部分検索要件データ構造 3 index Daily 課題：ユーザーデータを混ぜた検索がしたいが、検索エンジンへのSyncが Dailyの為、不可能だった要件データ構造インテントデータ × 法人データ × 部署データ × 人物データ × 部分検索 × ユーサーデータ法人データ: 500万部署データ: 150万人物データ: 300万インテントデータ: 2億 Unified index Daily Daily

部分検索要件データ構造 3 index Daily 解決方法：Opensearchの更新をリアルタイムに要件データ構造インテントデータ × 法人データ × 部署データ × 人物データ × 部分検索 × ユーサーデータ法人データ: 500万部署データ: 150万人物データ: 300万インテントデータ: 20億 Unified index Daily Realtime

要件の発生時間軸とデータ構造の変化 3月 2022年サービス開始 2023年 2024年 7月 5月データ構造フェーズ2 10月
データ構造フェーズ3 2月データ構造フェーズ4 データ構造フェーズ5 データ構造フェーズ6 1月

データ構造フェーズ3 2月データ構造フェーズ4 データ構造フェーズ5 データ構造フェーズ6 1月全ての変更は2〜3週間内で行う必要があった新規機能の開発も止められなかった

データ構造フェーズ3 2月データ構造フェーズ4 データ構造フェーズ5 データ構造フェーズ6 1月エンジニアの人数は常に不足、顧客数は増え続けるので必須開発要件もどんどん増える

どう設計しておけば良かった？そもそもサービス開始から要件が大幅に変わっている短期間での修正が要求される

どう設計しておけば良かった？そもそもサービス開始から要件が大幅に変わっている短期間での修正が要求される完全に負債を避けることは不可能

どう設計しておけば良かった？よかった点要件が変わった時点で無理に対応せず、アーキテクチャレベルで素早く変更することで大きな負債を作らずに済んだ

どう設計しておけば良かった？よかった点もしOpensearchを導入せず、 Auroraで無理に進めていたら、全ての検索がAurora依存になってしまい、大きな負債になっていた可能性が高い

どう設計しておけば良かった？反省点もう少し未来を見据えれば良かった

どう設計しておけば良かった？もう一度やるなら半年後確実に起こる事を常に思い浮かべながら設計する

どう設計しておけば良かった？もう一度やるなら半年後確実に起こる事を常に思い浮かべながら設計する例：顧客が増える、データが増える、エンプラのユーザーが増え、顧客データとの連携等は予測できた

どう設計しておけば良かった？もう一度やるならデータ構造の特性を理解し、ボトルネックがある場合はシステムレベルで負債返済に取り組む

どう設計しておけば良かった？もう一度やるなら構造レベルのボトルネックがある場合、コードレベルで無理して頑張らない

どう設計しておけば良かった？もう一度やるなら逆に変数に関しては無理に考える必要がない例：新たなデータと連携する可能性新たな機能開発で既存の構造では対応できなくなる可能性

最後に

急成長スタートアップを支える データ基盤の裏側

急成長スタートアップを支える データ基盤の裏側

More Decks by Fumina Chihama

Featured

Transcript

急成長スタートアップを支えるデータ基盤の裏側

急成長スタートアップを支えるデータ基盤の裏側